呉座先生の最新リツイート群… このあとに謝罪とかされても…みたいな気持ちになる内容だ https://t.co/LV9VhQNEmX
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
TL; DR 文のトークン化のためのライブラリである konoha の紹介をします. (旧 tiny_tokenizer) ↓みたいな感じで使えます.なにとぞ〜 from konoha import WordTokenizer sentence = '自然言語処理を勉強しています' tokenizer = WordTokenizer('MeCab') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ます] tokenizer = WordTokenizer('Kytea') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ま, す] tokenizer = WordTokenizer('Sentencepie
はじめに konoha という形態素解析ライブラリを開発しています. このライブラリに対し, AllenNLP のインテグレーションを実装したので,今回はその紹介をします. この機能を利用することで,日本語のテキストを分かち書きなどの前処理なしで allennlp train コマンドに渡せるようになります. AllenNLP は Allen Institute for Artificial Intelligence が開発している自然言語処理のライブラリです. AllenNLp は非常に強力なツールなのですが,日本語のデータを扱いたい場合,予め形態素解析をしておく前処理が必要になることがあります. Spacy と Ginza のおかげで, Universal Dependencies (UniDic) が採用している単位であれば, AllenNLP で日本語データを扱うことは可能そうです
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く