ブックマーク / qiita.com/klis (2)

  • 日本語解析ツール Konoha に AllenNLP 連携機能を実装した - Qiita

    はじめに konoha という形態素解析ライブラリを開発しています. このライブラリに対し, AllenNLP のインテグレーションを実装したので,今回はその紹介をします. この機能を利用することで,日語のテキストを分かち書きなどの前処理なしで allennlp train コマンドに渡せるようになります. AllenNLP は Allen Institute for Artificial Intelligence が開発している自然言語処理のライブラリです. AllenNLp は非常に強力なツールなのですが,日語のデータを扱いたい場合,予め形態素解析をしておく前処理が必要になることがあります. Spacy と Ginza のおかげで, Universal Dependencies (UniDic) が採用している単位であれば, AllenNLP で日語データを扱うことは可能そうです

    日本語解析ツール Konoha に AllenNLP 連携機能を実装した - Qiita
    yag_ays
    yag_ays 2020/05/03
  • トークナイザをいい感じに切り替えるライブラリ konoha を作った - Qiita

    TL; DR 文のトークン化のためのライブラリである konoha の紹介をします. (旧 tiny_tokenizer) ↓みたいな感じで使えます.なにとぞ〜 from konoha import WordTokenizer sentence = '自然言語処理を勉強しています' tokenizer = WordTokenizer('MeCab') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ます] tokenizer = WordTokenizer('Kytea') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ま, す] tokenizer = WordTokenizer('Sentencepie

    トークナイザをいい感じに切り替えるライブラリ konoha を作った - Qiita
    yag_ays
    yag_ays 2019/11/15
  • 1