TL;DR sudachiの同義語辞書(synonym.txt)から同義語グループidと代表語の組み合わせを生成 生成した組み合わせをつかってsudachipyで簡易的に同義語辞書を使えるようにする 例としてわかちがき後同義語辞書をつかって正規化する 目的 テキストからの情報抽出やテキストの類似度計算などのタスクを行う際に、sudachiでの形態素解析で同義語を使いたかったのですが、sudachipyではsudachiの同義語辞書を利用できませんでした。 簡易的でいいので、sudachipyで簡易的に同義語辞書が使えるようにします。 今回の目的は、あくまでも形態素解析後の正規化です。特に、わかちがき後に同義語を同じ見出しに揃えることを目的としています。したがって、同義語の展開は行いません。 sudachiの同義語辞書 sudachiの同義語辞書はドキュメントによると、 Sudachi 辞書
TL;DR Sudachi同義語辞書を「Solr Synonyms形式」に変換して使う あくまで暫定的な使い方: 本来は形態素解析結果を元に厳密に展開されるべき ちゃんとしたフィルタープラグインは、徳島のSudachi公式がもうすぐ公開してくれるはず Sudachi同義語辞書とは ワークス徳島NLPが開発する、専門家の手による大規模で高品質な辞書 Apache2.0ライセンス、商用利用可 詳細は公式ドキュメントを参照のこと 同義語が単に羅列されているわけではなく、詳細化した同義関係が付与されています。 そして、この言語資源は定期的に専門家によりメンテナンス、更新されています。例えば、以下のような語も2020年7月のアップデートなどで追加されています; ... 023538,1,0,1,0,0,0,(医療),新型コロナウイルス感染症,, 023538,1,0,1,2,0,0,(医療),COV
はじめに AIシステム部AI研究開発グループ アルバイトの五十嵐です。( @bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。 私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。 取り組んだタスク 突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く