日本語Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane
![[NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット](https://cdn-ak-scissors.b.st-hatena.com/image/square/05aaa2c0891efcc9c0687adc729c2094a968ac35/height=288;version=1;width=512/http%3A%2F%2Fwww.rondhuit.com%2Fwordpress%2Fwp-content%2Fuploads%2F09b26830239f52887ae9193ddee1694e-480x224.png)