一定期間更新がないため広告を表示しています
職場の人の繋がりでお声がけいただいて、Kuromojiという形態素解析エンジンを紹介していただきました。 ■ Kuromoji ATILIKAという某検索エンジン会社に勤めていた人の会社で作っている ApacheライセンスなピュアJavaな形態素解析エンジンです。 Javaって言う事でMavenでホゲホゲできるそうです。 http://atilika.org/こちらで紹介されています。 #黒文字ってのは植物の名前で、そっからできたつまようじの事を言うんだそうで、 #これがモチーフになんだよーと見せていただきましたw ■ 形態素解析 / N-Gram 形態素解析とN-Gram〜とかコレ系だとよくある感じですが、その辺のサポートもされてます。 #詳しい話を聞かせてもらったのですが、そもそもの知識不足と英語力不足でイマイチ…orz ■ 辞書 IPAのヤツがベースになっていて、拡張する事も出来ます
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く