Kuromoji demo Enter Japanese text below in UTF-8 and click Tokenize. Note Input is limited to 512 chars for Search, Normal and Extended, and 32 chars for Viterbi. Viterbi needs SVG browser support.
tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析器 形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
Java で書かれた日本語形態素解析ライブラリ Kuromoji を Perl から使ってみたいなー、と思って、別の言語のプログラムから使いやすいようなインターフェイスを書きました。 Kuromoji について kuromoji - japanese morphological analyzer Java で書かれたオープンソースの日本語の形態素解析ライブラリです。 検索用のライブラリらしくて、Apache Lucene と Apache Solr に組み込まれているらしいです。 もちろん検索エンジンとは独立して利用することも可能です。 独立して使用する場合は、単に jar ファイルをダウンロードしてきて Java のライブラリパスに追加するだけ (あるいは公開されている Maven リポジトリを使用して依存関係を解決するだけ) で形態素解析できるようになります。 便利ですね。 Java
solr3.6、ついにリリースされましたね。 solr3.6になって、atilikaが作っている、 日本語形態素解析機である「kuromoji」が標準搭載される事になりました。 比較的新しく、pure javaなので、senやgosenではなくkuromojiを使っていくといいかと思います。 (lucene-gosenもいいですが、やはり標準搭載を使って行きたい) 早速synonym(同義語)の設定をしてみます。 field_typeがtext_jaのものが、kuromojiによる形態素の設定のようです。 まずはanalyzerの設定を、queryとindexに分けます。 <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
職場の人の繋がりでお声がけいただいて、Kuromojiという形態素解析エンジンを紹介していただきました。 ■ Kuromoji ATILIKAという某検索エンジン会社に勤めていた人の会社で作っている ApacheライセンスなピュアJavaな形態素解析エンジンです。 Javaって言う事でMavenでホゲホゲできるそうです。 http://atilika.org/こちらで紹介されています。 #黒文字ってのは植物の名前で、そっからできたつまようじの事を言うんだそうで、 #これがモチーフになんだよーと見せていただきましたw ■ 形態素解析 / N-Gram 形態素解析とN-Gram〜とかコレ系だとよくある感じですが、その辺のサポートもされてます。 #詳しい話を聞かせてもらったのですが、そもそもの知識不足と英語力不足でイマイチ…orz ■ 辞書 IPAのヤツがベースになっていて、拡張する事も出来ます
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く