タグ

kuromojiとtext-segmentationに関するnabinnoのブックマーク (2)

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • rubyから形態素解析ライブラリkuromojiを使う - Qiita

    kuromojiとは Kuromojiはatilika社が開発したJavaで作成されたオープンソースの日形態素解析エンジンです。 Kuromojiは下記の機能を持っています。 複合語の分割 品詞のタグ付け 見出し化 漢字の読み方を抽出 検索用の設計(複数の単語分割モード) KuromojiのライセンスはApache v2ライセンスなので、商用でも利用できそうです。 準備 ソースコードはgithubにあるのでビルドしても良いのですが、zipでもダウンロードする事が出来ます。 今回はプロジェクトディレクトリ以下に解凍し、呼び出します。 kuromojiはjavaで作成されていますが、今回はrubyから使うことが目的なので、rjbを使います。 rjbはJNI (Java Native Interface) を利用してJava VMを操作するライブラリです。 具体的には、Rubyプロセス内にJ

    rubyから形態素解析ライブラリkuromojiを使う - Qiita
  • 1