タグ

text-segmentationに関するnabinnoのブックマーク (3)

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • rubyから形態素解析ライブラリkuromojiを使う - Qiita

    kuromojiとは Kuromojiはatilika社が開発したJavaで作成されたオープンソースの日形態素解析エンジンです。 Kuromojiは下記の機能を持っています。 複合語の分割 品詞のタグ付け 見出し化 漢字の読み方を抽出 検索用の設計(複数の単語分割モード) KuromojiのライセンスはApache v2ライセンスなので、商用でも利用できそうです。 準備 ソースコードはgithubにあるのでビルドしても良いのですが、zipでもダウンロードする事が出来ます。 今回はプロジェクトディレクトリ以下に解凍し、呼び出します。 kuromojiはjavaで作成されていますが、今回はrubyから使うことが目的なので、rjbを使います。 rjbはJNI (Java Native Interface) を利用してJava VMを操作するライブラリです。 具体的には、Rubyプロセス内にJ

    rubyから形態素解析ライブラリkuromojiを使う - Qiita
  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

    形態素解析 - Wikipedia
  • 1