タグ

形態素解析に関するkicchomu3のブックマーク (4)

  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

  • http://d.hatena.ne.jp/lestrrat/20060501

  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • [を] キーワード抽出モジュール Lingua-JA-Summarize

    キーワード抽出モジュール Lingua-JA-Summarize 2006-04-26-2 [Programming][NLP] Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php サイボウズラボの奥一穂さんによるキーワード抽出を行うPerlモジュール。 形態素辞書にある単語コスト(解析に使用するやつ)を TF-IDF っぽく使っ てキーワード抽出する手法。手軽にさくっと使えて非常に良い感じです! これを使っていろいろアサマシいことなどもやってみようかと思います! 以下、コピペしたら動くサンプルです。threshold がデフォルトのまま の値だとキーワードが抽出されないことがあるので、1 にしています。 #!/

  • 1