[B! 自然言語処理] namikisterのブックマーク

namikister id:namikister

自然言語処理に関するnamikisterのブックマーク (2)

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)
いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（
namikister 2007/03/20
cpan

perl

自然言語処理
リンク
統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発
日本語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日本語解析エンジンは「世界初」（同社）という。 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析
namikister 2006/06/16
technology

software

形態素解析

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx