指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
※ 画像は公式サイトデモより 分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。 大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。 今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。 わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日本語として正しく書かれている新聞記事などに対して強いが、
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く