タグ

2008年2月11日のブックマーク (1件)

  • MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介

    ※ 画像は公式サイトデモより 分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。 大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。 今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。 わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日語として正しく書かれている新聞記事などに対して強いが、

    MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介
    frsh_mt
    frsh_mt 2008/02/11
    辞書を使わない分かち書き。後でソース読む。