タグ

分かち書きに関するfrsh_mtのブックマーク (2)

  • TinySegmenterをRubyに移植 - llameradaの日記

    Javascriptだけで書かれたコンパクトな分かち書きソフトウェアであるTinySegmenterをRubyに移植しました。移植してから別実装があるのに気がつきましたが、気にせず公開することにします。 Codereposにアップしてありますので、下記のURLよりダウンロードできます。 http://svn.coderepos.org/share/lang/ruby/ruby_tiny_segmenter/ MeCabに対するTinySegmenterの利点は、Ruby だけで書かれているので、どんな環境でも簡単に動作する点です。インストールも簡単です。Windows環境でMeCabをRubyから扱うのは少し面倒ですが、TinySegmenterならば殆んど問題ありません。 実行例はこんな感じです。 require "tiny_segmenter" words = TinySegmente

    TinySegmenterをRubyに移植 - llameradaの日記
  • MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介

    ※ 画像は公式サイトデモより 分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。 大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。 今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。 わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日語として正しく書かれている新聞記事などに対して強いが、

    MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介
    frsh_mt
    frsh_mt 2008/02/11
    辞書を使わない分かち書き。後でソース読む。
  • 1