タグ

自然言語処理とJavaScriptに関するpmakinoのブックマーク (4)

  • MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介

    ※ 画像は公式サイトデモより 分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。 大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。 今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。 わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日語として正しく書かれている新聞記事などに対して強いが、

    MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介
  • js実装したHTML::Featureを使ってldr上でエントリ主要部分を見るgreasemonkeyスクリプト - koyachiの日記

    LDR x HTML::Feature in client – Userscripts.org 操作はeで選択したエントリを抽出、抽出した状態で再度eで折りたたみ。shift+eで文字コードを変えて再抽出。shift+eでの文字コード変更はshift_jis -> euc_jp -> utf-8を繰り返しです。デフォルトでutf-8で取得するのでutf-8以外の内容の場合に(2007-11-03)文字コードを自動検出して適切なコードに変更するようにしました。それでも文字化けしたらshift+eしてみてください。 TSUBUAN APIを使ったldr上でのEntryFullTextもどきをベースにしています。 HTML::Featureの詳細についてはHTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記を参照ください。 ちなみにjavascr

    js実装したHTML::Featureを使ってldr上でエントリ主要部分を見るgreasemonkeyスクリプト - koyachiの日記
  • Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

    Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。 実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し(実際にはそれより小さくすることができるのですが、まあ話のイメージとして)、かつメモリを大量に消費するので、バッチ的な処理に最適化されていない Javascript にはどうしても荷が重いものとなってしまいます。 比較対象の要素数を減らせば当然計算量は減りますが、行単位で比較してもあまり嬉しくない(わざわざ Javascript で処理するということは自然文が対象と思って良いでしょう)。最小の文字単位だとギブアップ。 ということは形態素解析で分かち書きして、単語単位で diff するのが J

  • エブログ JavaScript で形態素解析もどき

    JavaScript形態素解析もどき JavaScript形態素解析のようなものを。 totonの日記 - すべての漢字を取り出す正規表現 「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌 これらの記事を参考にして JavaScript で漢字、ひらがな、カタカナ、英数字に区切ることをしています。 ただ、文字コード的にちゃんとできるのか、よくわかりません。Seesaa はShift_jis なのでおかしくなる場合もあるかも知れないです。 下のテキストエリアに文章を入力して解析ボタンを押すと解析結果が表示されます。解析というか、単純に改行で区切っているだけですが。 サンプルは青空文庫の太宰治 走れメロスの冒頭部分。 メロスは激怒した。必ず、かの邪智暴虐(じゃちぼうぎゃく)の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛

    エブログ JavaScript で形態素解析もどき
  • 1