タグ

text-processingとjapaneseに関するIanLewisのブックマーク (3)

  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    IanLewis
    IanLewis 2010/06/04
    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。
  • kh.log - JUMAN Python バインディング (SWIG)

    « 2006.11.09のdel.icio.us Main safariの「DL後、"安全な"ファイルを開く」は危険 » JUMAN Python バインディング (SWIG) | 形態素解析器JUMANをPythonモジュールとして使うためのバインディングを作りました。 JUMANは-Sオプションをつけて起動すると、サーバーモードで動作します。サーバーモードのJUMANは他のプログラム(たとえばPython)とソケットで通信して、形態素解析の結果を返してくれます。大量の文書を解析するときなどは、ひとつの文書ごとにプロセスを起動するよりも効率がよいのですが、それでもソケット通信の分、速度が落ちてしまいます。 JUMANを、Cで書かれたPythonモジュールとしてラップしてやるバインディングさえ書ければ、このソケット通信の無駄をなくすことができます。 ちょうどSWIGの使いかたを学びたかった

    IanLewis
    IanLewis 2010/01/27
    形態素解析器JUMANをPythonモジュールとして使うためのバインディングを作りました。
  • 日本語構文解析システム KNP

    語構文解析システム KNP KNP は日語文の構文解析を行うシステムです。形態素解析システムの解析結果(形態素列)を入力とし, それらを文節単位にまとめ, 文節間の係り受け関係を決定します。 以下に典型的な使用例を示します。 % cat test 格文法は質的に統語規則と意味規則を共存させた文法であり, 日語の解析に広く用いられている。 % juman -e2 -B KNP Ver.2.0 をダウンロード (1,571,201 bytes) KNP Ver.2.0 (Windows版)をダウンロード(1,797,651 bytes) JUMAN/KNPのチュートリアルのスライド (京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2005/08/30) KNPを試してみる 自然言語処理のためのリソース にもどる

    IanLewis
    IanLewis 2010/01/27
    KNPは日本語文の構文・格解析を行うシステムです.形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節お
  • 1