タグ

text-processingに関するIanLewisのブックマーク (7)

  • BLOG::broomie.net: 機械学習・自然言語処理のリソースリンク集

    いつもネット上で機械学習NLPに関する便利そうなツールや,有用なドキュメント,動画,ツールなどをメモしているのですが,今後の調査のためにどこかに一つに集約しておきたいなあ,と思い,この記事に集約しておくことにしました.昨今,自動リンク集や,自動インデックス作成に関して研究が盛んにされていますが,これは人力リンク集です!リンク先はほとんどさらっとしか見ていないので当に有用かどうか保証できませんが,興味を持ったものは掘り下げて別の記事で紹介したいと思います.おもしろいものを見つけしだい,このエントリーは更新していきたいと思います. ※ 有名どころをカバーしているわけではありません,あくまで気まぐれで追加していきます... ※ いくつかカテゴリ間で重複します 解説・読み物系リソース 全般 Statistical Data Mining Tutorials Tutorial Slides by

  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    IanLewis
    IanLewis 2010/06/04
    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。
  • Boyer–Moore - Wikipedia

    IanLewis
    IanLewis 2010/06/03
    The Boyer–Moore string search algorithm is a particularly efficient string searching algorithm, and it has been the standard benchmark for the practical string search literature.[1] It was developed by Bob Boyer and J Strother Moore in 1977. The algorithm preprocesses the target string (key) th
  • ECナビ デベロッパー ネットワーク: NavicSearch API で利用しているTokenizer 0.7

    Solr 1.4が2009/11/10に公開されました. ECナビではまだSolr 1.4を実際のサービスには利用してませんが, Tokenizerを1.4に合わせて変更したので公開致します. NavicSearch APIで利用している Tokenizerは, Solr付属のCJKTokenizerとほぼ同等の動きをします. ラテン文字についてはスペースで分割してTokenを作成. 非ラテン文字については bi-gram でTokenを切り出します. ソース: ecnavi-tokenizer-for-solr-1.4-0.7-dev.tar.bz2 ECナビ デベロッパー ネットワーク: NavicSearch API で利用しているTokenizer 0.5からの変更点は以下の通りです. Solr 1.4に対応しました.

  • Videolectures

    IanLewis
    IanLewis 2010/03/15
    We introduce confidence-weighted linear classifiers, a new class of algorithms that maintain confidence information about classifier parameters. Learning in this framework updates parameters by estimating weights and increasing model confidence. We investigate a new online algorithm that maintains a
  • kh.log - JUMAN Python バインディング (SWIG)

    « 2006.11.09のdel.icio.us Main safariの「DL後、"安全な"ファイルを開く」は危険 » JUMAN Python バインディング (SWIG) | 形態素解析器JUMANをPythonモジュールとして使うためのバインディングを作りました。 JUMANは-Sオプションをつけて起動すると、サーバーモードで動作します。サーバーモードのJUMANは他のプログラム(たとえばPython)とソケットで通信して、形態素解析の結果を返してくれます。大量の文書を解析するときなどは、ひとつの文書ごとにプロセスを起動するよりも効率がよいのですが、それでもソケット通信の分、速度が落ちてしまいます。 JUMANを、Cで書かれたPythonモジュールとしてラップしてやるバインディングさえ書ければ、このソケット通信の無駄をなくすことができます。 ちょうどSWIGの使いかたを学びたかった

    IanLewis
    IanLewis 2010/01/27
    形態素解析器JUMANをPythonモジュールとして使うためのバインディングを作りました。
  • 日本語構文解析システム KNP

    語構文解析システム KNP KNP は日語文の構文解析を行うシステムです。形態素解析システムの解析結果(形態素列)を入力とし, それらを文節単位にまとめ, 文節間の係り受け関係を決定します。 以下に典型的な使用例を示します。 % cat test 格文法は質的に統語規則と意味規則を共存させた文法であり, 日語の解析に広く用いられている。 % juman -e2 -B KNP Ver.2.0 をダウンロード (1,571,201 bytes) KNP Ver.2.0 (Windows版)をダウンロード(1,797,651 bytes) JUMAN/KNPのチュートリアルのスライド (京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2005/08/30) KNPを試してみる 自然言語処理のためのリソース にもどる

    IanLewis
    IanLewis 2010/01/27
    KNPは日本語文の構文・格解析を行うシステムです.形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節お
  • 1