[B! text-processing] IanLewisのブックマーク

IanLewis id:IanLewis

text-processingに関するIanLewisのブックマーク (7)

BLOG::broomie.net: 機械学習・自然言語処理のリソースリンク集
いつもネット上で機械学習やNLPに関する便利そうなツールや，有用なドキュメント，動画，ツールなどをメモしているのですが，今後の調査のためにどこかに一つに集約しておきたいなあ，と思い，この記事に集約しておくことにしました．昨今，自動リンク集や，自動インデックス作成に関して研究が盛んにされていますが，これは人力リンク集です！リンク先はほとんどさらっとしか見ていないので本当に有用かどうか保証できませんが，興味を持ったものは掘り下げて別の記事で紹介したいと思います．おもしろいものを見つけしだい，このエントリーは更新していきたいと思います． ※ 有名どころをカバーしているわけではありません，あくまで気まぐれで追加していきます．．． ※ いくつかカテゴリ間で重複します解説・読み物系リソース全般 Statistical Data Mining Tutorials Tutorial Slides by
IanLewis 2010/06/04
machine-learning

text-processing

nlp
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
IanLewis 2010/06/04
TinySegmenterã¯Javascriptã ãæ¸ãããæ¥µãã¦ã³ã³ãã¯ããªæ¥æ¬èªåãã¡æ¸ãã½ããã¦ã§ã¢ã§ãã

japanese

javascript

tinysegmenter

text-processing

nlp
リンク
Boyer–Moore - Wikipedia
IanLewis 2010/06/03
The BoyerâMoore string search algorithm is a particularly efficient string searching algorithm, and it has been the standard benchmark for the practical string search literature.[1] It was developed by Bob Boyer and J Strother Moore in 1977. The algorithm preprocesses the target string (key) th

algorithm

string

search

text-processing
リンク
ECナビデベロッパーネットワーク: NavicSearch API で利用しているTokenizer 0.7
Solr 1.4が2009/11/10に公開されました. ECナビではまだSolr 1.4を実際のサービスには利用してませんが, Tokenizerを1.4に合わせて変更したので公開致します. NavicSearch APIで利用している Tokenizerは, Solr付属のCJKTokenizerとほぼ同等の動きをします. ラテン文字についてはスペースで分割してTokenを作成. 非ラテン文字については bi-gram でTokenを切り出します. ソース: ecnavi-tokenizer-for-solr-1.4-0.7-dev.tar.bz2 ECナビデベロッパーネットワーク: NavicSearch API で利用しているTokenizer 0.5からの変更点は以下の通りです. Solr 1.4に対応しました.
IanLewis 2010/05/13
ecnavi

tokenizer

solr

text-processing

search
リンク
Videolectures
IanLewis 2010/03/15
We introduce confidence-weighted linear classifiers, a new class of algorithms that maintain confidence information about classifier parameters. Learning in this framework updates parameters by estimating weights and increasing model confidence. We investigate a new online algorithm that maintains a

linear-classification

machine-learning

classification

text

text-processing
リンク
kh.log - JUMAN Python バインディング (SWIG)
« 2006.11.09のdel.icio.us Main safariの「DL後、"安全な"ファイルを開く」は危険 » JUMAN Python バインディング (SWIG) | 形態素解析器ＪＵＭＡＮをPythonモジュールとして使うためのバインディングを作りました。 JUMANは-Sオプションをつけて起動すると、サーバーモードで動作します。サーバーモードのJUMANは他のプログラム（たとえばPython）とソケットで通信して、形態素解析の結果を返してくれます。大量の文書を解析するときなどは、ひとつの文書ごとにプロセスを起動するよりも効率がよいのですが、それでもソケット通信の分、速度が落ちてしまいます。 JUMANを、Cで書かれたPythonモジュールとしてラップしてやるバインディングさえ書ければ、このソケット通信の無駄をなくすことができます。ちょうどSWIGの使いかたを学びたかった
IanLewis 2010/01/27
å½¢æç´ è§£æå¨ï¼ªï¼µï¼ï¼¡ï¼®ãPythonã¢ã¸ã¥ã¼ã«ã¨ãã¦ä½¿ãããã®ãã¤ã³ãã£ã³ã°ãä½ãã¾ããã

juman

python

japanese

text

text-processing
リンク
日本語構文解析システム KNP
日本語構文解析システム KNP KNP は日本語文の構文解析を行うシステムです。形態素解析システムの解析結果(形態素列)を入力とし, それらを文節単位にまとめ, 文節間の係り受け関係を決定します。以下に典型的な使用例を示します。 % cat test 格文法は本質的に統語規則と意味規則を共存させた文法であり, 日本語の解析に広く用いられている。 % juman -e2 -B KNP Ver.2.0 をダウンロード (1,571,201 bytes) KNP Ver.2.0 (Windows版)をダウンロード(1,797,651 bytes) JUMAN/KNPのチュートリアルのスライド (京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2005/08/30) KNPを試してみる自然言語処理のためのリソースにもどる
IanLewis 2010/01/27
KNPã¯æ¥æ¬èªæã®æ§æã»æ ¼è§£æãè¡ãã·ã¹ãã ã§ãï¼å½¢æç´ è§£æã·ã¹ãã JUMANã®è§£æçµæ(å½¢æç´ å)ãå¥åã¨ã, æç¯ã

knp

japanese

text

text-processing
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx