[B! algorithm][text] hiromarkのブックマーク

hiromark id:hiromark

algorithmとtextに関するhiromarkのブックマーク (12)

overlasting.net
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
hiromark 2011/01/28
algorithm

text

book

欲しい
リンク
ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録
カイ二乗値を用いた特徴選択（2010/6/25）の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ（人工知能に関する断想録）の記事を分類してみます。このブログの各記事には私の判断でカテゴリをつけています。たとえば、この記事は[機械学習][自然言語処理]です。カテゴリのリストはこのブログの左メニューにあります。この前、少し整理したので全部で18のカテゴリがあります。新しい記事を書いたとき自動でカテゴリを割り振ることはできるのでしょうか？（注）プログラミング言語はPythonを使っています。シリーズもので以前作ったコードを再利用してるので検索で飛んできた人はナイーブベイズを用いたテキスト分類（2010/6/13）から順に読んでください。はてなダイアリーデータのダウンロードと整形まず、はてなダイア
hiromark 2010/07/04
algorithm

text
リンク
超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)
超高速テキスト処理のためのゕルゴリズムとデータ構造東京大学情報理工学系研究科* 岡野原大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が（株）プリフゔード゗ンフラストラクチャーになります。内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景大規模自然言語処理と機械学習背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ～1010 語 – c.f. Penn TreeB
hiromark 2010/03/09
text

algorithm

ir

nlp
リンク
Oracle Data Mining Techniques and Algorithms
Most commonly used technique for predicting a specific outcome such as response / no-response, high / medium / low-value customer, likely to buy / not buy. Logistic Regression—classic statistical technique but now available inside the Oracle Database and supports text and transactional data Naive Bayes—Fast, simple, commonly applicable Support Vector Machine—Next generation, supports text and wid
hiromark 2010/03/03
わかりやす。

text

algorithm
リンク
構築した辞書を元にAho Corasick法を使ってキーワードを探す - yasuhisa's blog
どのようなときにAho Corasick法が必要か辞書構築した後の応用先(?)の一つとして、辞書を元にした転置インデックスを作ることがあげられる。「どのキーワードがどの文章に登場したか」が一番簡単な転置インデックスだと思うんだけど、今回は登場した文章のどの位置にあったかまで記録したい(例えばリンクを張る時に使いたいから)。転置インデックス作るときは、通常形態素解析ベース N-gramベースの2種類が主な手法だと思うんだけど、今回はせっかく構築した辞書をもとに転置インデックスを作りたいので、上の2つではうまくできない。かといって、文章とキーワード総当たりとかやっていたら死ぬので、効率のよい方法が必要。そこでAho Corasick法ですよ、奥さん。はてなキーワードへのリンク処理とかに使われたりします。入力と出力入力と出力を先に紹介しよう。入力は辞書とこんな感じの文章。 <総説誌名>蛋白
hiromark 2009/12/14
AC法って意外とシンプルに書けるんですねー。

algorithm

ahocorasick

programming

text

ir

c++
リンク
正規表現でCommon Prefix Search
正規表現でCommon Prefix Search 2007-05-15-1 [Programming][Algorithm] 正規表現でCommon Prefix Searchを行う力技な方法のPerlによるサンプル。ちょっと試すとき用のコピペ用コード片、といった感じのものです。 TRIEとかオートマトンとかでちゃんとやるのが王道ですよ。コード： use strict; use warnings; use utf8; binmode STDOUT, ":utf8"; my $str = "あうえういあおういいういああ"; my $key = "ういあ"; my @chars = split("", $key); my $pat = join("(", @chars).(")?" x $#chars); while ($str =~ /($pat)/g) { print "$1\n";
hiromark 2009/08/25
ちょっとした実験に便利そう。

perl

regexp

algorithm

text
リンク
Aho Corasick 法 - naoyaのはてなダイアリー
適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと
hiromark 2009/04/06
"任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法"

algorithm

text

trie

ir

ahocorasick
リンク
「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も
hiromark 2008/11/25
試してみよう。

perl

algorithm

text

classification
リンク
きまぐれ日記: Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン
オンライン手書き文字認識エンジンZinniaを公開しました。 http://zinnia.sourceforge.net/index-ja.html Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的なオンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 2年前に、Ajax手書き文字認識と言うものを作ったのですが、その認識エンジンをスクラッチからポータブルでつ
hiromark 2008/09/17
SVM を使った手書き文字認識エンジン

algorithm

text

opensource

svm
リンク
http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf
hiromark 2008/09/08
まとまっていて勉強しやすそう。

language

text

algorithm

nlp
リンク
日本語形態素解析入門
日本語形態素解析入門 2005-03-30-2 [NLP] 山下達雄 / 日本語形態素解析入門 Version 0.9.1 / 1999 <http://ta2o.net/doc/tech/jma/jma19990514.pdf> (1.4M) 奈良先端科学技術大学院大学（NAIST）自然言語処理学講座（松本研）に D2の学生として所属していた1998年6月9日のミーティングで、新入生(M1) 向けに「日本語形態素解析」の入門講座を行った。その際に用いた資料を1999年5月14日に改定したものをPDF化して公開する。文書自体は Version 0.9.1 で、その後さらに加筆修整するつもりだったのだが、結局そのままだったようだ。ChaSen についての記述など内容は古いし、当然のことながらあちこちに重大な間違いがあるかもしれない。しょっぱなから大きな間違いがあって、トップペ
hiromark 2008/07/03
ざっと読んだけど、分かりやすくていい。

text

algorithm
リンク
コンテンツマッチの失敗例と形態素解析の必要性
コンテンツマッチの失敗例と形態素解析の必要性 2008-07-01-3 [NLP][Blog][Book] いしたにさんのブログ「みたいもん！」[mi]にて、紹介もしてないし、関連もないのに、なぜかやたら「チコバイブル」という本が Amazon おまかせリンク（アマゾンのコンテンツマッチ商品紹介ブログパーツ）で登場するという現象が。 - みたいもん！にはなぜやたらに「チコバイブル」ばかり出てくるのか？ http://mit aimon.cocolog-nifty.com/blog/2008/06/post_ab8d.html 謎が解けたようです。 - まさに自業自得のチコバイブル http://mit aimon.cocolog-nifty.com/blog/2008/07/post_c6f5.html まずは答えを先に書いてしまいましょう。チコ＝クチコミでした！確かにこのブログには死ぬほ
hiromark 2008/07/03
おお、わかりやすい！

text

search

algorithm
リンク
1