[B! algorithm][nlp] hiromarkのブックマーク

hiromark id:hiromark

algorithmとnlpに関するhiromarkのブックマーク (13)

TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ
TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました．発表資料 (検閲後) をuploadしました．なお，2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが，実は両方とも実質同じアルゴリズムでした．片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈．もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています．その部分を修正しました．@uchumikさんのコメントで気が付きました．どうもありがとうございます． TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ．どうやら徹夜明けの妙な
hiromark 2011/04/24
nlp

ml

svm

algorithm
リンク
単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや？ - あらびき日記
この記事は abicky.net の単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや？に移行しました
hiromark 2011/01/30
nlp

algorithm
リンク
機械学習超入門〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。機械学習を「作りたい」のか「使いたいのか」まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。「最も簡単な機械学習はナイーブベイズ」という幻想機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか
hiromark 2011/01/15
僕は機械学習は専門家ではないけれどこれは良エントリだと思った。

ml

algorithm

nlp
リンク
「第3回自然言語処理勉強会＠東京」でCSAについて発表します - EchizenBlog-Zwei
@nokunoさんの好意で「第3回自然言語処理勉強会＠東京」でCompressed Suffix Arrayについて発表させていただくことになりました。つきましては参考のため発表資料を以下に置いておきます。参加される方はもちろん、興味のある方はご覧になっていただけるとうれしいです。第3回自然言語処理勉強会＠東京 : ATND 第3回自然言語処理勉強会＠東京を開催します - nokunoの日記なお本資料は以下の皆様のアドバイスを頂きました。ありがとうございました(とくに@overlastさんには4-5時間もお付き合い頂きました。おかげさまでスライドの質が大幅アップしました。感謝)。 @overlastさん @tamago_donburiさん @tsubosakaさん @machyさん
hiromark 2010/11/10
この話をここまできれいにまとめるとはすばらしい。

suffixarray

compression

nlp

ir

algorithm
リンク
Micterの単語分割部の高速化を試してみた結果 - sileのブログ
tkngさんが作成したMicterという単語分割器の分割部を高速化できるような気がしたので試してみた。そのメモ。試した結果のソース一式はmimicという名前でgithubに保存しておくことにする*1。結果まず、結果から*2。 # 分割対象のテキスト(のサイズ) $ ls -lh /tmp/test.data -rw-r--r-- 1 user user 41M 2010-07-05 22:48 /tmp/test.data # MeCab $ time mecab -Owakati /tmp/test.data > /dev/null real 0m10.843s # 10秒 user 0m10.777s sys 0m0.068s # Micter $ ls -lh micter.model -rw-r--r-- 1 user user 1.8M 2010-07-06 08:30
hiromark 2010/07/07
algorithm

mecab

nlp
リンク
HMM, MEMM, CRF まとめ - あらびき日記
この記事は abicky.net の HMM, MEMM, CRF まとめに移行しました
hiromark 2010/06/21
あとでよむ。

nlp

algorithm
リンク
グラフラプラシアンで推薦
以前縁あって小町さんと一緒に仕事をさせてもらい論文に名前を載せてもらったのですが、会社だけでなく自宅でもちょっと使いたいなーということもあり、実装してみることにしました。参考にしたのは以下の論文です。ラプラシアンラベル伝播による検索クリックスルーログからの意味カテゴリ獲得元論文と違うのは、インスタンス-パターン行列の要素を単純な頻度から別の尺度に変えている点です。元々そのまんま実装してみたところ、非常にレアな場合なのですが、ジェネリックパターン1つのみと共起するようなインスタンスがあった場合に、これが上位に出やすくなるという問題が発生し、どうにかできないかなと模索していたところ、小町さんからアドバイスを頂き、それを基に手を加えています。とりあえず動作検証のためにMovieLens Data Setsを使って実験してみました。最初にデータのフォーマットをツールの入力形式へ変更。
hiromark 2010/06/18
nlp

algorithm

recommendation
リンク
DO++ : 線形識別器チュートリアル
ワークショップ中の夕食で話したのですが、今のところ日本で（素性関数ベース＆線形識別器）機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル（英語）がありました。夏の学校資料[pdf] その他のコードやリンクちょっとだけ解説現在自然言語処理の多くで使われている学習器は線形識別器です。入力x（例：単語、文、文書）から出力y（例：品詞、品詞列、文書のトピック）を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し（x,yのペアから値を取り出す関数を素性関数と呼ぶ）、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを
hiromark 2010/04/05
algorithm

nlp

classification
リンク
超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)
超高速テキスト処理のためのゕルゴリズムとデータ構造東京大学情報理工学系研究科* 岡野原大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が（株）プリフゔード゗ンフラストラクチャーになります。内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景大規模自然言語処理と機械学習背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ～1010 語 – c.f. Penn TreeB
hiromark 2010/03/09
text

algorithm

ir

nlp
リンク
構文解析と情報科学
そろそろ論文紹介記事を書いてみます． NLP2010のプログラムにもあるとおり，しばらく係り受け構文解析周りをやっていました（います）．私の出身研究室では構文解析をやっている人がたくさんいたのですが，最近その面白さがなんとなくわかってきました．いや，一応私も2年間日本語係り受け解析の演習担当やってたよ！　構文解析のおもしろさというのは，言語学，機械学習，プログラミング，情報科学が非常にバランスよくミックスされた問題で，いろんな定式化の仕方や，いろんな技術が，いろいろな組み合わせで，かつわりとキレイな形で程々の難しさに仕上がっているあたりにあると思います．今日は，特に情報科学的教養が大事でしたという話を3つ． Non-Projective Dependency Parsing using Spanning Tree Algorithms Ryan McDonald, Fernando Per
hiromark 2010/02/01
nlp

algorithm
リンク
系列ラベリングアルゴリズムの比較 - 松本研研究日誌
今日の DMLA 勉強会は松本先生で Nam Nguyen and Yunsong GuoComparisons of Sequence Labeling Algorithms and ExtensionsICML-2007の紹介。SVM^struct/SVM^multiclass/CRF/HMM/Averaged perceptron/SEARN/M^3Nといったいろいろなアルゴリズムで品詞タグづけ問題を解くという話。提案手法はensem ble learningで複数の手法の重み付けによる分類器を作ると、単体で一番成績がよかったSVM^structよりさらによくなりますよ、とのこと。なんか CRF が予想外に悪かった(松本先生も首を傾げていた)のだが、なんなんだろうか。 SEARN (Search-based Structured Prediction)というのは元論文は Search
hiromark 2009/11/02
系列ラベリングって昔ちょろっと勉強したけどあんまりきちんと覚えてない。復習がてら調べてみる。

nlp

algorithm
リンク
第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー
昨日は第11回 Kansai.pm でした。今回は無理を言って自分がホストを担当させていただきましたが、面白い発表が多く開催した自分も非常に満足でした。 PFI の吉田さんによる Cell Challenge での計算機に合わせたアルゴリズムのチューニング手法の発表 (発表資料) は圧巻でした。伊奈さんの本文抽出の話 (発表資料)、はこべさんのコルーチンの話 (発表資料)、いずれも難解になりがちなところを凄く分かりやすく解説されていて、さすがだなと思いました。各々ショートトークも、いずれも良かったです。スペルミス修正プログラムを作ろう自分も 20 分ほど時間をいただいて、スペルミス修正プログラムの作り方について発表しました。スペルミス修正プログラムを作ろうView more presentations from Naoya Ito. スペルミス修正プログラムについてはずばりスペル
hiromark 2009/03/24
相変わらず分かりやすいなあ。全体のまとめも嬉しい。

perl

algorithm

nlp
リンク
http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf
hiromark 2008/09/08
まとまっていて勉強しやすそう。

language

text

algorithm

nlp
リンク
1