[B! NLP] [6ページ] mamorukのブックマーク

Blog Archive: Patrick Pantel

I am thrilled to join the NLP team at Microsoft Research in mid-Summer 2010. There is no better place in industry to push forth a research agenda in large-scale text processing. I will work closely with a world renowned team of scientists, pushing the boundaries of information extraction and knowledge management, driven by a deep desire to improve our web search experience. For the past two and a

mamoruk 2010/06/17

えー

NLP

リンク

動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記

Wikipediaによるテキストマイニング入門など，Wikipedia 中の単語頻度を測るのが流行っているようだ．例えば，Hadoop を使ったり（Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記），ハッシュを使ったり（Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記）とか．情報系の人間なら普通はハッシュで十分と思うところ，折角なので動的ダブル配列を使って測ってみた．動的ダブル配列から保存された文字列を効率的に取り出すには，ノードリンクを実装して traverse () を再帰的に呼び出せば良い．今回は MSD radix sort 用に sibling のリンクを昇順にしたバージョン（僅かに追加速度が低

mamoruk 2010/06/13

NLP

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

mamoruk 2010/06/10

NLP
hadoop

リンク

Type based MCMC: mots quotidiens.

Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を言っているのかさっぱりわからないかも知れないと思いました。少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv

mamoruk 2010/06/10

NLP
NAACL

リンク

NAACL 2010 Retrospective

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) I just returned from NAACL 2010, which was simultaneously located in my home town of Los Angeles and located nowhere near my home town of Los Angeles. (That's me trying to deride downtown LA as being nothing like real LA.) Overall I was pl

mamoruk 2010/06/08

NLP
NAACL

リンク

AROW++ -- Yet Another AROW tool

AROW++ — Yet Another AROW tool Last update: Sun Jun 06 16:14:41 +0900 2010 Introduction AROW++ is an simple implementation of Adaptive Regularization of Weights [Crammer+ 2009], online learning algorithm for binary classification. AROW is efficient for learning tasks such as Natural Language Processing tasks that the data is high-dimensional, extremely sparse. AROW is an extension of confidence we

mamoruk 2010/06/07

リンク

大量データのバッチ処理を高速化するHadoop

Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

mamoruk 2010/06/06

hadoop
NLP

リンク

■ - あしたからがんばる ―椀屋本舗

今日の勉強会はAROW(Adaptive Regularization Of Weight Vectors)の話。AROWは要するにオンライン学習の一例で、CW(Confidence Weighted Learning)をノイズに対して頑健になるようモデリングし直したものと思う。使いたい人は、詳しくはAROW は CW より幾分マシか - ny23の日記に書いてある。オンライン学習自体あまり今まで触れてこなかったので(流行りなのはわかっているが)、オンライン学習は従来のSVMなどと違って、訓練データが１つ入る度にその訓練データに対してパラメータを更新して分類を行う、というもの。従来のSVMなどの機械学習と比較して収束が早いので学習時間がかからないのが売りだったが、反面CWでは誤り例に引っ張られやすく、ノイズが入ってきたときにそこに大きく引っ張られて精度が悪くなってしまう、という問題があっ

mamoruk 2010/06/02

リンク

楽天が「楽天技術研究所 New York」を開設

楽天は2010年6月1日、米国ニューヨーク市に「楽天技術研究所 New York」を開設したと発表した。「楽天技術研究所」は同社の研究部門で、初の海外拠点となる。「楽天技術研究所 New York」の所長にはニューヨーク大学研究准教授の関根聡氏が就任した。関根氏の研究領域は自然言語処理。自然言語処理技術の活用による楽天の商品レビューの情報解析や、検索機能、レコメンド機能の向上を図っていくとしている。また今後、海外の大学・研究機関との連携、海外での研究者の採用も進めていく方針。楽天技術研究所は楽天における先端的な技術開発を担当する研究部門。Rubyの作者まつもとゆきひろ氏をフェローとして迎え、Rubyによる分散キーバリュー型データストア「ROMA」などを開発しオープンソースソフトウエアとして公開している。また慶應義塾大学政策・メディア研究科特別招聘教授夏野剛氏、ソニー・コンピュータ

mamoruk 2010/06/02

楽天
NLP

リンク

kazawahideto.info

This domain may be for sale!

mamoruk 2010/05/31

ほう。読んでらっしゃるのか。

NLP

リンク

kazawahideto.info

mamoruk 2010/05/31

NLP
NAIST

リンク

Japanese Emendation Service ver -0.001

mamoruk 2010/05/31

リンク

動的計画法は再帰で表せ

動的計画法の説明は常に再帰関数で書き表すことにしています．いやゆるメモ化再帰です．参照透過な関数は，同じ引数に対して同じ値を返すので，保存しておけばいいという感覚です．計算量の見積もりも簡単で，引数の異なり数に関数中のループの上限をかければおしまいです．特に再帰で書くことに慣れていれば自明に書けますし，テーブルを使ったDPと違って，ループの順番を意識する必要がありません．このテクニックは学部時代に@ohkuraに教えてもらいました．関数型言語に触れた今でこそ当たり前に見えますが，当時は目から鱗だったのを覚えています．メモ化再帰と不動点に関する@kinabaさんの日記や，プログラミングコンテスト的には@chokudaiさんの記事が参考になります．今更ですが，ちょっと例で説明します．フィボナッチ数を計算する関数fib(x)は再帰式で，fib(x) = fib(x - 1) + fib(x

mamoruk 2010/05/31

NLP

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

mamoruk 2010/05/30

NLP

リンク

■ - あしたからがんばる ―椀屋本舗

毎週火曜に黒橋研でやってる機械学習の勉強会に参加しているのだが、今日もあるつもりで行ったら今日はなかった…なぜなかったのかは忘れたが、僕は朝弱いのでがっくりである。まあ、自分が悪いわけだが… 自分のキャパが少なくて、参加していても半分も理解できているのか怪しいのだが、大学院生になった直後はあえて手加減しないほうがいいでも書かれているように、自分がやっていることに関連がありそうな勉強会などは、行けるのならば、少しくらいわからなくても積極的に参加する方が将来ためになると信じて参加している…ほんとにわからなくなってしまうと、大丈夫？と聞かれても曖昧にしか答えられないので辛いのだがｗ参加していると何度も同じ話が出てくるのでそういうものもわかってくるし、ああいう勉強会は業界の動きに敏感な人が数人はいて、そういう人が紹介する論文を見ているうちに今はどんな題材やテクニックが流行りなのかを知ることができ

mamoruk 2010/05/25

リソース作りも大事ですね

LREC
NLP

リンク

2010-05-22

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件品詞は細分類を無視文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式：　単語のIDF値：　総文書数：　単語が出現する文書の総数文書数、異なり単語数総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例タブ区切りデータ例形態素品詞 idf値あいぞう名詞 6.09252 あいぞめ名詞 5.01334 あいた感動詞 4.58737 あいたい名詞 4.46927 あいだ名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

mamoruk 2010/05/25

リンク

■ - あしたからがんばる ―椀屋本舗

今日の勉強会は並列・分散処理について。 EMアルゴリズムとギブスサンプリングの話だったけど、後半のギブスサンプリングの話は途中で脱落した。大雑把に理解したこととしては、トピックモデルをギブスサンプリングなどで実装する場合、各文書を別のノードに投げたとき推定するトピックのIDが異なる可能性があるけど、それをどうすんのよ、という問題の解決で、それを各クラスの類似度を推定しながら合わせていく、という話だったと思う。 EMの方は、普通のmap-reduceで実装するとE-ステップは各ノードがそれぞれ期待値を返してくるからいいんだけど、M-ステップのときにreduceしたノードが更新したパラメータを推定し直して、そこからE-ステップを計算するノードにパラメータを再分配するところで通信のボトルネックが起こるのでどうしよう、という問題。今回の手法では、単純な解決法として全経路を、他にコスト最小全域木を使

mamoruk 2010/05/20

分散並列について EM とギブスサンプリングの話

NLP
ML

リンク

AROW は CW より幾分マシか - ny23の日記

今話題？の AROW (Adaptive Regularization Of Weight Vectors) の oll 向けの実装を見かけたので，Confidence-Weighted (CW) が Passive-Aggressive (PA)/LIBLINEAR に比べて全然ダメ (PA/LIBLINEAR: 91%, CW: 88%; Perceptron: 89%) だった例のタスク（学習／テストデータは公開中のコードに同梱してある）で，試してみた．パラメタを調整したが (c=100, 50, 10, 5, 1, 0.5, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005, I=1, 5, 10, 20, 50, 100)，PA/LIBLINEAR -0.5% 程度の精度 (90.4%) しか出なかった．繰り返し回数を10回以下とかで固定すれば，AROW

mamoruk 2010/05/20

StreamSVM なんてのがあるのか

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

mamoruk 2010/05/19

NLP
ACL

リンク

Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転改

Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。変換アルゴリズムはどんな感じか？ twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基本的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

mamoruk 2010/05/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (55)

NLPに関するmamorukのブックマーク (337)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス