タグ

NLPに関するmamorukのブックマーク (337)

  • Blog Archive: Patrick Pantel

    I am thrilled to join the NLP team at Microsoft Research in mid-Summer 2010. There is no better place in industry to push forth a research agenda in large-scale text processing. I will work closely with a world renowned team of scientists, pushing the boundaries of information extraction and knowledge management, driven by a deep desire to improve our web search experience. For the past two and a

    mamoruk
    mamoruk 2010/06/17
    えー
  • 動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記

    Wikipediaによるテキストマイニング入門など,Wikipedia 中の単語頻度を測るのが流行っているようだ.例えば,Hadoop を使ったり(Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記),ハッシュを使ったり(Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記)とか.情報系の人間なら普通はハッシュで十分と思うところ,折角なので動的ダブル配列を使って測ってみた.動的ダブル配列から保存された文字列を効率的に取り出すには,ノードリンクを実装して traverse () を再帰的に呼び出せば良い.今回は MSD radix sort 用に sibling のリンクを昇順にしたバージョン(僅かに追加速度が低

    動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記
    mamoruk
    mamoruk 2010/06/13
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Type based MCMC: mots quotidiens.

    Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。 これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で 通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。 よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を 言っているのかさっぱりわからないかも知れないと思いました。 少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv

  • NAACL 2010 Retrospective

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) I just returned from NAACL 2010, which was simultaneously located in my home town of Los Angeles and located nowhere near my home town of Los Angeles. (That's me trying to deride downtown LA as being nothing like real LA.) Overall I was pl

  • AROW++ -- Yet Another AROW tool

    AROW++ — Yet Another AROW tool Last update: Sun Jun 06 16:14:41 +0900 2010 Introduction AROW++ is an simple implementation of Adaptive Regularization of Weights [Crammer+ 2009], online learning algorithm for binary classification. AROW is efficient for learning tasks such as Natural Language Processing tasks that the data is high-dimensional, extremely sparse. AROW is an extension of confidence we

  • 大量データのバッチ処理を高速化するHadoop

    Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoopの邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

  • ■ - あしたからがんばる ―椀屋本舗

    今日の勉強会はAROW(Adaptive Regularization Of Weight Vectors)の話。AROWは要するにオンライン学習の一例で、CW(Confidence Weighted Learning)をノイズに対して頑健になるようモデリングし直したものと思う。使いたい人は、詳しくはAROW は CW より幾分マシか - ny23の日記に書いてある。 オンライン学習自体あまり今まで触れてこなかったので(流行りなのはわかっているが)、オンライン学習は従来のSVMなどと違って、訓練データが1つ入る度にその訓練データに対してパラメータを更新して分類を行う、というもの。従来のSVMなどの機械学習と比較して収束が早いので学習時間がかからないのが売りだったが、反面CWでは誤り例に引っ張られやすく、ノイズが入ってきたときにそこに大きく引っ張られて精度が悪くなってしまう、という問題があっ

    ■ - あしたからがんばる ―椀屋本舗
  • 楽天が「楽天技術研究所 New York」を開設

    楽天は2010年6月1日、米国ニューヨーク市に「楽天技術研究所 New York」を開設したと発表した。「楽天技術研究所」は同社の研究部門で、初の海外拠点となる。 「楽天技術研究所 New York」の所長にはニューヨーク大学 研究准教授の関根聡氏が就任した。関根氏の研究領域は自然言語処理。自然言語処理技術の活用による楽天の商品レビューの情報解析や、検索機能、レコメンド機能の向上を図っていくとしている。また今後、海外の大学・研究機関との連携、海外での研究者の採用も進めていく方針。 楽天技術研究所は楽天における先端的な技術開発を担当する研究部門。Rubyの作者まつもとゆきひろ氏をフェローとして迎え、Rubyによる分散キーバリュー型データストア「ROMA」などを開発しオープンソースソフトウエアとして公開している。また慶應義塾大学 政策・メディア研究科特別招聘教授 夏野剛氏、ソニー・コンピュータ

    楽天が「楽天技術研究所 New York」を開設
  • kazawahideto.info

    This domain may be for sale!

    mamoruk
    mamoruk 2010/05/31
    ほう。読んでらっしゃるのか。
  • kazawahideto.info

  • Japanese Emendation Service ver -0.001

  • 動的計画法は再帰で表せ

    動的計画法の説明は常に再帰関数で書き表すことにしています.いやゆるメモ化再帰です.参照透過な関数は,同じ引数に対して同じ値を返すので,保存しておけばいいという感覚です.計算量の見積もりも簡単で,引数の異なり数に関数中のループの上限をかければおしまいです.特に再帰で書くことに慣れていれば自明に書けますし,テーブルを使ったDPと違って,ループの順番を意識する必要がありません.このテクニックは学部時代に@ohkuraに教えてもらいました.関数型言語に触れた今でこそ当たり前に見えますが,当時は目から鱗だったのを覚えています. メモ化再帰と不動点に関する@kinabaさんの日記や,プログラミングコンテスト的には@chokudaiさんの記事が参考になります. 今更ですが,ちょっと例で説明します.フィボナッチ数を計算する関数fib(x)は再帰式で,fib(x) = fib(x - 1) + fib(x

    mamoruk
    mamoruk 2010/05/31
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    mamoruk
    mamoruk 2010/05/30
  • ■ - あしたからがんばる ―椀屋本舗

    毎週火曜に黒橋研でやってる機械学習の勉強会に参加しているのだが、今日もあるつもりで行ったら今日はなかった…なぜなかったのかは忘れたが、僕は朝弱いのでがっくりである。まあ、自分が悪いわけだが… 自分のキャパが少なくて、参加していても半分も理解できているのか怪しいのだが、大学院生になった直後はあえて手加減しないほうがいいでも書かれているように、自分がやっていることに関連がありそうな勉強会などは、行けるのならば、少しくらいわからなくても積極的に参加する方が将来ためになると信じて参加している…ほんとにわからなくなってしまうと、大丈夫?と聞かれても曖昧にしか答えられないので辛いのだがw 参加していると何度も同じ話が出てくるのでそういうものもわかってくるし、ああいう勉強会は業界の動きに敏感な人が数人はいて、そういう人が紹介する論文を見ているうちに今はどんな題材やテクニックが流行りなのかを知ることができ

    ■ - あしたからがんばる ―椀屋本舗
    mamoruk
    mamoruk 2010/05/25
    リソース作りも大事ですね
  • 2010-05-22

    データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

    2010-05-22
  • ■ - あしたからがんばる ―椀屋本舗

    今日の勉強会は並列・分散処理について。 EMアルゴリズムとギブスサンプリングの話だったけど、後半のギブスサンプリングの話は途中で脱落した。大雑把に理解したこととしては、トピックモデルをギブスサンプリングなどで実装する場合、各文書を別のノードに投げたとき推定するトピックのIDが異なる可能性があるけど、それをどうすんのよ、という問題の解決で、それを各クラスの類似度を推定しながら合わせていく、という話だったと思う。 EMの方は、普通のmap-reduceで実装するとE-ステップは各ノードがそれぞれ期待値を返してくるからいいんだけど、M-ステップのときにreduceしたノードが更新したパラメータを推定し直して、そこからE-ステップを計算するノードにパラメータを再分配するところで通信のボトルネックが起こるのでどうしよう、という問題。今回の手法では、単純な解決法として全経路を、他にコスト最小全域木を使

    ■ - あしたからがんばる ―椀屋本舗
    mamoruk
    mamoruk 2010/05/20
    分散並列について EM とギブスサンプリングの話
  • AROW は CW より幾分マシか - ny23の日記

    今話題?の AROW (Adaptive Regularization Of Weight Vectors) の oll 向けの実装を見かけたので,Confidence-Weighted (CW) が Passive-Aggressive (PA)/LIBLINEAR に比べて全然ダメ (PA/LIBLINEAR: 91%, CW: 88%; Perceptron: 89%) だった例のタスク(学習/テストデータは公開中のコードに同梱してある)で,試してみた.パラメタを調整したが (c=100, 50, 10, 5, 1, 0.5, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005, I=1, 5, 10, 20, 50, 100),PA/LIBLINEAR -0.5% 程度の精度 (90.4%) しか出なかった.繰り返し回数を10回以下とかで固定すれば,AROW

    AROW は CW より幾分マシか - ny23の日記
    mamoruk
    mamoruk 2010/05/20
    StreamSVM なんてのがあるのか
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改

    Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。 変換アルゴリズムはどんな感じか? twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

    Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改