タグ

ブックマーク / komachi.hatenablog.com (13)

  • ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記

    5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。 朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松先生がぼやいていたのだが、ベストペーパーの紹介を今日は松先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑) 副学長に加えてプログラミング委員長、なんだか今年松先生は忙しそうな年である。 さてベスト

    ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記
    mrorii
    mrorii 2011/06/23
  • Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記

    PageRank とか HITS といったリンク解析ではグラフの計算が頻発するのだが、Python でそのあたり書くときの話をまとめてみる。グラフは行列で表現できる(ノード×ノード次元の行列 A を考えて、ノード i からノード j にエッジがあるとき、A[i,j] に値を入れておけばよい。無向グラフのときは A[i,j] = A[j,i] なので対称行列になる)ので、要は行列を手軽に扱えるライブラリの紹介である。 実は Python の行列演算ライブラリはどれも lapack/blas を内部的に呼んでいるので、C/C++ 等と比較してもそんなに遅くない。それどころか、自動的に並列化できるところは並列化してくれたりするので、まれに C より速いこともあるらしい。特に巨大なグラフを作る場合、ほとんどの処理は C などで書かれた関数に飛ぶので、速度的な問題は無視してもいいくらいである(逆に、

    Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記
  • 統計的機械翻訳は用例翻訳に段々近づいている - 武蔵野日記

    今日は機械翻訳勉強会で Michel Galley and Christopher D. Manning. Accurate Non-Hierarchical Phrase-Based Translation. NAACL 2010. Daniel Cer; Michel Galley; Daniel Jurafsky; Christopher D. Manning. Phrasal: A Statistical Machine Translation Toolkit for Exploring New Model Features. NAACL 2010. の2を紹介。簡単に言うと、これまでのフレーズベースの統計翻訳(研究・商用ともにフレーズベースのものが一番よく使われている)は、連続する単語しか扱えないという問題点があったが、研究では原言語側と目的言語側の両方にギャップがあるような

    統計的機械翻訳は用例翻訳に段々近づいている - 武蔵野日記
  • Philipp Koehn の Statistical Machine Translation - 武蔵野日記

    機械翻訳について書いたので、ついでにの紹介。2007年くらいからずっと in press だった気がするのだが、ようやく先月出版されたので、購入。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人 クリック: 12回この商品を含むブログ (16件) を見る著者の Philipp Koehn は統計的機械翻訳の Pharaoh の開発で有名であり、最近はオープンソース(GPL)の Moses という翻訳ツールの開発で著名である。ちなみに、いずれのツールキットも、機械翻訳の世界ではデファクトスタンダード(数年前までは Pharaoh が使われていて、Moses が開発されてからは Pharaoh の座は M

    Philipp Koehn の Statistical Machine Translation - 武蔵野日記
  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
  • 自然言語処理のトップカンファレンス - 武蔵野日記

    NAACL HLT 2010 の accepted papers のリストが今日出た。 知っている名前があるかなと思ったが、日人ひとりもいないようだ。 (訂正) 松研先輩の tetsu-na さんが通っているようだ。@cacahoさん情報どうもありがとうございます! MSR 時代のインターン同期とかたくさんいる。やはりカリフォルニア開催だと気合い入れて出してくるからだろうか……。他にも出していると聞いた人が通っていないのを見ると、かなり厳しかった模様。以前 masayu-a さんが日記で(現在はてなダイアリーに引っ越したようだが) NAACL > ACL >> (越えられない壁) >> CoNLL > EMNLP >> (越えられない壁) >> COLING-ACL = ACL-IJCNLP > COLING(ICCL) = >> (越えられない壁) >> EACL > IJCNLP

    自然言語処理のトップカンファレンス - 武蔵野日記
    mrorii
    mrorii 2010/04/26
  • 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記

    今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、 Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies) 作者: Jimmy Lin,Chris Dyer出版社/メーカー: Morgan and Claypool Publishers発売日: 2010/08/15メディア: ペーパーバック クリック: 67回この商品を含むブログ (6件) を見るをしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製してパラパラとめくっているが、テキスト的には割といいだと思う。みんながこぞ

    自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
  • NAIST 自然言語処理学講座的大学院時代の過ごし方 - 武蔵野日記

    研究室に行って id:smly くんに(昨日聞かれた)プロジェクト実習の追加の話をしたりなど。そうこうしていると、ご飯一緒に行きませんか、と言われたので shirayuくん、junta-m くんの4人で回転寿司をべに行く。 NAIST で出会いはありますかという話もあったりしながら(自分の答えとしては、外に出た方が見つかりますよ、というものだけど(笑))、大学院生活どう過ごしたらいいのかという話が出たので、ここでも再掲しておく。一応 NAIST の自然言語処理学講座、つまり松研ならこんな感じかな?というガイドラインなので、NAIST でも他の分野のことは知らない(分野によって研究スタイルはかなり異なる)し、自然言語処理でも他の大学はどうか分からない(東大とか京大とかと比べると、文系出身者が1-2割いるということに加え、分野外から来る人が過半数というのは大きな特徴だと思う)ので、この話を

    NAIST 自然言語処理学講座的大学院時代の過ごし方 - 武蔵野日記
  • Google に行ったからすごいのではない。すごい人が Google に行ったのだ - 武蔵野日記

    初期の無名のGoogleがどうやって世界中の天才を集めたかというエントリを最初に見たとき「これは紹介したい!」と思ったのだが、ようやく紹介する時間が取れる。このエントリだけじゃなく Lilac さんの MIT の MBA スローンスクールの日記、エンジニアとして非常に示唆に富む内容が多い(たとえば「キットカットの有効なマーケティングターゲットはなにか?」という問いに、「若い年代がいい」みたいに答える普通の人がいる中で、「栄養に優れているし携帯性もいいので兵士の糧として優れている」と答える元軍人の人がいるとか)ので、RSS リーダでの購読をオススメする。 さて題。少々長くなるが引用する。 まだ全く無名だったGoogleが世界中からアルゴリズムの天才たちをどうやって集めたか、という話だ。 Woojaeは1999年頃、イギリスのケンブリッジ大学の博士課程に留学しており、研究のため物理の研究室

    Google に行ったからすごいのではない。すごい人が Google に行ったのだ - 武蔵野日記
  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • 武蔵野日記

    2022-12-07 水曜は休むと決めてスケジュール 12月以降は毎週水曜日は外せない予定が入っていなければ基的に有給休暇を取ることにしたので、有給休暇の日。3月まで全ての水曜日を休んで、ようやく今年度に付与された20日の有給休暇を全て使い切るくらいだし(そもそも年度末は会計の仕事やサーバ管理を… 2022-12-06 引率が必須になると手詰まりに 今日は出勤日。 午前中は基盤技術グループのミーティング。月最初の火曜日なので対面でやる回だが、そのせいか欠席者がいるような? 対面にすることで欠席になるなら、対面にしないでオンラインでやるし、対面でやる頻度が負担だという問題であれば、最初(… 2022-12-05 捨てる神あっても拾う神もいる 今日は必要があり出勤。 お昼休みの前後、論文紹介と研究会。研究会では4年生の進捗報告を聞く。あと D3 の学生が参加していた国際会議で最優秀論文賞をも

    武蔵野日記
  • 1