タグ

ブックマーク / komachi.hatenablog.com (18)

  • GPGPU がアツい。一番ではなく一番乗りになろう。 - 武蔵野日記

    PFI セミナー GPU コンピューティングの現状とスーパーコンピューティングの未来を見る。予想以上に遥かにおもしろかった。説明も分かりやすいしなにより @nushio さんの話し方が心底楽しそうなのがとてもよい :-) エンジニアにせよ研究者にせよ、一番大事なのは自分のやっていることに情熱をかけられるか、楽しんでいるか、ということに尽きると思う。上記のリンクは放映されたものの録画なのだが、スライドはこちら。トークもちょうど1時間程度なので、時間があればスライドだけではなく、トークの最初の数分だけでも見る(というか聞く)ことをお勧めする。先日のウェブ学会のときも思ったが、東京にいなくてもこういうのが聞ける時代になって、すごく便利だなあ。(あとから見ることもできるし、文字通り時空を超えている) GPGPU ってなんなのよ、というと、これは General Purpose computing

    GPGPU がアツい。一番ではなく一番乗りになろう。 - 武蔵野日記
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 大学で Hadoop 使う場面ってどんなのだろうか - 武蔵野日記

    今さらだが @kzk_mover くんによるHadoop World NYC 参加記の紹介。Hadoop って考え方は単純なのだけど、ドキュメントがものすごい勢いで陳腐化したり、チューニングしないといけないパラメータがたくさんあったり(デフォルトで適当な値に設定されているのだけど)、コンセプトはいいのだけど使うとなると手を出しづらい技術の筆頭格だと思う。Yahoo! の例だけ引用してみると、 Hadoop Applications at Yahoo! Yahooでの使用事例の話です。Yahooでは現在約25000台程度のノード上でHadoopが走っているようです。そのうちの約20%が番用、約60%がResearch目的という事でした。 ただ、Yahoo.comのトップページに表示されているコンテンツの裏では結構使われているようで、Ad Optimization, Search Index

    大学で Hadoop 使う場面ってどんなのだろうか - 武蔵野日記
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
    rawwell
    rawwell 2010/08/26
    いちばんの肝になるところには機械学習を導入してこなかったのだが、2009年を境にどうやっても機械学習を導入しなければ他のプログラムとの差がつくばかり、という状況に追い込まれ、機械学習を導入した顛末記である
  • ウェブ学会と今後のウェブ研究 - 武蔵野日記

    第1回ウェブ学会というのが開催されていた。博士論文の〆切前のこの時期東京に行くのは不可能だったが、幸いにもストリーミング中継されていたので、半分くらい見ることができた。いちばんおもしろかったのはやはり最後のセッションで、録画も公開されているので、興味がある方は参照されたい。 emiko-y さんの感想が冷静なところだが、自分もウェブ「学会」と言われると、??? と思ってしまうのだが、確かに学会や企業を横断的につなぐというのはとてもいい試みだと思う。もう一つの方向性としては、楽天研究開発「シンポジウム」(カンファレンス、でもよい)のように、場所だけを提供します、という黒子に徹する、という立場もあるし、自分としてはそのほうが好きなスタイルではある。企業の名前が冠されてしまうのは善し悪しだと思うし、もう少し中立的でもいいと思うが、プロ野球で企業が各球団を所有するのと同じで、別に各企業がそれぞれ知

    ウェブ学会と今後のウェブ研究 - 武蔵野日記
    rawwell
    rawwell 2010/08/25
    "taku さんの話とか naoya さんの話とか、テクニカルな内容なのにみんな評価していて"
  • Y社のぶっちゃけ話と研究者・エンジニアのクロスロード - 武蔵野日記

    今月号は濃いという話を聞いたので、 WEB+DB PRESS Vol.53 作者: 桜井雅史,縣俊貴,西田圭介,青木靖,川口耕介,井奥雄一,冨田慎一,森田創,鶴岡直也,長野雅広,武者晶紀,富士慶,中山大輔,常澤邦幸,山?賢,近藤裕介,稲葉健二,Elaine Gan,久保田慎之介,酒井三保子,吉野哲仁,井野貴亮,朝日勝雅,伊藤直也,ミック,高林哲,小飼弾,羽生章洋,角田直行,はまちや2,岡野原大輔,WEB+DB PRESS編集部出版社/メーカー: 技術評論社発売日: 2009/10/24メディア: 大型購入: 6人 クリック: 194回この商品を含むブログ (38件) を見るを読む。確かに濃い。(一応断っておくと自分は Y 社のオークションの人たちとつながりはない) 特に面白いのは「特集2 Yahoo! オークション構築・運用ノウハウ大公開」の 第1章 Yahoo! オークションの10年と

    Y社のぶっちゃけ話と研究者・エンジニアのクロスロード - 武蔵野日記
    rawwell
    rawwell 2010/08/25
    最近今後どういう研究しようかと考えることが多いのだが、p103の図9、検索対象のデータの量と技術的困難性の関係を描いた図を見ながら、やっぱり数台での分散に力を入れた方がいいかなと思ったりする。あまり突っ込み
  • マイクロソフト基礎研究所“最強伝説” - 武蔵野日記

    Microsoft Research (研究の世界ではよく MSR と呼ばれる)が「マイクロソフト基礎研究所」になるところに少し恣意的なものを感じるが、内容には全く同意。どこかの国の科学技術行政に向けた取り組みと比べると泣ける(涙もろい)。マイクロソフト基礎研究所“最強伝説”は今も健在か?という記事。登録しないと2ページ目以降読めないのが腹立たしいが、登録して読む価値はあると思う。 (研究部隊は)無分別になって良いと言っているわけではない。研究のコスト構造やお金の使い先については、よりいっそう注意深くなる必要がある。ただ、基礎研究は会社の未来にとって非常にクリティカルなものであり、削減ありきの姿勢で臨まないというのが、われわれの哲学だ。 こういう意見が民間から出るのがアメリカのすごいところであり、これと逆のことを国がするのは日のすごいことだが、MSR は当に信じがたいくらいすばらしい研

    rawwell
    rawwell 2010/08/25
    * (基礎)研究というのは人材に投資するものである * 基礎研究は結果をマネジメントしようとしてはいけない。数字だけに注目して一度始めたことを止めるのは愚の骨頂である * 優秀な人が生産的になれる環境を整え
  • これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記

    この日記の読者さんから、「ソフトウェアのマニュアルの翻訳を仕事としてやっていますが、今度こそ機械翻訳が技術翻訳の世界でも使われると思うので、勉強会を開きたい」ということでメールをいただき、それならこんな感じでやってみては、というアドバイスをしたりなどしているうちに、それなら統計的機械翻訳について1回お話しましょうか、ということで、「第2回統計的機械翻訳研究会」なるものにお呼ばれしてお話してきた。参加者は技術翻訳のプロの方々8名ほど。みなさん先進的な方々で、機械翻訳は毛嫌いするというわけではなく、使えるものがあったらぜひ使いたい、そのために統計翻訳がどういうものか勉強したい、という熱心な方々だったので、2時間の予定が2.5時間話してまだ話が尽きず、懇親会でも2時間くらいお話ししたりして(機械翻訳の問題点や技術翻訳でここが困っているなんていうことについて)、こちらがむしろ恐縮したり。 特に懇親

    これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記
    rawwell
    rawwell 2010/04/01
    "もっとも、統計翻訳でもあといくつかブレイクスルーがないと、語順の異なる言語(SVO の英語と SOV の日本語の間とかね)ではうまく行かないのかもしれないが"
  • 情報処理学会 2010 全国大会本会議3日目: 若手研究者に向けて - 武蔵野日記

    結局ほとんど言語処理学会年次大会には出ないままであったが、今日はお昼を構内のドトールでべて、情報処理学会のイベントのほうに顔を出す。出たのはJSTさきがけセッション パネル討論。 話的には @ymatsuo さんがさきがけでなにをやっているのか知りたかったので聞きに行ったのだが、他の方々の報告もおもしろかったので大満足。やっぱり新進気鋭の研究者の方々だけあって、どの方の発表も刺激がありますなー。 @ymatsuo さんには内容について質問があったのだが、どうも飛行機の時間があって早く出ないといけないということで直接質問できなかったのが残念。そろそろ哲学的な議論を収束させて、我々は工学屋なんだから実際に使えるものを作ろう、という意見には賛成なのだが、無邪気に精度が出ればいいや、という流れも少し引っかかるものがある。そのあたりはどう考えればいいのかよく分からない。一応発言したのは (1) 精

    rawwell
    rawwell 2010/03/15
    "自然言語処理エンジニアの養成は簡単だが、計算言語学研究者の養成は大変という話を自分なりに解釈すると、すでに存在する(正解つき)データを使って機械学習なりなんなりのツールを使って現実的な問題を解決する技術
  • NAACL HLT 2009 のベストペーパーは統計翻訳に MIRA を適用した研究 - 武蔵野日記

    出国前に延び延びになっていた論文誌投稿を片付けていく。3溜まっているので順番にやらないと……。 O 野原くんがNAACL HLT 2009 の参加報告を書いている。非常に勉強になる。ふむ〜、自分も1回くらいは NAACL に行ってみたいな〜。(2006年からずっと ACL に参加しているのだが、2008年は行かなかったし、ACL と共催になっていない NAACL にはまだ1回も行ったことがない。) ※NAACL というのは North America 版の ACL という国際会議で、自然言語処理のトップカンファレンスの一つです こちらのコメントにも書いてもらっていたが、NAACL のベストペーパーは 11,001 New Features for Statistical Machine Translation, David Chiang; Kevin Knight; Wei Wang h

    NAACL HLT 2009 のベストペーパーは統計翻訳に MIRA を適用した研究 - 武蔵野日記
    rawwell
    rawwell 2009/06/09
    "解説的なものとしは、前も書いたが情報処理学会に入っている場合は「機械翻訳最新事情上・下」がまとまっていてよい。Watanabe et al. (2007) についてもどこがすごいのか書いてある"
  • ACL-IJCNLP 2009 に short paper として採択されました - 武蔵野日記

    まだ手許には査読結果が返ってきていないのだが、今年はシンガポールで開催される自然言語処理の最大級の国際会議、ACL-IJCNLP 2009 の List of accepted short papers が発表されているようだ(@sassano さん経由)。 EMNLP 2009 の authors' response は渋い結果だったので期待していなかったが、こちらに出した論文はもっとフォーカスを絞って書いたし通ってくれるかなとは思っていたので、無事アクセプトされていてほっとした。 ちなみに short paper というのは普通の論文(full paper)と比べて短いが速報性が高い内容や、あまり結果が芳しくなかった実験、もしくは実験はまだでもこういうことをやりたいですよというような内容に加点されるもので、一般的には full paper よりは通りやすいと思う。自然言語処理分野の国際

    ACL-IJCNLP 2009 に short paper として採択されました - 武蔵野日記
    rawwell
    rawwell 2009/06/01
    おめでとうございます!
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記
    rawwell
    rawwell 2009/05/30
    "本日の勉強会では COLING 2008 (自然言語処理のトップクラスの国際会議)のベストペーパー * MacCartney, Bill and Manning, Christopher D. Modeling Semantic Containment and Exclusion in Natural Language Inference. COLING-2008. を読んだのだが、こういう(自
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    rawwell
    rawwell 2009/05/20
    "あとでみんなで話したところ、そもそも現状の検索エンジンについての認識が間違っているということで意見が一致。エンタープライズ検索・デスクトップ検索が Web 検索とは多少違っているというのはその通りだと思うし
  • 検索系は企業と大学の連携が割とうまくいっている - 武蔵野日記

    昨日今日と情報爆発のキックオフシンポジウムがあり、たとえば各分野のトップ会議のサーベイ報告がずっとあったりしたそうで、内容が Twitter で更新されたりするのを見ると、行ってみたかったなと思ったりもしたのだが、それはそれとして、豊田さんがWWW2009のサーベイ@情報爆発キックオフというエントリで資料を公開されるとともに、感想を書いてらっしゃる。 全体的に、Yahoo!, MSの論文が多く、ちょっとおもしろ目のアイデアを、検索エンジン会社の実データで実験してしっかり評価するという論文が多く通っている印象です。大学の教員が企業を兼務していたり、インターンの学生が検索エンジン会社に行って仕事したのをまとめていたりと、企業と大学の連携がうまくいっているということでしょうね。 これに関しては完全に同意で、この分野(ウェブ系)は例外的に企業と大学の連携が割とうまくいっているのだと思う。自分も M

    検索系は企業と大学の連携が割とうまくいっている - 武蔵野日記
    rawwell
    rawwell 2009/05/16
    id:taroleo さんがブックマークのコメントで(Microsoft とか Yahoo! の論文数が多く見える件について) 論文数でみればそうかもしれないけれど、first authorとしていかに研究するか、そのトレーニングをどう詰むかの方が大事のよ
  • 鳥取の言語処理学会のまとめ - 武蔵野日記

    遅ればせながら先日の学会のフォローアップ。 Yahoo! 検索スタッフブログにshimpei-m くんがブログを書いている。あまり詳細は書いていないので参考にはならないかもしれないが、鳥取の雰囲気は伝わるかな…… あとは名大の萩原さんのブログ。 文字ベースの自然言語処理がアツい クエリ書き換えについて発表してきました 「論文を引用したら著者に見せる」メソッドが良い感じ おもしろかった論文とか研究とかさまざま紹介されていて、非常に参考になる。金曜日 O 野原くんにもこの一番下のエントリでも取り上げられている柴田さんの「超大規模ウェブコーパスを用いた分布類似度計算」の話を聞いて、なぜか自分は聞き逃していたので、要チェック!と思ったり。id:emiko-y さんの「専門用語の内部構造解析」は萩原さん的最優秀発表賞だそうだ :-) 自分だったら悩みつつ鍛治さんの「文脈にもとづく未知語獲得における識

    鳥取の言語処理学会のまとめ - 武蔵野日記
    rawwell
    rawwell 2009/05/12
    自分だったら悩みつつ鍛治さんの「文脈にもとづく未知語獲得における識別モデルの適用」かなぁ~
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記

    PageRank とか HITS といったリンク解析ではグラフの計算が頻発するのだが、Python でそのあたり書くときの話をまとめてみる。グラフは行列で表現できる(ノード×ノード次元の行列 A を考えて、ノード i からノード j にエッジがあるとき、A[i,j] に値を入れておけばよい。無向グラフのときは A[i,j] = A[j,i] なので対称行列になる)ので、要は行列を手軽に扱えるライブラリの紹介である。 実は Python の行列演算ライブラリはどれも lapack/blas を内部的に呼んでいるので、C/C++ 等と比較してもそんなに遅くない。それどころか、自動的に並列化できるところは並列化してくれたりするので、まれに C より速いこともあるらしい。特に巨大なグラフを作る場合、ほとんどの処理は C などで書かれた関数に飛ぶので、速度的な問題は無視してもいいくらいである(逆に、

    Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    rawwell
    rawwell 2009/01/27
    『Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。』
  • 1