torutoのブックマーク - はてなブックマーク

Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

toruto 2010/05/22

リンク

研究の仕方を教えることでなにが教えられるか - 武蔵野日記

実は昨日紹介した本よりこちらの本のほうが紹介したかった。大学論──いかに教え、いかに学ぶか (講談社現代新書) 作者: 大塚英志出版社/メーカー: 講談社発売日: 2010/03/18メディア: 新書購入: 5人クリック: 168回この商品を含むブログ (46件) を見る「新しい大学(学科)を作る」という話が詰まった一冊。題材は神戸芸術工科大学という新しい大学の漫画に関する学科を立ち上げるという話なのだが、自分が元々文系出身だったこともあり、民俗学専攻の筆者の学部時代の話もとてもおもしろい。とはいえ、やはり見所は「学部の4年間をどのように教えるか」。筆者の答えは、まず1年目はどのように描くかをひたすら叩き込む。それも、細かい小手先の技術ではなく、ストーリーを持った作品を、そのように描く必然性を理解させて描く、というもの。次に、2年目はとにかくオリジナルなものを描かせる。1年目にオリジ

toruto 2010/03/22

リンク

ソニー VAIO のサポートがひどかった件について - 武蔵野日記

12月は VAIO の修理を依頼していたのだが、なんだかなぁと思う対応に振り回されたのでその顛末。検索すると他の人もひどいと書いている(ユーザ調査でも絶対上位ランクインしない)ので、自分だけではないと思うが、たまたま当たった人(たちx4)が悪かった可能性もあるし、他の会社でもひどい対応を受けた人もいると思う。Apple の対応がひどかったとか、いやいや大学名を出すと Apple は扱いが全然違うとか、うーん、と思う意見もいただいたが、たぶんこの業界で一番対応がよいのは IBM (ThinkPad) であるという認識は恐らく全員共通しており、自分もかれこれ指折り数えるくらい ThinkPad の修理を頼んでいるが、「え、ここまで交換してくれるの?!」というようなところまで換えてくれたり、修理も非常にスピーディなので大変好感が持てる。今回のソニーの対応は、端的に言うと「修理のためにデータの初

toruto 2010/01/05

SONY

リンク

Google 音声検索と自然言語処理の未来 - 武蔵野日記

先日 Google 音声検索を取り上げたことはあるのだが、再度取り上げてみる。というのも、kmurakami さんが来週音声情報処理と自然言語処理についてのパネル発表に呼ばれているらしいのだが、自然言語処理と音声情報処理の人ってあまり交流がないよね、という話で、その理由と、今後どうしたらいいか、という意見を聞かれたので。分野外の人から見ると、音声認識や音声合成と、自然言語処理(かな漢字変換とか機械翻訳とか)は、どっちもコトバを使っているから同じように見えるかもしれないが、大学というのは思った以上に縦割り組織なので、研究室が違うと全くといってよいほど交流がない(教授のレベルではあるのだろうが、学生のレベルでは)。理由の一つとしては、自分の専門分野の国際会議なり論文誌なりに研究成果を発表するのが業績になり、自分の専門分野以外で発表しても評価のしようがないので、タコツボ化してしまう、というも

toruto 2009/12/20

リンク

新学期のはじまりと情報検索システム論 - 武蔵野日記

M1 の人たちは今日から授業らしい。そろそろ研究で忙しくなってくるころかな？　自分も人生最後(hopefully)の授業料免除申請の書類を揃える。年々必要となる書類が増えるのはどうかと思うが、世の中厳しくなっているのであろう。自分は1回だけ不許可となったことがあるが、残りはずっと半額免除してもらっているので、だいぶ助かっている(年額26万円、月々2万円違う)。大学院、特に博士後期課程の授業料くらい、正規の年数滞在する人は全額免除でいいと思うのだけど……(長くいる場合は研究生と同じで徴収するのは分かるが)。最近ひょんなこと(=Twitter)から大阪市立大学大学院創造都市研究科なるものを知ったのだが、ここも NAIST と同じく大学院のみのようで、いろいろおもしろい授業をしているらしい(文系からも進学できるので)。たとえば情報検索システム論なんて授業で、半期で検索システムについて体系的に学

toruto 2009/10/07

リンク

発表練習でナーバスになる - 武蔵野日記

金曜日インターンシップの中間報告なのだが、同時期にインターンを始めた数人が固まってプレゼンテーションをするので、他のみんなと練習。コメントけっこう厳しい……。そしてどれも的確。さらに言うと他のみんなのスライド気合い入りまくっている。これだけの短期間でよくここまでできるなぁ。Microsoft Research にいたときも思ったが、なんでこんなに頭のよい人たちがこんな小さな空間に集まっているのだろうと、不思議な感覚になる。(そしてそういう光景が毎年繰り返されているだろうと思うのだが、彼ら・彼女らが全員はその会社に行かないと思うと、彼ら・彼女らがどういう進路を選択したのかにも興味がある) 前1時間ワークショップもあったのだが、あんなのよりこっちのほうが絶対役に立つよなあ。自分も就職活動していなかったら全く研究向けのスライドを作るだけで一生終わっていただろうし、就職活動を通じて少し非専門家

toruto 2009/08/15

presentation

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

toruto 2009/04/04

リンク

Google の PageRank に関する参考書 - 武蔵野日記

今日は理論的な話をするのではなく、単なる参考書についてのポインタ。今週時間取って Google's Pagerank and Beyond: The Science of Search Engine Rankings 作者: Amy N. Langville,Carl D. Meyer出版社/メーカー: Princeton Univ Pr発売日: 2006/07/03メディア: ハードカバー購入: 6人クリック: 50回この商品を含むブログ (11件) を見るをちゃんと読んでいるのだが、なかなかこの本はよい。そんなに分厚くないのだが、理論的な話と実装の話がバランス取れていて、ときどき入っている小話(中国の検索がどうだとか、Google が株式公開したときの Dutch Auction はどうだとか)もおもしろい。Google's PageRank と書いてはいるが、Kleinberg

toruto 2009/02/26

book

リンク

最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記

先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に

toruto 2009/02/18

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

toruto 2009/01/26

リンク

NAIST マニアック講義録: リンク解析と周辺の話題 - 武蔵野日記

紹介するのを忘れていたが、NAIST は冬学期になるといろいろとマニアックな講義が開講される。そのうち今年は shimbo さんのリンク解析と周辺の話題を紹介(それぞれに PDF がある)。リンク解析は, グラフ (ネットワーク) データの構造から有用な情報を抽出するための, データマイニングの一研究分野です. この講義ではまず, リンク解析が取り扱う 2 種類の尺度 (重要度と関連度) について述べ, それぞれの代表的な計算手法を紹介します. 後半では, 近年機械学習分野で盛んに研究されているカーネルのうち, グラフ上の節点に対して定義されたカーネルと, そのリンク解析への応用について紹介します. ということで、いろいろなカーネルについて取り上げており、コンパクトにまとまっているので、このあたりに興味ある人にお薦め。もう少し書くと、まずリンク解析とはなにか述べ、重要度と関連度について

toruto 2009/01/25

algorithm

リンク

MS-IMEは中国開発ってホント？〜入力や変換のミスを減らすことが、MS-IME 2007の正しい学習のために効果的 - 武蔵野日記

IMEは中国開発ってホント？修正プログラムで賢くなった？　Office IME 2007 6の疑問という記事を発見。Q2 のところ、以前も書いたように Q2　日本語IMEの開発は中国で行なわれているって本当？ A2　日本語IMEの開発は、日本で行なわれている。同社インプットメソッドテクノロジーシニアマネージャの佐藤良治氏によると、IME 2007以前のプロトタイプ開発の際には、日本だけでなく米国レドモントと中国北京にあるMicrosoft Researchとの共同作業が行なわれたという。それが誤解して伝わっているようだ。日本でのIME開発は専任チームを置いて、ほかのアプリケーション開発と同じように独自に行なっているという。IME開発は日本のほかに、韓国、中国、台湾にチームがあって、各言語に依存しない要素（OSとのインターフェースなど）の開発は、これら4チームによる共同作業で行なわれ

toruto 2008/12/09

「一入力は一文」という仮定/文頭と文末を特別視しなければいいのだが、それが文頭であるか文末であるかというのはかなり大きな情報なので、使えるなら使いたい/ユーザの全入力を正しいと思って使うのは問題がある

リンク

ぼくが MS で学んだこと - 武蔵野日記

六本木系の企業のカルチャーばかり読んでいると偏ってくるので、ぼくたちがIBMとHPで学んだこと作者: 後藤三郎,中司恭出版社/メーカー: 日経BPコンサルティング発売日: 2003/03/15メディア: 単行本クリック: 1回この商品を含むブログ (3件) を見るを読んでみる。もっと企業の中のことを書いてあるのかと思いきや、企業の中でのアメリカの文化と日本の文化の違いや、どのようにそれを克服してきたか、というのがメインの内容で、いい意味で予想を裏切られて非常におもしろかった。最後は(こういう本にありがちだが)教育への提言にかなりの紙幅を費やしているが、提案している内容より、なぜそう主張するか、という(実体験に裏打ちされた)根拠のほうが参考になる。今なら外資系というとみんなある程度イメージがある(英語ができないとだめ、とか、ドライ、とか、高給取り、とかいろいろステレオタイプはあるだ

toruto 2008/11/27

リンク

2008年検索キーワードランキングに見る検索ログの特徴 - 武蔵野日記

Yahoo! Japan 検索ランキングより2008検索ワードランキング。検索クエリのログというのはおもしろいもので、ランキングだけ見ていてもなんとなくみんながなにを知りたいのか(もっと正確には、「その検索エンジンを使っている人がなにを知りたいのか」)を知ることかできる。Yahoo! に行って「Google」と検索する人が上位4位というのも、知らない人には驚くべき事実かもしれないが、実際はこういうふうに「サイトに行きたいけどアドレスを憶えていない(もしくは入れるのが面倒くさい)ので検索する」という「ナビゲーショナル」な検索クエリが、総数としては全体のかなりの部分を占めているのである。それで今回のランキングでおもしろいところは、単に(たぶんアダルト用語を除いたり頻度を外すなどの簡単な処理をした)ランキングを出しただけではなく、著名人ランキングやゲーム・アニメランキングのように、カテゴリ別

toruto 2008/11/25

田中克己先生(京都大学)の研究室の http://www.dbsj.org/Japanese/DBSJLetters/vol5/no4/oshima.pdf　とか　Yahoo!JAPANの http://internet.watch.impress.co.jp/cda/news/2008/03/03/18656.html　を思い出した．

リンク

日本語が亡びるとき、IME も亡びる - 生駒日記

各地で噂に(?)なっていた日本語が亡びるとき―英語の世紀の中で作者: 水村美苗出版社/メーカー: 筑摩書房発売日: 2008/11/05メディア: 単行本購入: 169人クリック: 12,657回この商品を含むブログ (459件) を見るを読んでみた。なんだこれは……。歴史的な認識の誤りとか日本の国語国字問題とかそういう部分での知識の欠如とか多すぎて話にならない。まずこれは「論文」ではない。一言で要約すると「ワタシは明治・大正時代の日本の小説が美しくて好きだ。なぜならその時代の日本の小説家は知識人だったからだ。この美しい日本語の小説が読まれなくなるのは腹立たしいので、日本の若い世代でも明治時代の小説が読めるように、日本政府はちゃんと日本語を教育しなければならない」というものである。気持ちは分からないでもないが、そういう気持ちがあったとしても、他人を説得する文章を書きたいのであれば、