tettsyunのブックマーク - はてなブックマーク

新卒でアメリカの大企業に就職するたった一つの方法 - 武蔵野日記

これは去年 Apple Inc. で日本語入力周りの開発のインターンシップをしていた立場上、一言言っておかなければならないのではないかと思ったので一言。就活で成功するために必要なたった一つのこと　−アップル本社社員にインタビューだそうだが、ちょっと誤解を与えそうな記事なので、補足したい。記事自体は Apple Inc. に務める日本人エンジニアの人たち4人にインタビューした内容のようで、Apple のことを誉めている内容ではあるのだが、気になるのは以下の部分。 ―技術力や思考力はもちろん、そういう人と関わる力も非常に重視されるんですね。そのような人材を選ぶのは並大抵のことではないと思うのですが、アップルの採用プロセスはどうなっているのでしょうか？ ◆新卒はあんまり取らないね。僕も中途だし。新卒を取るのは、ほぼインターンを通してかな。工学系の優秀な学生が3カ月〜一年ぐらいのスパンでインター

tettsyun 2010/09/09

リンク

オンライン学習の落とし穴は I/O にある - 武蔵野日記

オンライン学習を使うときの問題点がOnline Learning Algorithms that Work Harderに書かれている。一言で言うと「オンライン学習は学習が速すぎるので I/O がボトルネックになる」ということであり、自分も100%同意。なんでこんなことが起きるか、なのだが、1事例ずつ見ては最適化するオンライン学習にせよ、適当な数の事例を見ては最適化する確率的勾配降下法(Stochastic Gradient Descent)にせよ、全事例を見て最適化するバッチ学習と比べて、最適化の部分が重たかったり、全事例をメモリの載せなかったりしないといけないところを軽くするものなのだが、あまりに軽くなりすぎると、それ以外のところがボトルネックになる、ということで、それが I/O となっている、というわけ。もっと正確に言うと、ボトルネックになるのはディスクから読み込む I/O では

tettsyun 2010/09/06

リンク

自然言語処理の研究者が SKK を使うのはちょっと悲しい - 武蔵野日記

午前中助教室にいると自分を訪ねて来てくれた学生さんがいる。どうもこれからインターンシップに行く人だそうで、いろいろと不安なので相談に乗ってほしい、ということだ。自分の経験や今後のキャリアについてお話してみたり。やはり今どきの女性は一生働く(途中に出産や育児で休んだり時短にしたりするのを考慮に入れて)キャリアを考えて人生設計すべきだと思うし、男性も同様。意外に行ってみるといろいろ道が開ける(というかつながっている)ものである。そうそう、今年の SVM 勉強会は 8月7日開催なので、お日にち間違えなきよう (※松本研の OB/OG の同窓会です)。午後は水曜日からの読書会の読み合わせ。夏の勉強会は The Syntactic Process (Language, Speech, and Communication) 作者: Mark Steedman出版社/メーカー: A Bradfo

tettsyun 2010/08/03

リンク

工学部の教授はいい論文を紹介するとお礼を言ってくれる - 武蔵野日記

毎年恒例の論文読み会。今日は NAACL/ACL 読み会が開催された。自分も一つ紹介したが、いまいちだったのでここにまとめるのもなんだし、止めておこう (汗) ACL 2010 でベストペーパーを取った Beyond NomBank: A Study of Implicit Arguments for Nominal Predicates は natural language processing blog でも紹介されているように、おもしろい問題である。というか、我々(というか自分は乾先生やryu-i さんに面倒見てもらっていたばかりだが)は5年前から「こういう問題がある」と言ってきているのに、英語でこういう問題をやる人が出てようやく「これはおもしろい問題だ」と言ってもらえる、というのは微妙なところだが、まあそれは措いておこう。誰が言い出したかは自分にとってはあまり興味のある問題ではなく

tettsyun 2010/08/02

リンク

人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

昨日帰るとき､katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

tettsyun 2010/07/15

machine_translation

リンク

自然言語処理では複雑なモデルの CRF は使いどころがないのだろうか - 武蔵野日記

今日はちょっと時間がなかったので男女共同参画室のランチミーティングはそこそこに抜けさせてもらう。在宅勤務ができるかどうかの調査を頼まれたのだが、調査期間になっている7月18-31日のうち、半分以上休暇を取る予定なのだけど……。まあ、自分に関しては、大学での仕事のうち、在宅勤務が不可能なのは勉強会出席くらい。うち、毎週出席する必要がある(自分以外に毎週出るスタッフがいない)勉強会は2つ、これとは別に研究室全体のミーティングがあり、それぞれ2-3時間程度なので、合算すると週9時間程度。現在全部別々の曜日にあるが、まとめると週2-3日勤務までは短縮できると思われる。個別のミーティングであれば、どうしても必要なら Skype を使えばいいし。(そもそも「在宅」と言われても歩いて5分のところに家があるので、在宅でやる意味はないのだけど)　いや、なんとなれば勉強会も Skype で中継してもいいし…

tettsyun 2010/07/14

CRF

リンク

使う人から作る人になるためのアドバイス - 武蔵野日記

昨日B4の人にNAISTに来てから感じたことについて話していて思ったのだが、やはり大学院生の生活にはそれまでの学生生活との間にギャップがあるように思う。それは、一言で言えば産みの苦しみなのだが、違う観点から言うと、ツールを使うだけの人からツールを作る人に脱皮する、ということでもある。(自然言語処理だと、「ツール」のところが「コーパス」とか「辞書」とかでもよい) 中田さんのFLOSS活動 : 自分は何をやりたいかを設定して、孤独感にたえられるか。を読んで、確かにそうだなーと改めて感じる。研究でも同じで、オリジナルな仕事は誰もやっていないので、孤独感に耐えなければならない。「こんなツールを使ってこんな結果が出ました」という話で修士を卒業するのはいいのだが、博士の学生の仕事となると世の中の誰もやっていないことをやらないといけないので、これは割としんどい。「OSS活動に興味があります」という学生

tettsyun 2010/05/09

リンク

情報処理学会全国大会と言語処理学会年次大会の共催でイベントが目白押し - 武蔵野日記

今年の3月は東京大学本郷キャンパスで情報処理学会全国大会と言語処理学会年次大会が共催になっているのだが、会誌「情報処理」2月号の特集を見ると、いろいろおもしろそうなイベント目白押し。今回は言語処理学会より情報処理学会メインで聞こうかな? 「どのイベントがおもしろそうなのか教えろ」と @tettsyunくんからのリクエストがあった(笑)ので、書いてみる。来るべきクラウドコンピューティングの世界 (9日9:15-12:15) 見所: VMware 創業者の人が "Virtualization Renaissance" というテーマで、また Yahoo! で Hadoop のアーキテクトやっている人が "Hadoop at Yahoo, Today and Tomorrow" というテーマで話しに来る。情報爆発時代における情報の信頼性とデータ品質 (9日15:30-17:30) 見所: Mo

tettsyun 2010/02/19

2010年3月開催の情報処理学会のイベント

リンク

Philipp Koehn の Statistical Machine Translation - 武蔵野日記

機械翻訳について書いたので、ついでに本の紹介。2007年くらいからずっと in press だった気がするのだが、ようやく先月出版されたので、購入。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人クリック: 12回この商品を含むブログ (16件) を見る著者の Philipp Koehn は統計的機械翻訳の Pharaoh の開発で有名であり、最近はオープンソース(GPL)の Moses という翻訳ツールの開発で著名である。ちなみに、いずれのツールキットも、機械翻訳の世界ではデファクトスタンダード(数年前までは Pharaoh が使われていて、Moses が開発されてからは Pharaoh の座は M

tettsyun 2010/01/13

読んでみたい

リンク

小論文の書き方あるいはインターンシップの応募書類の書き方 - 武蔵野日記

最近自分の研究内容やらやりたいことやらを(英語で)書かないといけないという機会の人に相談されることがあるので、いくつか紹介。まずは英文レポート・エッセイで良いものを書くコツ（暫定版）。「エッセイ」と日本語で言うと「随筆」のように散文的な感想文チックなものを想像されることが多いかもしれないが、英語で「エッセイ」と言うと基本的には小論文のことである。これを間違えると採点不能(=0点)の文章を書いてしまう可能性があるので、注意されたし。一番大事なのは、英語では「起承転結」は使わない、ということ。もちろん、日本語の小論文でもできるだけ「起承転結」は使わないことをお勧めする。「起承転結」は小説や漫画ならいいのだが、論文、特に英語の論文やエッセイでこれをやってはいけない(いけなさ具合が伝わるといいのだが、なまじっか文章を書くのがうまいと思っている人ほど、無意識のうちに「起承転結」の構成にしてしまう

tettsyun 2009/12/15

リンク

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

tettsyun 2009/11/29

SVDなど

リンク

WEB+DB PRESS Vol.49 を読んで Spectral Hashing について考える - 武蔵野日記

前の Key-Value Store 勉強会でO 野原くんに勧められた Spectral Hashing の論文(NIPS 2008)も読んでみた。前もスペクトラルクラスタリングについて書いたが、要はグラフ分割の問題に落とし込んで、厳密に分割を求めようとすると NP 困難なので、制約を少し緩和して k 個の固有ベクトルを求める問題に帰着して近似解を求める、というもの。主成分分析のように重要な軸から順番に次元抽出して圧縮するので、非常にシンプルな方法だが、高い性能を得られそうであり、実際その通りだそうだ。具体的に実験を見てみると、人工データと現実のデータの両方で比較実験しており、いずれも Locality Sensitive Hashing (LSH) と Restricted Boltzmann Machine (RBM) より遙かにいい性能を得られるそうである。かなり impressi

tettsyun 2009/11/06

lsh

algorithm

リンク

大学3年生のころ - 武蔵野日記

先日の情報科学若手の会で @overlast さんが発表したスライド。大学3年生の僕に伝えたいことをつらつらと。こんなに懇切丁寧に手の内を教えてあげるのはすごいなぁと思う。自分もここにいろいろ書いたりはしているが、そんなに親切なわけでもないし……。思うに自分はよく戦術については書くが戦略については書かないんじゃなかろうか。「こういうふうにすればドクターに進学しても楽しいよ」と書いても、そもそもドクターに進学するのがいいか悪いかについては書かないし(それは人生を左右することだから個々人で決めるべきであって、自分の言えることを超えていると思うし、人それぞれだと思うから、個別に聞かれないと言いようがない、というのもある)。自分でも、何をやるかが決まっていてどうやるかが決まっていないときはやりやすいのだが、その逆は苦手。でもなにをやるかもしっかり吟味して決めないといけないんだろうなぁ、と今日の

tettsyun 2009/10/09

あとで読む

リンク

新学期のはじまりと情報検索システム論 - 武蔵野日記

M1 の人たちは今日から授業らしい。そろそろ研究で忙しくなってくるころかな？　自分も人生最後(hopefully)の授業料免除申請の書類を揃える。年々必要となる書類が増えるのはどうかと思うが、世の中厳しくなっているのであろう。自分は1回だけ不許可となったことがあるが、残りはずっと半額免除してもらっているので、だいぶ助かっている(年額26万円、月々2万円違う)。大学院、特に博士後期課程の授業料くらい、正規の年数滞在する人は全額免除でいいと思うのだけど……(長くいる場合は研究生と同じで徴収するのは分かるが)。最近ひょんなこと(=Twitter)から大阪市立大学大学院創造都市研究科なるものを知ったのだが、ここも NAIST と同じく大学院のみのようで、いろいろおもしろい授業をしているらしい(文系からも進学できるので)。たとえば情報検索システム論なんて授業で、半期で検索システムについて体系的に学

tettsyun 2009/10/08

ir

リンク

楽天も情報爆発しています - 武蔵野日記

楽天テクノロジーカンファレンスには行かれなかったのだが、大規模分散処理フレームワークの設計、実装が進行中 -- 楽天版MapReduce・HadoopはRubyを活用などを読むと、けっこうおもしろそうだったのだな、と分かる。楽天技術研究所がどういう位置づけなのかは分からないが、こういう基盤技術の開発を支援しているというのは評価していいと思う。(車輪の再発明という気がしないでもないが) 個人的な興味としては楽天が大規模データに対してどういうことをしているかということなのだが、記事を見るといろいろ書いてある。計算モデルがシンプルでも規模が巨大になるとまったく別の問題が生まれてくる。処理すべき情報量が爆発的に増加しているからだ。例えば協調フィルタリングではユーザーを縦軸に、商品アイテムを横軸にした購買履歴マトリックスについて計算処理を行う必要があるが、あまりに量が多く、素直に実装すると「2

tettsyun 2009/09/10

LSH

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

tettsyun 2009/09/05

距離

リンク

Ruby on Rails の流行り具合 - 武蔵野日記

Joel たちと Ruby の話になる。彼は Ruby を使ったことはないそうだが、Rails に興味があって調べているらしい。こっちで Ruby と言えば Rails で、Rails と言えば Ruby のようで、Rails が流行っているとは聞いていたが、けっこう知られているのだなと思った。そして Ruby が日本初のソフトウェアだということも有名らしい :-) 自分は全然関係ないけどちょっと嬉しい。別の人(名前は聞いたはずなのだが忘れてしまった)の話だが Mac 使っている Ruby 書く人には Mac Ruby というのがお勧めらしい。Ruby でちょこちょこと書けば Mac のアプリケーションができるのだとか。確かに楽そう。そして Mac OS X に rails が標準インストールされていることも初めて知る(ついでに Mac 使ってない人向けに言っておくと svn も標準で入っ

tettsyun 2009/07/20

ruby
mac

リンク

海外インターンシップに行くチャンスをつかむには - 武蔵野日記

アメリカ企業のインターンの仕組みで shima さんも書いているが、コネも大事だしチャンスを逃さないのも大事。思ったより学生の時間は短いので、何回インターンシップに行けるのかじっくり考えた方がいい。何回も書いているかもしれないが、自分の好きな ALEXANDRITE という漫画で、主人公のアレクが空手と柔道両方やっていて、空手を取るか柔道を続けるか選択することを考えていて、二者択一じゃないんだからどっちもやればいいじゃない、と言う意見もあって迷うのだけど、片方をやらないでもう片方に集中すればもっとできたかもしれないじゃないか、と後悔するかもしれない、と悩むエピソードがある(彼がどうしたかは漫画を読んでね！)。確かに身体は1つなので、なにか選んだらなにかは選べなくなるし、なにを選ぶか、そしてなにを選ばないかは意識した方がいい。インターンシップに行かないで研究に集中するのも一つの選択肢だし