タグ

ブックマーク / komachi.hatenablog.com (20)

  • Apple や Google でインターンシップをしたいなら、パッチを書きなさい - 武蔵野日記

    [twitter:@teenst] くんのTwitter経由で私がアップル社のインターンシップをTwitterで募集することになった経緯と結果を読む。たぶん日の大学生はApple (に限らずアメリカの大企業で求められている能力) を知らないので、「チャンスがあるなら挑戦したい!」と思うのかもしれないが、ほとんどの人の場合、応募以前の問題であることが多いのではなかろうか。たぶん日的感覚では、勉強のためにインターンシップに行きたい、というのだろうが、少なくともなにがしかの仕事ができる人でないと難しいのである。 Appleでのインターンシップについてはこちらの記事にも反応したことがあるのだが、コードを書ける人に言いたいのは、日常的に英語を使いましょうということ、逆に英語にはそんなに問題がないなら、開発しましょうということ。恐らく何らかの世界的なオープンソース開発コミュニティに2年以上継続して

    Apple や Google でインターンシップをしたいなら、パッチを書きなさい - 武蔵野日記
    Itisango
    Itisango 2012/08/27
    Apple や Google でインターンシップをしたいなら、パッチを書きなさい
  • 中高大は男子校のほうが学力は伸びる - 武蔵野日記

    朝から高の原へ。意外に空いている。昼はならまちの江戸川へ。奈良に来るとまずここへ来る気がする……。 午後家に帰ってきてごろごろしたり。夜は踊る大走査線 THE MOVIE 3 を見たり。 以前購入した「男子校という選択」 男子校という選択 日経プレミアシリーズ 作者: おおたとしまさ出版社/メーカー: 日経済新聞出版社発売日: 2011/12/09メディア: 新書購入: 4人 クリック: 47回この商品を含むブログ (12件) を見るを読む。「なぜ東大合格トップ10の8校は男子校なのか」というのがオビで、以前紹介した「女子校育ち」と同じようなネタかと多少期待していたのだが、教育パパ・ママをことさら刺激するでもなく、男子校をおもしろおかしく暴露しているでもなく、割合中立なであった (取り上げられている学校の選択は偏っているが、意図的だろう)。 男子校出身者は大学の1-2年で彼女ができる

    中高大は男子校のほうが学力は伸びる - 武蔵野日記
    Itisango
    Itisango 2012/01/02
  • 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記

    先日献いただいた「入門ソーシャルデータ データマイニング、分析、可視化のテクニック」 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るを読了 (多謝!)。tkng さんも書評を書かれているし echizen_tm さんも書評を書かれているので、いまさら感は否めないが、別の観点から少し寸評。書は、データを抽出してからの可視化の方法が全体の半分以上を占めていて、そういう方法を知らない人には参考になると思う。 研究のための実験をしていても、実は地味に重要なのは機械学習

    『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記
    Itisango
    Itisango 2011/12/05
  • 戦うウェブエンジニアの三種の神器 - 武蔵野日記

    午前中ミーティングの予定を入れていたが、今日は [twitter:@mizuno_takaaki] さんに 学内の招待講演をお願いしていて、[twitter:@tettyun] くんとご飯をべるため高の原まで迎えにいくことを忘れていたので、急遽ミーティングを夕方に延期。すまんかった。 ランチは@mizuno_takaakiさんに新卒採用担当の Kさん を交えて DeNA のお話とか、@tettsyun くんを交えてバイドゥのお話とか、いろいろお伺いする。DeNA は新卒今年40人ほど採用なようだが、30人弱がエンジニアで、新卒研修直後に海外 (サンフランシスコ、Twitter オフィス側) 勤務する人もいたり (海外ゲーム会社を買収したりしたので)、海外で働きたい人にとってはチャンスが豊富な職場だということ。最初から海外で働くこと狙いで入社するのも歓迎 (保証はできないが海外で働きたい

    戦うウェブエンジニアの三種の神器 - 武蔵野日記
    Itisango
    Itisango 2011/10/29
  • 自然言語処理の最先端で活躍するソシュール言語学 - 武蔵野日記

    雨で蒸し暑い…… コーポレートカードを発行してもらう。基的には准教授以上の発行らしいのだが、助教でも立替払いが多いとか理由があれば発行してもらえるようである。たとえば研究費で購入する場合でも、Amazon で書籍を立て替え払いをしたりすると、作成しなければならない書類が多いので、コーポレートカードのほうが手間が減って (直接大学の研究費から引き落とせるので) いいらしい。早速今年の夏の読書会のを注文してみた。 ちなみに松研の夏の読書会は受験生向けのサマーブートキャンプと共催で、「The Art of Computer Programming 4a (組み合わせアルゴリズム) を読む 」という企画。いつもは実習系のテーマを出しているのだが、一度くらい趣向を変えてみようかなと (毎年読書会とサマーブートキャンプがぶつかって読書会に出られなかったのだが、マージすると両方出られるし)。例年サ

    自然言語処理の最先端で活躍するソシュール言語学 - 武蔵野日記
    Itisango
    Itisango 2011/07/03
    自然言語処理の最先端で活躍するソシュール言語学
  • CoNLL-2011 初日: 人間の言語理解に自然言語処理が貢献できること - 生駒日記

    ACL の会議は終了したので会議後のワークショップの日。自分は Conference on Computational Natural Language Learning ( CoNLL-2011 ) という会議に参加。 当は他のワークショップもぶらぶらと出ておもしろそうなのがあったら聞いてみようかと思っていたのだが、どうも今回は会場がどこも狭いようで、登録した人のぶんしか座席がないようなので、大人しく最初から CoNLL に参加。 CoNLL は今回15回目で、それなりに伝統もある会議なのだが、今回は投稿数82件で採択数はそれぞれ口頭が13件、ポスターが14件、合わせると33%で、中堅どころの会議になっている。もう一つ元々は同じくらいの規模だった EMNLP (機械学習や統計を用いた自然言語処理の国際会議) という会議は今回600件以上の投稿数で、今年の採択率は24%だったらしいのだ

    CoNLL-2011 初日: 人間の言語理解に自然言語処理が貢献できること - 生駒日記
    Itisango
    Itisango 2011/06/25
  • ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記

    ACL HLT 2011 の3日目の最初は認知言語学に関するHow do the languages we speak shape the ways we think? という基調講演。時間、性(ドイツ語やフランス語で女性名詞や男性名詞がある)、因果関係に関していろんな言語でどのように表現され、それが人間の認識にどのように影響を与えているか、というトーク。おもしろい。 たとえば、時間軸の過去と現在を前後と言う(思う)か上下と言うかは言語によって違い、たとえば日語では「6月下旬」は6月の先の時間(未来)を指すが、英語では上下でなく前後で表現したり(たとえば "back in '90s" のように過去を指す)、アイマラ語は前後でも過去が前で未来が後ろだったりとか。 それで、言語が認識に影響を与えるかの調査の実験として、英語中国語のバイリンガルに対し、「月曜日と火曜日がどのように位置関係にな

    ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記
    Itisango
    Itisango 2011/06/24
  • ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記

    5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。 朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松先生がぼやいていたのだが、ベストペーパーの紹介を今日は松先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑) 副学長に加えてプログラミング委員長、なんだか今年松先生は忙しそうな年である。 さてベスト

    ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記
    Itisango
    Itisango 2011/06/23
  • 「勉強ができた人」から脱皮するためには - 武蔵野日記

    情報科学若手の会2日目。 前日3時半でもまだ5-6人残っていたのに、朝8時にはみんな起きてきてちゃんと朝べていて偉い。 9時半から延々セッション。議論が白熱して予定時間を超過することも珍しくなく、すごいものだなと思う。 午後 @overlast さんから「なにか飛び込みセッションで話さないですか、自分はこれ話します」と振られ、@overlast さんはその場でおもむろにスライドを作り始めていたので、それなら自分も話そうか、と思って手を挙げてみる。結局月曜日に未踏の超交流セッションで話した内容をスライドつきで話したような感じだが、少なくとも数人にはご好評だったようで、もう一度話してよかったかな、と思う。 結局全部のセッションが終わったのは深夜1時くらいのようで(自分は0:30くらいに一度抜けて1:30に再度帰ったら、セッションが終わって宴会になっていた)、ものすごいパワーだな、とびっくり

    「勉強ができた人」から脱皮するためには - 武蔵野日記
    Itisango
    Itisango 2010/09/21
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
    Itisango
    Itisango 2010/08/22
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • セキュリティの神話 -- 研究とビジネスのあいだ - 武蔵野日記

    オライリーさんから セキュリティの神話 作者: John Viega,葛野弘樹(監訳),夏目大出版社/メーカー: オライリージャパン発売日: 2010/04/26メディア: 単行(ソフトカバー) クリック: 123回この商品を含むブログ (22件) を見るを献してもらった。感謝! というのも、これの監訳をしている @khiro くんは NAIST の同期であり、修士のとき一緒に SICP 勉強会をやった仲なので、今度が出るのでお送りしていいですか、とメールいただいたからである。彼は修士を卒業したあとセコムIS研究所に勤めているが、在学中は未踏ユースに採択されたり、情報処理学会の論文誌に採録されたりと活躍しており、自分もいろいろと刺激になった。 さてこのだが、McAfee というアンチウイルスソフトの現CTO(最高技術責任者)、元副社長の人が、セキュリティ関係のソフトについてぶっちゃ

    セキュリティの神話 -- 研究とビジネスのあいだ - 武蔵野日記
    Itisango
    Itisango 2010/04/25
  • ウェブ学会と今後のウェブ研究 - 武蔵野日記

    第1回ウェブ学会というのが開催されていた。博士論文の〆切前のこの時期東京に行くのは不可能だったが、幸いにもストリーミング中継されていたので、半分くらい見ることができた。いちばんおもしろかったのはやはり最後のセッションで、録画も公開されているので、興味がある方は参照されたい。 emiko-y さんの感想が冷静なところだが、自分もウェブ「学会」と言われると、??? と思ってしまうのだが、確かに学会や企業を横断的につなぐというのはとてもいい試みだと思う。もう一つの方向性としては、楽天研究開発「シンポジウム」(カンファレンス、でもよい)のように、場所だけを提供します、という黒子に徹する、という立場もあるし、自分としてはそのほうが好きなスタイルではある。企業の名前が冠されてしまうのは善し悪しだと思うし、もう少し中立的でもいいと思うが、プロ野球で企業が各球団を所有するのと同じで、別に各企業がそれぞれ知

    ウェブ学会と今後のウェブ研究 - 武蔵野日記
    Itisango
    Itisango 2009/12/08
  • EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた - 武蔵野日記

    今年の ACL-IJCNLP の各テーマ別採択件数・採択率一覧は ACL business meeting で資料が配られたので、NLP 若手の会第4回シンポジウムの国際会議報告にて報告があると思うが、今回の EMNLP では意味解析に関する研究発表が割と目につく。盛り上がってきたかな? クリックスルーや検索クエリログを用いた研究は、ポスターセッションでも4,5個あったが、割とメジャーになってきたらしい。朝一のセッションは Information Retrieval and Question Answering に出て、 Huihsin Tseng; Longbin Chen; Fan Li; Ziming Zhuang; Lei Duan; Belle Tseng. Mining Search Engine Clickthrough Log for Matching N-gram Fea

    EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた - 武蔵野日記
    Itisango
    Itisango 2009/08/10
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
    Itisango
    Itisango 2009/07/22
  • 空気のようなソフトウェアのつくりかたに迫る - 武蔵野日記

    Word + IME 2000に迫るを読んでいろいろと考える。taku さんのファンに支えられるプロダクトとユーザにdisられるプロダクトを読んで、「ポジティブなファンの応援は確かに励みになりますが、改善点を正直にぶつけてdisってくれるユーザ(not ファン)を大事にしていきたいと思います。良くも悪くも言われないんだけど、誰もが空気のように使っているというのが私の理想のプロダクトです」とあって、そうだなぁ、と思ったり。 安達:そうなんです。ユーザビリティ・ラボのテストでも,初心者の人はどうしても変換中の文字列に対してマウスを使ってしまって,変換中の文字列が全部消えてビックリ,となる。そこで,変換中の文字列に対しても,確定後の文字列に対してと変わらないマウス操作を可能にしよう,と。 藤:その一環として,見た目的にも,変換中の注目文節が反転する表示をやめました。代わりに太い下線が引かれます

    空気のようなソフトウェアのつくりかたに迫る - 武蔵野日記
    Itisango
    Itisango 2009/07/17
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
    Itisango
    Itisango 2009/03/29
  • Google Chrome とランキング学習。検索エンジンの進化には人手が重要 - 武蔵野日記

    諸事情により最近 Internet Explorer を使っていたのだが、あまりに起動(や操作)が遅くて我慢ならなかったので、最近は Google Chrome を使っている。(現時点では Windows 用しかないが) Firefox でもほとんどアドオン使っていなかったせいかどうか分からないが、これはいいなぁ。マウスジェスチャがないのがちょっと使いにくいが、まあ必須というほどでもなかったので……。 高速なのがいちばんストレスにならないのだが、普通ゴテゴテつけるであろうさまざまなボタンやテキストエリアがなく、すっきりしているのがよい(Google のページも最近まではそうだったが……)。検索窓もないのは最初びっくりしたが、自分もよくアドレスバーに検索クエリを入れて検索するので、確かにこれでいいな、と思った。けっこう考えられている気がする。 そういえば 昨日のセミナーで知らない人もいたよう

    Google Chrome とランキング学習。検索エンジンの進化には人手が重要 - 武蔵野日記
    Itisango
    Itisango 2009/02/19
  • 最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記

    先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。 簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に

    Itisango
    Itisango 2009/02/18
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    Itisango
    Itisango 2009/01/26
  • 1