タグ

ブックマーク / komachi.hatenablog.com (7)

  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
    lizy
    lizy 2014/01/03
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • USB メモリから Ubuntu Linux をインストールする - 武蔵野日記

    最近 Linux をインストールするときあまりはまりたくないので Ubuntu を使っているのだが、CD とか DVD が使えないときはどうするんだ? と思って調べたメモ。 最近は USB メモリから Linux がインストールできるらしく(常識か?)、いくつか方法があるようなのだが、既に動く Ubuntu があるときは CD の ISO イメージを用意して # usb-creator として GUI のツールでやるのが一番簡単なようだ(なければ apt-get でインストール可能。Ubuntu 8.10 から登場したらしい)。コマンドラインからやってもそんな手間ではない手順のようだが、最近楽できるところは楽するように横着になってしまった。 何回か手でやろうとしてうまく起動せず、これなら USB Linux 入れて Gentoo インストールすればいいんじゃないか(※Gentoo は Li

    USB メモリから Ubuntu Linux をインストールする - 武蔵野日記
  • ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記

    SIGIR 2009 の採択論文が発表されていたようだ。SIGIR というのは情報検索に関する世界で一番権威ある国際会議で、情報系の国際会議ランキングでもトップ10にランクインしている。その採択数が一番多いのは Microsoft、二番目が Yahoo! 次いで Google (でも3だけ)という結果に。 なぜ採択数(率)が問題になるかというと、情報系の国際会議というのは最新の研究成果を発表する場であり、投稿された論文に2人以上の査読者がついて各項目について点数をつけ、一定点数以上のものだけを採択するので、国際会議のランクに応じてそれなりのクオリティの論文が書けないとそもそも通らないし、1人で書ける論文の量にも限界があるので大量に通せる研究機関は研究者の層も厚いことが分かるからである。 上記リンク先でも書いてあるが再度引用すると、 38% of the papers have at le

    ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記
  • アジアが今後も継続的に発展するというようなことはありえない - 武蔵野日記

    たまには毛色の違う話でも。 良い経済学 悪い経済学 (日経ビジネス人文庫) 作者: ポールクルーグマン出版社/メーカー: 日経済新聞社発売日: 2000/11/07メディア: 文庫購入: 18人 クリック: 187回この商品を含むブログ (57件) を見る を読んだ。かなりおもしろい。現在は武力による戦争でなく国と国同士が経済的に競争しているので、こういう国同士の経済「戦争」に勝利することが大切だ、という見方がいわゆる有識者とか知識人階級に蔓延しているが、そういう意見は全くでたらめで、ちゃんと経済学を勉強した人ならすぐにウソが見破れるのだけど、自称評論家がもっともらしく数字を出して(計算すればすぐ間違いと分かるのに)声高に叫んでいるのは我慢ならない、という話。 経済学というのは現実世界に近い学問の割に研究者があまり報われない不遇な学問だと思うが、こういうふうに啓蒙(?)していくのも研究者

    アジアが今後も継続的に発展するというようなことはありえない - 武蔵野日記
  • 転職は1億円損をする - 武蔵野日記

    さて今週も就職活動のため(?)赤坂に来ているのだが、渋谷より落ち着いた町でいいかもしれない。こんなに TBS 城下町だとは知らなかったけど…… 新幹線の中で 転職は1億円損をする (角川oneテーマ21) 作者: 石渡嶺司出版社/メーカー: 角川グループパブリッシング発売日: 2008/10/10メディア: 新書購入: 3人 クリック: 48回この商品を含むブログ (33件) を見る を読んだ。非常におもしろい。これから就職する人、転職を考えている人、転職した人にお勧め。枠外で2ページに1冊他の転職・就職のコメントが書いてある(お薦めの場合もあるが、そうでない場合もある)のだが、それも参考になる(というかこのコメントだけでもかなりの分量になるので、書評として買うのだけでも元が取れる?)。転職コンサルタントや転職サイトの構造を説明して、なぜ転職が煽られているのか、当に転職してよかったケー

    転職は1億円損をする - 武蔵野日記
    lizy
    lizy 2008/11/07
  • 1