タグ

ブックマーク / komachi.hatenablog.com (36)

  • 自然言語処理を使って日本語の歴史を研究する - 武蔵野日記

    午後打ち合わせで立川の国立国語研究所に。「統計と機械学習による日語史研究」研究発表会に参加するためである。この研究プロジェクトは去年の年末からスタートの3年間のプロジェクトで、自分は機械学習や統計的自然言語処理方面からの研究分担者として参加している。 研究発表会は公開研究会で、プロジェクトのメンバーでない人もいらしたので、まずプロジェクトの概要を @togiso さんが説明してくださって、あと teruaki-o くんが最近取り組んでくれている明治時代の文書に対して濁点を自動付与する研究の報告をしてくれる。実際は最後人手でチェックするのだが、人手チェックしてくださった方も今回発表会に参加してくださり、いろいろフィードバックをいただけてありがたい。なにもないところから濁点を付与するより、こういうツールで前処理的につけてあると助かる、ということが直接聞けるのも、自然言語処理が日語史研究の役

    自然言語処理を使って日本語の歴史を研究する - 武蔵野日記
  • NLP若手の会の今後の活動について考える - 武蔵野日記

    言語処理学会年次大会初日。昼休みにNLP若手の会プログラム委員会の顔合わせランチだったのだが、場所の確保に右往左往。 昼の招待講演、豊橋技科大の榊学長の話、ゲノム解析には3ステップあって、馬力が必要な「サンプル調整」、仕事の丁寧さが必要な「配列決定」、緻密で忍耐力が必要な「データ処理・編集」の仕事があるのだが、研究者を志望する学生はなにが向いているか、なにがおもしろいと感じるか分からないので、3つとも全部体験させる、とのこと。確かにこういうのの適性や人がなにしたいのかは外からは分からないので、全部体験してもらう、というのは大事なのかもしれない。 夕方ポスターを挟んで NLP 若手の会の懇親会。甲南大学の永田さんとか、お会いしたくてこれまで直接お話しする機会がなかった方たちとお話しできてよかった。現在 NLP 若手の会のシンポジウムのプログラム委員長は@akfさんと K 治さんのお2人だっ

    NLP若手の会の今後の活動について考える - 武蔵野日記
  • 自然言語処理ツールの開発を成功に導くには - 武蔵野日記

    CICLing 最終日は Chris Manning さんの基調講演でスタート。Manning さんといえば自然言語処理業界のバイブル的教科書である FSNLP Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人 クリック: 169回この商品を含むブログ (18件) を見るやIIRことIntroduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambr

    自然言語処理ツールの開発を成功に導くには - 武蔵野日記
  • 横浜美術館で同期の結婚式 - 武蔵野日記

    NAIST の同期の2人の結婚式横浜(みなとみらい)へ。横浜美術館の中で挙式・披露宴ができるらしい。洒落てるなぁ。 最初受付で新郎側友人になっているのか新婦側友人になっているのか迷い、新郎側に行ってみたが、新婦側になっていたようだ (汗) ちょっと恥ずかしい…… 晴れていたので外で挙式。気持ちいい。人前式。最近このタイプ多いが、クリスチャンでもないのに教会式にしたり、初詣以外神社に行かないのに神前式にするより、このほうが参加した人全員が生き証人ってことでいいのかなと思う。 披露宴は2人の人柄が偲ばれる楽しい会に。名札に新郎新婦からメッセージがあって、素敵だなと思う。あと、出し物が多い (笑) みんなから愛される2人なんだと思った。でも自分は新婦の手作りのビデオが一番好きだった。家族への手紙を読んでいるとき、自分までもらい泣き (ToT) 2人とも末永くお幸せに! 帰りは渋谷で途中下車。日

    横浜美術館で同期の結婚式 - 武蔵野日記
    rokujyouhitoma
    rokujyouhitoma 2011/01/31
    美術館での結婚式っていいなぁ。
  • エンジニアを幸福にしないヤフーというシステム - 武蔵野日記

    @nokunoさんのYahoo! JAPANを退職しましたという記事を読む。いまはタイトルに「翻訳」と書いてあるので紛らわしくないが、最初は「すわ id:nokuno さんがとうとう辞めたか?!」と釣られたものである (笑) 内容を読んでみると「まあ、そうだろう」という感じで、そんなに目新しいことが書いてあるわけではない (が、Yahoo! JAPAN の労働環境について知らない人が読むと「え、Yahoo! ってそんなところだったの??」とびっくりするかも)。著者も断っているが、これはアメリカYahoo! のことではなく、日Yahoo! JAPAN のことであり、Yahoo! JAPAN は外資系の会社ではなくコテコテの日企業である (それが悪いと思うかよいと思うかは人次第)。 (2010-10-31 追記) Yahoo! JAPAN の環境がそんなによくないのは My New

    エンジニアを幸福にしないヤフーというシステム - 武蔵野日記
    rokujyouhitoma
    rokujyouhitoma 2010/10/31
    IBMの連中だって営業職はプログラミング研修あるぞ...。つぶやいてみる。
  • 自然言語処理の中級者向けのテキストはどのようなものになるだろうか - 武蔵野日記

    東京では楽天テクノロジーカンファレンス2010があったらしい。Twitter で様子がちょくちょく分かるが、楽しそうである。行けなくて残念。こういうとき、東京に住んでいると気軽に行けるのになぁ、と思ってしまう。(勉強会に行き過ぎて自分自身で独自のものを考えたり作ったりする時間がなくなる「勉強会貧乏」になる危険性はあるが) 同様に、YAPC::Asia Tokyo 2010も開催されていたようだ。研究用のコードを見直していて気がついたが、自分が Perl から Python にスイッチしたのは3年前で、それまではほとんど全てのスクリプトはシェルスクリプト(+make)か Perl で書いていた。その後、ほとんど全てのスクリプトは Python で書くようになってしまったので、感慨深い転換点であったように思う。(いまでも Perl で書くものはある。リストのシャッフルみたいな簡単な操作で、Pe

    自然言語処理の中級者向けのテキストはどのようなものになるだろうか - 武蔵野日記
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
  • 困ります、コマチさん - 武蔵野日記

    大学での研究者は科研費(科学研究費補助金)というような公的な競争的研究資金を獲得して研究するのが一般的だが、わずかながら「校費」と言って自動的にもらえる研究費と教育費がある。教員1年目の自分なんかは外部の研究費が獲得できるまでは基的にこの「校費」で研究せざるをえないわけだが、それでも年間数十万あるだけでもありがたい(去年までは日学術振興会というところの特別研究員をしていて、年間50万円研究費があった)。 で、その研究費を使ってを買うこともできるのだが、これまで学生の身分では書籍購入希望の場合は研究室の秘書さんにお願いして(松先生が代行して)払う必要があったようなのだが、教員になったら自分で Amazon に発注してもいいそうで、初めて利用してみる。どきどき。 買ったのは、最近 Twitter とかいろんなブログとかで紹介されている エキスパートPythonプログラミング 作者: T

    困ります、コマチさん - 武蔵野日記
    rokujyouhitoma
    rokujyouhitoma 2010/06/07
    [ExpertPythonProgramming]
  • 情報系の研究を始めるにはまず国際会議の論文をたくさん読むこと - 武蔵野日記

    毎週金曜日 NAIST は入試説明会というのをやっていて、オープンキャンパスでなくても説明会を受けられるのだが、その参加者が「松研を見学したい」ということなので、1時間ほど応対。入試について説明してくれるこの説明会とは別にいつでも見学会という制度もあり、こちらで申請して行きたい研究室を直接見学する人もけっこう多い(ただし、入試についての情報はあまり得られない)。ちなみに、自分の大学での仕事(いわゆる雑用)の一つはこの「いつでも見学会」の申請者の集計なのだが、毎日のように見学会の申請者がいるので、なかなか大変である。もっとも、集計自体はメールが来たら記録するだけなので、1件数分の作業ではあるが。 見学に来てくれた人は自然言語処理の研究室の人だそうだが、松先生があいにく出張中だった(残念)ので、自分が研究テーマの説明をしたりなんだり。偶然近くにいた katsuhiko-h くんに説明をお願

    情報系の研究を始めるにはまず国際会議の論文をたくさん読むこと - 武蔵野日記
    rokujyouhitoma
    rokujyouhitoma 2010/06/07
    やっぱり英語重要。
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • iPad を待ちわびて - 武蔵野日記

    かねてから噂になっていた Apple のタブレット型ノートブックが、iPadという名前で発表された。680g で10時間動くって、これは自分のためにあるようなデバイス(笑) eric-n さんとも話したが、国際会議にこれを持っていって、Keynote でプレゼンして、論文 PDF をこれで読み、会議の開催場所の Wifi でメール書き、はたまた SIM ロックされていないのでその国の SIM を挿せばそのままどこでも使える(micro SIM でないとだめだそうだが)と、三拍子揃っている。 日での発売は6月以降順次らしいが、これは使いたいな。ちなみに日本語入力はこんな感じらしい。新しい Android 端末の Xperia に搭載されている日本語入力は POBox Touch と言って、これもソフトウェアキーボードのようだが、qwerty (日本語入力で使わない q を消すこともできるの

  • 確定申告書類を揃える - 武蔵野日記

    2月の確定申告が迫ってきたので書類を揃える。実は今年も確定申告ではなく還付申告なので、2月15日以前に全部の書類を集めて申請しておいたほうが、圧倒的に処理が速いのだ。かれこれ学部時代から毎年確定申告をしている(2個所以上収入がある場合はしないといけない)が、書類に書き込んで提出したのは最初の2年間だけで、少なくとも大学院に進学してからは、確定申告書作成コーナーの出来がいいので、ずっとこれを使っている(e-Tax は書類を郵送しなくていいのは便利なのだが、事前に登録が必要だったり IC カードリーダーが必要だったり、面倒くさい)。 さて、昨年は3個所から源泉徴収票が送られてくるはずなのに、1個所からまだ来ていなかったので、書類をまとめるのはあっさり頓挫……。社会保険料の控除をまとめていて、国民年金と国民健康保険の期限が迫っているのに気がついたので、振り込みに行ったり。意外と額が大きい。銀行で

    確定申告書類を揃える - 武蔵野日記
  • ウェブ学会と今後のウェブ研究 - 武蔵野日記

    第1回ウェブ学会というのが開催されていた。博士論文の〆切前のこの時期東京に行くのは不可能だったが、幸いにもストリーミング中継されていたので、半分くらい見ることができた。いちばんおもしろかったのはやはり最後のセッションで、録画も公開されているので、興味がある方は参照されたい。 emiko-y さんの感想が冷静なところだが、自分もウェブ「学会」と言われると、??? と思ってしまうのだが、確かに学会や企業を横断的につなぐというのはとてもいい試みだと思う。もう一つの方向性としては、楽天研究開発「シンポジウム」(カンファレンス、でもよい)のように、場所だけを提供します、という黒子に徹する、という立場もあるし、自分としてはそのほうが好きなスタイルではある。企業の名前が冠されてしまうのは善し悪しだと思うし、もう少し中立的でもいいと思うが、プロ野球で企業が各球団を所有するのと同じで、別に各企業がそれぞれ知

    ウェブ学会と今後のウェブ研究 - 武蔵野日記
    rokujyouhitoma
    rokujyouhitoma 2009/12/08
    あとでみる。
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記

    PageRank とか HITS といったリンク解析ではグラフの計算が頻発するのだが、Python でそのあたり書くときの話をまとめてみる。グラフは行列で表現できる(ノード×ノード次元の行列 A を考えて、ノード i からノード j にエッジがあるとき、A[i,j] に値を入れておけばよい。無向グラフのときは A[i,j] = A[j,i] なので対称行列になる)ので、要は行列を手軽に扱えるライブラリの紹介である。 実は Python の行列演算ライブラリはどれも lapack/blas を内部的に呼んでいるので、C/C++ 等と比較してもそんなに遅くない。それどころか、自動的に並列化できるところは並列化してくれたりするので、まれに C より速いこともあるらしい。特に巨大なグラフを作る場合、ほとんどの処理は C などで書かれた関数に飛ぶので、速度的な問題は無視してもいいくらいである(逆に、

    Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記