タグ

2010年7月17日のブックマーク (7件)

  • 最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

    読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。 再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。 半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

    最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
  • NTCIR-8 Patent Mining Task

    ちょっと報告が遅れましたが,会議には参加してませんが,NTCIR-8のPatent Mining Taskに,チーム西山の隊員として参加しました.タスクの内容は,特許文書中からその特許が解決したい課題や効果がかかれたフレーズを抜き出すというものです.結果的に参加チーム中で結構いい順位につけたということで,論文も公開されています.実は私がポカしたせいで,当はもう少し結果よかったです(後述). 正解付与済みデータが与えられるということで,CRFを使った教師あり学習の枠組みに,おのおのの得意とする特徴量をこれでもかとてんこ盛りに入れ込みました.正解データを見る限り,明らかに係り関係にある単語や文節が分類に貢献していることがわかったので,私に召集令状が係った次第です.特に特許文書は一文が長く,構文解析が難しいので,NLP2010で発表したような距離期待値のテクでロバストになることを期待しました.

  • 自然言語処理では複雑なモデルの CRF は使いどころがないのだろうか - 武蔵野日記

    今日はちょっと時間がなかったので男女共同参画室のランチミーティングはそこそこに抜けさせてもらう。在宅勤務ができるかどうかの調査を頼まれたのだが、調査期間になっている7月18-31日のうち、半分以上休暇を取る予定なのだけど……。 まあ、自分に関しては、大学での仕事のうち、在宅勤務が不可能なのは勉強会出席くらい。うち、毎週出席する必要がある(自分以外に毎週出るスタッフがいない)勉強会は2つ、これとは別に研究室全体のミーティングがあり、それぞれ2-3時間程度なので、合算すると週9時間程度。現在全部別々の曜日にあるが、まとめると週2-3日勤務までは短縮できると思われる。個別のミーティングであれば、どうしても必要なら Skype を使えばいいし。(そもそも「在宅」と言われても歩いて5分のところに家があるので、在宅でやる意味はないのだけど) いや、なんとなれば勉強会も Skype で中継してもいいし…

    自然言語処理では複雑なモデルの CRF は使いどころがないのだろうか - 武蔵野日記
  • 電子媒体で読み書きすると記憶に残らない - 武蔵野日記

    今日の研究会はM1の研究会発表。@tomo_wbくんと@otoritoriくんと@jhirwinくんの3人。 どれもおもしろい内容。自己紹介はあると分かりやすいし、今日のみんなは効果的に使っていたのでとてもよかったと思うが、自己紹介は1枚か2枚くらいにとどめて、あとは研究につながる話ができるといいかな。 宮崎駿が iPad について語った内容が取り上げられているが、言われてみるとそれもそうかも。 あなたが手にしている、そのゲーム機のようなものと、妙な手つきでさすっている仕草は気色わるいだけで、ぼくには何の感心も感動もありません。嫌悪感ならあります。その内に電車の中でその妙な手つきで自慰行為のようにさすっている人間が増えるんでしょうね。電車の中がマンガを読む人間だらけだった時も、ケイタイだらけになった時も、ウンザリして来ました。 (中略) 一刻も早くiナントカを手に入れて、全能感を手に入れた

    電子媒体で読み書きすると記憶に残らない - 武蔵野日記
  • 企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記

    @descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え! という感じだが、どういう経緯なんだろう。 SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。 翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任

    企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記
  • 人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

    昨日帰るとき、katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。 簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

    人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記
  • 今週のDBCLS + From "Dango" to "Japanese Cakes": Query Reformulation Models and Patterns - 糞ネット弁慶

    プログラム書くの進めたりテスト書いたり Red→Green→Redと言う感じでテンポ良く進まない… あと論文大量に探してダウンロードして読んだり そもそもACM Digital Libraryの論文がうちの大学からだとダウンロードできないというのが問題なんじゃないか と思って今試したらダウンロードできた。何故これまでずっと勘違いしてたんだ no title どこかのBest Paper Awardを取った検索クエリに関する論文。凄く読みやすい感じだった。 2つの連続した検索クエリ(q, q')は Error Correction("califrnia", "california") Parallel move("hotel in Dublin", "flights to Dublin") Generalization("camping", "outdoor activities") Spe