タグ

ブックマーク / komachi.hatenablog.com (5)

  • 論文紹介は八百屋で野菜を売るようなもの - 武蔵野日記

    今日は id:smly くんによる論文紹介。週末大学が新しい研究棟を作るために全学停電になってしまうので、最後駆け足になってしまったが、きちんと消化して読んでいてすごいなぁ、と思う。すでに博士の学生くらいの貫禄ある……(入学した当初からそうだったかもしれないけど(笑)) 同じく DMLA 組(データマイニングと機械学習とリンク解析に関する勉強会)の M1 の人としては、id:tettsyun くんも先週進捗報告していて、しっかり研究していてさすがだな、と思う。manab-ki くんと一緒にあーだこーだ言いながら論文読んだりしていて、楽しそうである。 翻って自分のことを考えてみると、自分が論文の読み方、特に勉強会でどの論文を紹介すればいいかという勘所が分かってきたのは、つい最近のことである。少なくとも、Microsoft Research に行って帰ってくる前は分かっていなかった。重要な点と

    論文紹介は八百屋で野菜を売るようなもの - 武蔵野日記
  • 回帰のための能動学習と自然言語処理 - 武蔵野日記

    東工大の杉山さんが「回帰のための能動学習」というテーマで講演してくれた。先月東工大の自然言語処理合同研究会でも杉山さんのトークを聞いたが、そちらは確率密度比に関する内容で、それとは被っていなかったので参考になる。 能動学習(active learning)というと、人手によるタグづけの手間を減らすために用いられる手法で、前提としてタグづけやサンプルの採取にとてもコスト(時間なりお金なり熟練なり)がかかるとき、いかにして少ないサンプルで機械学習するか、というようなことができる手法。自然言語処理では、たとえば最初いくらかの分量のデータをタグづけし、それから教師あり学習をして自動タグづけモデルを作成し、残りのタグなしデータに適用する。出てきた出力のうち、確信度の高いものはたぶん正解だろうからおいといて、確信度の低いものは現在のモデルで間違えている可能性が高いサンプルなので、これを人に見せてタグづ

    回帰のための能動学習と自然言語処理 - 武蔵野日記
  • コンピュータ将棋は来年プロ4段に追いつく - 武蔵野日記

    情報処理学会の機関誌「情報処理」の2009年9月号の小特集「コンピュータ将棋の新しい波」がおもしろい機械学習に基づく局面評価関数のパラメータ(重み)調整を取り入れた Bonanza が話題をさらったのは記憶に新しいが、今年の世界コンピュータ将棋選手権ではソースコードまで全部公開された Bonanza を用いた手法が多数登場したらしい。(というのはtihara さんの日記で知っていたが) ちなみに優勝したのは GPS 将棋であり、p.871に ktanaka 先生や@shnskさん、@gyoshiki さんたちの写真が掲載されている :-) 棋譜や全体の結果は特集を参照してもらうとして、興味深いのは勝又6段の「プロ棋士から見たコンピュータ将棋」と伊藤さんの「合議アルゴリズム『文殊』」。先に後者のほうについて話すと、文殊は多数のプログラムの合議をして多数決で差し手を決めるシステムで、単にア

    コンピュータ将棋は来年プロ4段に追いつく - 武蔵野日記
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1