タグ

ブックマーク / komachi.hatenablog.com (4)

  • 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記

    今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、 Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies) 作者: Jimmy Lin,Chris Dyer出版社/メーカー: Morgan and Claypool Publishers発売日: 2010/08/15メディア: ペーパーバック クリック: 67回この商品を含むブログ (6件) を見るをしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製してパラパラとめくっているが、テキスト的には割といいだと思う。みんながこぞ

    自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
  • 大学院生の夏休みの過ごし方ガイド - 武蔵野日記

    さてさて、日企業は6月になってからインターンシップの応募が格的に開始し、どこも6月中が〆切というところが多いようだ。 Twitter で知った(@yanbeさんが教えてくれた)のだが マイクロソフトがインターンシップの募集をしているそうだ。期間は2ヶ月と日のインターンシップにしては長いが、よくよく見ると「週3日から5日フルタイム勤務」と書いてあるので、週1日だけはゼミがあるから、とかいう事情も考慮してくれそうだし、報酬は「当社インターンシップ給与規定による (月額 30 万円程度)」と書いてある(交通費と住宅手当は別)し、M1 の人とか D2 の人にはけっこういい待遇なんではないかなーと思う(とはいえインターンに割り当てられるプロジェクトが自分の希望に沿ったものでないとあまり楽しめないかもしれないが)。 あと、IBM もインターンシップを受け入れているそうで、こちらも行って入社した人

    大学院生の夏休みの過ごし方ガイド - 武蔵野日記
  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1