タグ

ブックマーク / komachi.hatenablog.com (5)

  • 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記

    今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、 Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies) 作者: Jimmy Lin,Chris Dyer出版社/メーカー: Morgan and Claypool Publishers発売日: 2010/08/15メディア: ペーパーバック クリック: 67回この商品を含むブログ (6件) を見るをしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製してパラパラとめくっているが、テキスト的には割といいだと思う。みんながこぞ

    自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
  • Y社のぶっちゃけ話と研究者・エンジニアのクロスロード - 武蔵野日記

    今月号は濃いという話を聞いたので、 WEB+DB PRESS Vol.53 作者: 桜井雅史,縣俊貴,西田圭介,青木靖,川口耕介,井奥雄一,冨田慎一,森田創,鶴岡直也,長野雅広,武者晶紀,富士慶,中山大輔,常澤邦幸,山?賢,近藤裕介,稲葉健二,Elaine Gan,久保田慎之介,酒井三保子,吉野哲仁,井野貴亮,朝日勝雅,伊藤直也,ミック,高林哲,小飼弾,羽生章洋,角田直行,はまちや2,岡野原大輔,WEB+DB PRESS編集部出版社/メーカー: 技術評論社発売日: 2009/10/24メディア: 大型購入: 6人 クリック: 194回この商品を含むブログ (38件) を見るを読む。確かに濃い。(一応断っておくと自分は Y 社のオークションの人たちとつながりはない) 特に面白いのは「特集2 Yahoo! オークション構築・運用ノウハウ大公開」の 第1章 Yahoo! オークションの10年と

    Y社のぶっちゃけ話と研究者・エンジニアのクロスロード - 武蔵野日記
  • KVS 勉強会に出て、自分でも書いてみたいなと思ったり。 - 武蔵野日記

    Key-Value Store 勉強会なるものに行ってきた。キーと値をペアで保持するデータベースマネージャ的なものの勉強会。発表者豪華〜。 開催を知ったのは上記 @kzk_mover くんの Twitter なのだが、他の人たちも Twitter で知ったらしい……。Twitter 恐るべし。 tabatee さんやO 野原くんやO 倉さんといった人たちの近くに坐っていたのだが、id:yukoba さんと久しぶりに再会。相談員のときの先輩なのだが、直接お話するのはかれこれ6,7年ぶりくらいだろうか……(忘れているかもしれないけど)。勉強会終了後、最近の研究の話をしたりするのだが、ちゃんと聞いてくれるので説明のし甲斐がある。ふふふ…… ピザをつまんだりお酒を飲んだりしながら、ということだったのだが、最初は「こんなあったらものすごい量余るよ」と思っていたら、途中足りなくなって追加買い出しに行っ

    KVS 勉強会に出て、自分でも書いてみたいなと思ったり。 - 武蔵野日記
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 楽天も情報爆発しています - 武蔵野日記

    楽天テクノロジーカンファレンスには行かれなかったのだが、大規模分散処理フレームワークの設計、実装が進行中 -- 楽天MapReduce・HadoopはRubyを活用などを読むと、けっこうおもしろそうだったのだな、と分かる。 楽天技術研究所がどういう位置づけなのかは分からないが、こういう基盤技術の開発を支援しているというのは評価していいと思う。(車輪の再発明という気がしないでもないが) 個人的な興味としては楽天が大規模データに対してどういうことをしているかということなのだが、記事を見るといろいろ書いてある。 計算モデルがシンプルでも規模が巨大になるとまったく別の問題が生まれてくる。処理すべき情報量が爆発的に増加しているからだ。 例えば協調フィルタリングではユーザーを縦軸に、商品アイテムを横軸にした購買履歴マトリックスについて計算処理を行う必要があるが、あまりに量が多く、素直に実装すると「2

    楽天も情報爆発しています - 武蔵野日記
  • 1