タグ

論文解説に関するa23m384のブックマーク (6)

  • The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

    巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました. ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました. The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際の

    The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ
  • 構文解析と情報科学

    そろそろ論文紹介記事を書いてみます. NLP2010のプログラムにもあるとおり,しばらく係り受け構文解析周りをやっていました(います).私の出身研究室では構文解析をやっている人がたくさんいたのですが,最近その面白さがなんとなくわかってきました.いや,一応私も2年間日語係り受け解析の演習担当やってたよ! 構文解析のおもしろさというのは,言語学機械学習,プログラミング,情報科学が非常にバランスよくミックスされた問題で,いろんな定式化の仕方や,いろんな技術が,いろいろな組み合わせで,かつわりとキレイな形で程々の難しさに仕上がっているあたりにあると思います.今日は,特に情報科学的教養が大事でしたという話を3つ. Non-Projective Dependency Parsing using Spanning Tree Algorithms Ryan McDonald, Fernando Per

  • Streaming k-means approximation - tsubosakaの日記

    実家に帰省中,電車の中で読んでた論文の紹介。 概要 k-meansはクラスタリングテクニックとして非常に基的な手法である。 しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。 ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっている ストリームアルゴリズムについて 論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また,ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_

    Streaming k-means approximation - tsubosakaの日記
  • [論文] Parallel Inference for Latent Dirichlet Allocation on Graphics Processing Units - tsubosakaの日記

    NIPS 2009のonline papersがすでにダウンロードできるように*1なってたのでタイトルを眺めていたらGPUでLDAを並列化するという論文があって読んだので少し紹介してみる。 まず、彼らの論文[1]ではLDAの推論アルゴリズムのうち、Collapsed Gibbs sampling(CGS)とCollapsed Variational Bayes(CVB)の2つに関して並列化を試みているがCollapsed Gibbs samplingの方に関してのみ紹介する。また、彼らの論文ではGPGPUの統合開発環境としてCUDAを用いている。 LDAについて LDAは論文[2]で提案された、文章生成モデルでトピック分析などに広く用いられている。 モデルの推論アルゴリズムとしては変分ベイズ[1]、ギブスサンプリング[4]、EP、collapsed 変分ベイズ[5]などが知られている。 こ

    [論文] Parallel Inference for Latent Dirichlet Allocation on Graphics Processing Units - tsubosakaの日記
  • Polynomial Semantic Indexing -- 大規模データからのスケーラブルな距離学習 - 武蔵野日記

    午後はNIPS 2009 読み会。 Bing Bai, Jason Weston, David Grangier, Ronan Collobert, Kunihiko Sadamasa, Yanjun Qi and Corinna Cortes, Mehryar Mohri, "Polynomial Semantic Indexing" という論文について紹介してみた。 これはtsubosaka さんの日記にすばらしくまとまっているので、内容をあえて繰り返さず(クリアに書かれているので読む価値はあると思う)、感想を述べると、文書と文書の類似度を測る尺度としてこの polynomial semantic indexing はけっこう有用なのではないかな、と思った。@unnonounoさんと@tsubosakaさんも Twitter でつぶやいていたが、これは大規模なデータから低ランク近似して

    Polynomial Semantic Indexing -- 大規模データからのスケーラブルな距離学習 - 武蔵野日記
  • Polynomial Semantic Indexing - tsubosakaの日記

    NIPS 2009で発表された論文"Polynomial Semantic Indexing" [1]を読んだ。これは低ランク近似を用いた教師ありの情報検索に関する手法である。 情報検索について 与えられたクエリに関して適当な重みづけをおこなって順位づけして、適切な文章を返却するという問題は古くから研究されている。 オーソドックスな方法としては文章をbag-of-wordsで表して各単語の重みをtf-idfで正規化し、クエリに関しても同様な処理を行いコサイン類似度などの距離尺度を使って最も近い何件かを返すというものがある。この方法の欠点としてはクエリの単語を含まない文章はヒットしないという問題がある。これは各単語が独立であるという仮定を行っているためであり、明らかに誤っている仮定である。 もう一つの方法としては文章-単語行列が低次元の特徴量によって近似する方法である。代表的な方法としてLS

    Polynomial Semantic Indexing - tsubosakaの日記
  • 1