タグ

PageRankに関するyassのブックマーク (5)

  • 大規模データのマイニング - 共立出版

    ウェブやインターネットコマースの隆盛によって、とてつもなく巨大なデータセットが出現し、そして、データマイニングによってそれらから情報が抽出されている。 巨大なデータに対するマイニングにおいては、従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。 書はデータマイニングにおいて重要な問題の解決に使われてきており、さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを、データベースやウェブ技術の分野で著名な原著者が解説する。 まず、データマイニングの質や、データマイニングがどのように扱われているかを概観する。次に、今後非常に大量のデータの解析を行う際に、クラウドコンピューティングとともに重要視されると考えられ、この後の章の議論に必須のものとなるマップレデュースを解説する。その後、類似するアイテム

    大規模データのマイニング - 共立出版
  • 社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

    会社で最近始まった論文の輪講で担当だったので、発表をした。 論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。 内容 内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング 紹介したものを少し修正したものをアップした。 感想 1つ目はスコアリングの際にトピックを考慮することによ

    社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog
  • Stanford CS345A: Data Mining

    Handouts: 1/5: Introduction Introduction [slides] [reading] 1/7: MapReduce MapReduce [slides] [reading] 1/12: Recommendation System Recommendation System [slides] [reading] 1/14: Near Neighbor Search in High Dimensional Data Near Neighbor Search in High Dimensional Data [slides] [reading] 1/19: Locality Sensitive Hashing (LSH) Locality Sensitive Hashing (LSH) [slides] [reading] 1/21: Structure of

  • 固有値・固有ベクトルって何に使うの?

    ふと、固有値・固有ベクトルって何がそんなに嬉しいのか?何の役に立つのか?と思っていろいろ調べていた。(対角化してべき乗計算が速くできますだけだと、ちょっと勉強する動機づけとしては弱い。。)そういえば、一年前くらいに読んだpage rankの論文に固有値・固有ベクトルが使われていたのを思い出したので、これをちょこっと紹介。(解釈に間違いなどありましたら、ご指摘ください。) まず、page rankアルゴリズムについて。これは、いわずと知れたgoogleの検索処理において中心的な役割を果たす処理です。page rankの基的な考え方は、”たくさんリンクを張られているサイトほど重要なサイトである”ということです。つまり、たくさんリンクを張られているサイトが検索で上位に現れます。加えて、同じリンクを張られているでも、重要なページ/人気のあるページからリンクを張られているのか、重要でない/人気でな

  • リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad

    NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期

  • 1