タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

algorithmとdataminingに関するsatojkovicのブックマーク (2)

  • 2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮

    はじめに:2010年弾丸ツアー 今年一年を一言でまとめると、「データと向き合った」一年でした。 2009年の終わり、私は The Datacenter as a Computer の読書会を通して、分散システムによる大量なデータの処理がこれからの時代にもっと重要になるということを学びました。 The Datacenter as a Computer 読書会 その流れを受け、1月には id:marqs や id:daisukebe とともに「集合知プログラミング」の読書会を開き、データマイニングの基礎を勉強しました。 大量のデータを扱う前に、小さなデータを扱う術を身につける必要があると思ったからです。 Programming Collective Intelligence 100111View more presentations from Sho Shimauchi. 第1回集合知プログラ

    2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮
  • Kazuho@Cybozu Labs: アクセスログからアテンション(注目情報)をデータマイニングする手法について

    多数のユーザーの行動記録からアテンション情報(注目されているデータが何か)をデータマイニングしたいというのは、大量のデータを扱っているウェブサイトにおいては自然と出てくる要求です。そこで、先月末にサービスを終了したサービス「パストラック」において使用していた、アクセスログから注目度(人気度)の高いウェブページや人名等のキーワードを抽出するためのアルゴリズムを紹介しておきたいと思います。 たとえばはてなブックマークのような、ユーザーの能動的な行為(「ブックマークする」という作業)から注目情報を抽出するのは決して難しいことではありません。それは、直近の一定期間内のブックマーク数=注目度、という前提が上手に機能するからです。現に、はてなブックマークの人気エントリーは、最近24時間程度の期間内にブックマークしたユーザー数の多い URL を降順で並べているように見受けられます。 しかし、アクセスログ

  • 1