タグ

データマイニングに関するtsubonobuのブックマーク (6)

  • はてブユーザ間の類似度 - Life like a clown

    注目の動画問題と総合メディア論事件との関連 いつか書こうと思いつつ随分と放置していた話題.きっかけは,NO!と言えるようになりたい:「注目の動画」は当に劣化したのかより.注目の動画(特にニコニコ動画側?)にアイドルマスターやらアニメ関係の動画ばかりが挙がっていて[これはひどい]と言う話題が一時期盛んでした.これに関連して,ひとつ気になっていたことがあったので調べてみました. 注目の動画(ニコニコ動画)からidolm@sterタグのついているエントリを新しいものから50個抜き出して,それらのエントリをブックマークしているユーザの分布を調べました.その結果がこちら(完全なログ:user_dist_nicovideo.log).一番右がユーザ名で,その隣が50エントリの中でそのユーザがブックマークしていたエントリの数です. get 50 entries 0 47 Ubuntu 1 44 ak9

    はてブユーザ間の類似度 - Life like a clown
  • 芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary

    ちょっとした実験をしてみました。芸能人の相関関係を機械的に探索してみます。 具体的には「○○というタレントと関係が深い芸能人は?」といった、芸能人にフォーカスした類似検索みたいな実験です。 技術的には「潜在的意味インデキシング」(Latent Semantic Indexing)といった手法を使います。 これは普通は自然言語処理の世界で使われるテクニックですが、なにも言語だけでなく他のデータ素材でも面白い結果が得られるかもしれないので、やってみようという試みです。 以下に大まかな手順をまとめます。 wikipedia から有名人のリストを抽出 それらの有名人リストについて、一人ずつ「誰と関連が深いか」を集計。具体的には有名人個々のwikipediaのページ中に、先ほど抽出しておいた人名リストとマッチする人名がどれだけ掲載されているかをピックアップしていきます。 上記の方法で有名人の間の相関

    芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary
  • グーグル、インテル、MSが注目するベイズ理論:スペシャルレポート - CNET Japan

    今日のコンピュータ界を動かす18世紀の確率論 今日のコンピュータ界をリードする権威ある数学者の1人であるThomas Bayes(トーマス・ベイズ)は、他の数学者と一線を画する。ベイズは神の存在を方程式で説明できると主張した人物だ。そんな彼の最も重要な論文を出版したのはベイズ人ではなく他人であり、また、彼は241年前に亡くなっている。 ところが、なんとこの18世紀の聖職者が提唱した確率理論が、アプリケーション開発の数学的基礎の主要な部分を占めるようになっているのだ。 上記数式はベイズの定理を示したものである。難解な記号の羅列に見えるかもしれないが、大雑把に言うと何かが起こる可能性はその事柄の過去の発生頻度を使ってほぼ推測ができるということだ。研究者はこの考え方を遺伝子研究から電子メールの選別にまで応用しようとしている。 ベイズ定理の数学的な詳細説明はミネソタ大学のウェブサイトに掲載されて

    グーグル、インテル、MSが注目するベイズ理論:スペシャルレポート - CNET Japan
  • ネットが変える新たなデータマイニング像とは

    これから5回の連載にわたって、「ネット時代の大容量データマイニング」と題しまして、昨今のデータマイニングを取り巻く環境や、トレンド、適応用途についてご紹介をさせていただきたいと思います。 まず、第1回目として、その技術の概要と、インターネットの普及によって生み出された膨大な容量のデータ活用に求められる新しいデータマイニング像について解説します。 そもそも「データマイニング」とは、統計学や機械学習といったデータ解析技術によって、大量のデータから、意味のあるパターンや構造を見つけ出すプロセス(や作業)を指して使われる用語です。決して新しい言葉ではなく1990年代から使われていたのですが、IT技術用語であり通常の生活の中で利用される単語ではないため、聞きなじみがない方も多いかもしれません。 AmazonGoogleで使われているデータマイニング ただ、聞いたことがないからといって、私たちの生

    ネットが変える新たなデータマイニング像とは
  • データマイニングの宝箱

    データマイニングに関することを、データの集め方から知識の獲得まで、幅広く丁寧に解説しています。データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。 それぞれの役割があると書きましたが、大きくわけると2つのタイプがあると思います。「データから質を探る」タイプと「データから未知の現象を予測する」タイプです。 この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。

  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

  • 1