タグ

データマイニングに関するDropOutSurf_JOYのブックマーク (12)

  • 協調フィルタリングについてまとめてみた。 - Analyze IT.

    A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日語の文献を見つけられなかったため(後にしましま先生の文献を見つけた)やむなく英語の論文を検索したところ、 上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。 また、一部の人達の間ではとても有名なしましま先生の論文(ドラフト版)があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。 協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン

    協調フィルタリングについてまとめてみた。 - Analyze IT.
  • データサイエンティストがこれから10年以内に消える理由3つ - ネガティブにデータサイエンティストでもないブログ

    私は毎日、ある統計的な計算とそれにまつわる設計開発作業を行っている人間です。 最近、私のことをデータサイエンティストと呼ぶ方が最近多いので、正直そう呼ぶのはやめてほしいのでブログを書くことにしました。 私の持論は データサイエンティストなる呼称は日に根付かず、10年も経たずに陳腐化されて消えてしまうでしょう です。それはもうインフォメーションアーキテクトとかITコーディネータとかと同じ黒歴史な呼称の一つになるとしか思えないのです。呼称は廃れてただのアナリストかエンジニアになるでしょう。 その理由は3つ 米国発のキーワードであること サイエンティストではないこと そう呼ばれてうれしくないこと、あるいは、それを自称しにくいこと 順番に説明しましょう。 米国発のキーワードであること 今世紀最も熱い職業「データサイエンティスト」とは http://matome.naver.jp/odai/213

    データサイエンティストがこれから10年以内に消える理由3つ - ネガティブにデータサイエンティストでもないブログ
  • マーケターのためのデータマイニング・ヒッチハイクガイド - Teradata|マーケティング・アナリティクス

    テラバイトデータや構造化知識研究に関する過去の記事です。 1990年6月 コンピューターの中央処理装置4台を並列的につなぎ、人間のように推理したり連想したりするコンピューターの模擬実験に、九州大学の研究グループが成功した。1991年度にも20台に増結する計画で、最終的には1万台をつなぎ、人間の思考そっくりの柔軟性に富んだコンピューターシステムを目指す。キャリアウーマン並みの有能秘書や、建物の形状を判断できる掃除ロボットの開発にもつながると期待されており「人工知能」開発競争に一石を投じそうだ。 九州大学で実験に成功 模擬実験を行ったのは、九大総合理工学研究科の雨宮真人教授(情報システム専攻)のグループ。雨宮教授らは、記憶した知識で推論や連想を行う人間の思考回路網に着目。「物-果物-黄色-酸っぱい-レモン」など属性や因果関係でつながる情報を与えて連想ネットワークを構成。このネットワーク網をコ

  • データジャーナリズムで日本の電力問題を可視化する - researchmap

    1. データジャーナリズムとは データジャーナリズムとは、データがストーリーの核となるジャーナリズムの一形態です。これまでのジャーナリズムが文字(+音声)や写真(+図)、ビデオ(+映画)を核としてストーリーを語ってきたのに加えて、これからはデータを核としてストーリーを語るという新しい形態のジャーナリズムが広まるかもしれない。それを私は、これまでの三世代に続く「第四世代のジャーナリズム」として捉えています。 なぜ「データジャーナリズム」がいま注目されているのでしょうか。それは世界を記録する多種多様巨大なデータが、当に面白い現象を捉えるようになったためでしょう。データを活用することで、新しい視点から世界を語ることがジャーナリズムにも期待されますが、その一方でジャーナリズム側には、そうするのに必要なスキルが十分に蓄積されていないのも実情です。こうしたスキルがないメディア企業は優位性を失うのでは

  • 上田データマイニング塾

    お気軽に「質問箱」 Peing-質問箱-: https://peing.net/ja/manab7 匿名で質問できる「Peing-質問箱-」。※ ご質問・回答は公開されます。 「データマイン君」提供終了のお知らせ 上田太一郎先生による当時の著書やセミナー・研修等でご案内・提供していたExcel用アドインプログラム「データマイン君」を、これまでご用命ならびにご利用くださいまして、まことにありがとうございました。 「データマイン君」の配布から、20年余りが経ちました。 この間にExcelのバージョンが進んだことで、アドイン接続が正常にできなくなる報告も頂戴しております。 またアドイン接続できても、データマイン君の一機能「顔グラフ」について、正しく表示されない現象も報告されておりました(VBAの仕様変更等のため)。 「データマイン君」の改修は行われません。 そこで株式会社メディアチャンネル様で、

    上田データマイニング塾
  • ソーシャルデータを使った予測技術の基本

    今回からは数回にわたってソーシャルデータを使った予測技術の基を解説する。そのうえで、予測に対する「期待と現実のギャップ」、言い換えれば「一般の人々の期待と分析現場の音の溝」という部分に焦点を当てていきたい。 よく企業向けの提言として、「データ活用を推進するならば、分析結果を活用する利用部門と、データ分析担当者(アナリスト)、IT基盤担当者の連携が重要である」ということが言われている。 だが、ソーシャルデータを活用した予測においては「利用部門とデータ分析担当者の間には、現状では大きな認識の溝がある」ことを指摘したい。ちょうどこの問題を考察するのに格好の題材が少し前に話題になったので取り上げる。 上司:この前、AKB48の総選挙ってあったじゃない。選抜メンバーをファン投票で決めるやつ。 担当者: あぁ、ありましたね(“なぜ突然アイドルの話題…?”)。 上司:「ソーシャルメディアのデータを使

    ソーシャルデータを使った予測技術の基本
  • 生活や実務に役立つ高精度計算サイト

    (107) 新紙幣発行の裏の狙いとは? 2024年7月に新紙幣が発行される。一万円、五千円、千円の3券種を改刷する予定で、それぞれ渋沢栄一、津田梅子、北里柴三郎が描かれる。 新紙幣を発行する目的は何だろうか? 新紙幣には肖像の立体画像が回転する3Dホログラム技術が採用され、偽札を困難にしたと日銀は説明している。その他に (106) 新たなSI接頭語 単位の前に付けられ、10の整数乗を表すための接頭語として、国際単位系では20個のSI接頭語が定められている。 ミリ milli(10-3)、センチ centi(10-2)、キロ kilo(103)、メ (105) インボイス制度の影響について 2023年10月から、消費税のインボイス制度が開始される。 現在、約513万と推計される免税事業者は、そのまま免税事業者でいるか、それとも課税事業者になるか、大きな選択を迫られる。それぞれどのようなメリッ

  • FacebookやTwitterのつぶやきを分析した先には何があるのか?~ビッグデータ活用が目指すもの

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    FacebookやTwitterのつぶやきを分析した先には何があるのか?~ビッグデータ活用が目指すもの
  • やっていそうで誰もやっていない、アクセス解析データの「ノイズ除去作業」 - Feel Like A Fallinstar

    気が付けば、ほぼ1年ぶりのネット系のネタになります。(大汗) あ、いや、別にインターネットから遠ざかっていたわけではないんですが・・・ というわけで、ログ解析の話でもたまにはしてみようかなと。 選択バイアスの罠の所でも書きましたが、データ分析をやる上での前提をきちっと理解しましょう的なお話です。 Yahoo!ニュースで紹介されたらCVRが1/3に ウェブサイトの内容にも依るのですが、大抵のサイトは通常のアクセス量というのが大体存在しています。(ブログとかニュースのサイトは一旦除く) ところが、そういうサイトがひょんなことでアクセス大爆発を起こすことがあります。 Yahoo!ニュースで採り上げられた!ら、そこ経由の人は平均PV1.01だとか 有名ブログで記事になったりとか はたまた、何かしらやっちゃって炎上したとか(これは言わなくていいか・汗) で、そうするとデータの母集団が全然違うものにな

  • iddy.jp

    iddy.jp 2024 著作権. 不許複製 プライバシーポリシー

  • データマイニングの宝箱

    データマイニングに関することを、データの集め方から知識の獲得まで、幅広く丁寧に解説しています。データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。 それぞれの役割があると書きましたが、大きくわけると2つのタイプがあると思います。「データから質を探る」タイプと「データから未知の現象を予測する」タイプです。 この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。

  • 第1回 “データ解析請負人”─新規開発局 システムクリエイティブグループ 福田一郎 | gihyo.jp

    こうした数多くの魅力的なサービスを支えるエンジニアはどういった人たちなのでしょうか。今回は、サイバーエージェント 新規開発局 システムクリエイティブグループの福田一郎氏にお話を伺いました。 今後必要になるシステムを見極め、自らの提案で実現していく ――現在どのような分野を担当されているのでしょうか。 「私たちのチームでは、『⁠Ameba』サービスのデータ解析基盤の構築などを担当しています。直接ユーザの目に触れる部分ではありませんが、ユーザ課金を行うサービス(図1)が増えていることもあり、各々のサービスがどのような状況にあるのかなどを具体的なデータで把握できるようなしくみを構築しています。こういったデータ解析基盤の構築は、今後のサービス開発においても非常に重要な役割を担っていくと考えています」 ――特定のサービスを対象としているのではなく、「Ameba」のサービス全体で使うデータ解析基盤とい

  • 1