[B! datamining] gologo13のブックマーク

DeNAの大規模データマイニング活用したサービス開発

「DeNAの大規模データマイニング活用したサービス開発」慶應義塾大学大学院理工学研究科 2014年度下期「ビックデータ実践論」特別講義の講義資料です。　実際の大規模データマイニング活用したサービス開発での各種挑戦、心がけていること、分散処理基盤、等、話しています。興味ある方はぜひ。Read less

gologo13 2015/04/11

リンク

DAUを評価指標から捨てた会社の話 #tokyowebmining

2013/05/18に#TokyoWebminingで話した資料です。大人の都合でグラフの縦軸と横軸がありません。基本的には横軸は時間（day）と、縦軸はUUです。Read less

gologo13 2014/10/07

リンク

IT エンジニアがデータサイエンティストを目指すには？：IT エンジニアのためのデータサイエンティスト養成講座（1）（1/2 ページ）それぞれの専門分野を生かした「データサイエンスチーム」を結成すればデータ活用への道は短縮できる。そのとき、IT エンジニアはどんな知識があればいい？データサイエンティストとして活動する筆者が必須スキル「だけ」に絞って伝授します。連載バックナンバーはじめに：分析スキルの課題をどう乗り越えるべき？昨今では、IT系のメディアのみならず一般雑誌や新聞なども“ビッグデータ”というキーワードを見出しに使っています。この文字を目にしない日がないくらいに多用されていて“バズワード”としてとらえられるケースも少なからずあるようです。しかし、世界の至る所で――もちろん日本でも、ビッグデータを分析することで新たな知見を見つけて利益を増大した企業や、顧客の購買行動を予測するこ

gologo13 2013/05/13

リンク

データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。疑うべき順番はモデル → 推定法データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。ひとつの事例とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

gologo13 2012/12/22

リンク

データマイニングを仕事にする人の生態系 - dataminer.me

「データマイニングを仕事とする人＝データマイナー」はどういう人たちがいるかということについてビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます！」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる：研究開発をする人統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他

gologo13 2012/10/24

DataMining

リンク

Hadoop and the Data Scientist

Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit

gologo13 2012/08/24

リンク

Instructions for Obtaining Search Engine Transaction Logs

Obtaining Search Engine Transaction Logs There are currently six transaction logs available for release. They are: Excite_1997_small. Excite_1997_large Excite_1999 Excite_2001 AlltheWeb_2001 AlltheWeb_2002 AltaVista_2003 (four files, one from each vertical: Web, Audio, Image, Video) At the moment, these are the only transaction logs available. Please em ail me, Jim Jansen, if you would like access

gologo13 2011/12/26

リンク

Polaris -

Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは，外界で観測された現象をキーワード（シンボル）や数値に変換し，そのデータをコンピュータに与えます．コンピュータは，与えられたデータがどのような性質を持つのか計算し，データの中に埋もれている特徴的な事象を見出します．あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが，そういう訳ではありません．現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません．例えば，「顔が白い」というパターンがマイニングで得られたとき，「顔」「白色」の

gologo13 2011/12/26

リンク

Kafkaによるリアルタイム処理

This document discusses Kafka, a distributed messaging system originally created by LinkedIn and now an Apache project. It provides an overview of how Kafka works and how various companies use it, including for log processing (LinkedIn), analytics (Facebook, Twitter, Google), and integrating with other techno logies like Hadoop, Zookeeper, HBase and Storm. It also covers Kafka's scalability, perfor

gologo13 2011/11/29

リンク

データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します（この論文は@doryokujin君のポストで知りました、ありがとうございます！）。必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

gologo13 2011/11/23

DataMining

リンク

Amazon.co.jp: 入門ソーシャルデータ ―データマイニング、分析、可視化のテクニック: Matthew A. Russell (著), 奥野陽（監訳） (翻訳), 佐藤敏紀（監訳） (翻訳), 瀬戸口光宏（監訳） (翻訳), 原川浩一（監訳） (翻訳), 水野貴明（監訳） (翻訳), 長尾高弘 (翻訳): 本

gologo13 2011/11/19

dataMining

リンク

大規模データ分析基盤技術「Jubatus」の公開 - 株式会社プリファードインフラストラクチャー

2011年10月26日報道関係者各位プレスリリース日本電信電話株式会社株式会社プリファードインフラストラクチャー ==================================================== ビッグデータのリアルタイム処理を可能にする大規模データ分析基盤技術を世界に先駆けて開発～10月27日よりオープンソースソフトウェアとして公開～==================================================== 日本電信電話株式会社（東京都千代田区、代表取締役社長：三浦　惺、以下「NTT」）と株式会社プリファードインフラストラクチャー（東京都文京区、代表取締役社長：西川徹、以下「PFI社」）は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分析処理する基盤技術「Jubatus*2」（第1版）を開発しま

gologo13 2011/10/28

リンク

jubatus pressrelease

2018年1月15日の東京大学医学部機能生物学セミナーでの岡野原大輔の講演資料です。最後の参考文献を修正しました。修正版はこちらです。 https://www.slideshare.net/pfi/20180115-87025513

gologo13 2011/10/28

リンク

NTTとPFI、ビッグデータ解析でリアルタイム処理可能な基盤技術を開発

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます NTTとプリファードインフラストラクチャー（PFI）は10月26日、ビッグデータをリアルタイムに高速分析処理する基盤技術「Jubatus（ユバタス）」を開発したことを発表した。10月27日からOSSとしてhttp://jubat.us/で公開する。 Jubatusはビッグデータを“常に素早く、深く解析”することを狙った大規模分散リアルタイム解析フレームワーク。常に素早く処理するために、データを複数のサーバに振り分けて並列かつ逐次的に処理させる。深く解析するために、複数のサーバがお互いの途中処理結果を共有する仕組みが必要になる。共有するために、サーバ間通信によるボトルネックの発生リスクが伴うため、通信方法を工夫しないとトータルでの性能が

gologo13 2011/10/28

リンク

クエリログのない状況下でのクエリ補完 - nokunoの日記

SIGIR2011勉強会に参加できないことがわかったので，腹いせにいくつかQuery Suggestion関係の論文を読んでみます．まず最初はこれ．Query Suggestions in the Absence of Query Logs 背景クエリログが手に入らない状況（デスクトップ検索や企業内検索など）でクエリ補完を行なうという論文．ここでいうクエリ補完とは，ユーザが入力中の不完全なクエリをリアルタイムに補完するGoogle Suggestのような機能を指しており，クエリ入力後の検索結果画面にクエリ候補を表示するクエリ推薦やクエリ訂正とは異なる．従来のWeb検索などではクエリ補完のために大量のクエリログを利用して高頻度なクエリを補完候補として提示する手法が一般的だった．それに対し本論文では検索対象の文書コーパスからフレーズ抽出を行なうことで，クエリログが手に入らない状況でも利用可能な

gologo13 2011/10/07

DataMining

リンク

ミクシィの“ソーシャルグラフ”データ解析技術とは｜【Tech総研】

ソーシャル・ネットワーキング・サービス（SNS）では、ソーシャルグラフと呼ばれる人と人との“つながり”の情報が活用されている。「mixi」では、日々どのような方法でこのソーシャルグラフを分析しているのか。その最前線で活躍する木村俊也氏の話を聞いた。 8月に都内で開かれた「Japan Innovation Leaders Summit（JILS）」。そのテクノロジー・セッションでひときわ注目を集めたのは、ミクシィの木村俊也氏の講演だった。テーマは「ソーシャルグラフのデータ解析」。ソーシャル・ネットワーキング・サービス（SNS）が全世界的に隆盛の今、利用者が友人や知人をを探したり、つながったりする時に役立つソーシャルグラフ。その分析はSNSにおける既存のサービスの向上や、新サービスの設計に活かされる。また、サービス提供企業が広告展開などを通してそこから収益を上げていくマネタイジングにも直結する

gologo13 2011/09/14

DataMining

リンク

Amazon.co.jp: Mining the Social Web: Russell, Matthew A.: 本

gologo13 2011/08/22

DataMining

リンク

Coniunge et Impera: Multiple-Graph Mining for Query-Log Analysis

Architecture and Performance of Runtime Environments for Data Intensive Scala ble Computing, Portland, OR, 11/09 (2009) Google Scholar Baeza-Yates, R.: Graphs from search engine queries. In: van Leeuwen, J., Italiano, G.F., van der Hoek, W., Meinel, C., Sack, H., Plášil, F. (eds.) SOFSEM 2007. LNCS, vol. 4362, pp. 1–8. Springer, Heidelberg (2007) Chapter Google Scholar Baeza-Yates, R., Hurtado, C.,

gologo13 2011/07/13

リンク

Infer.NETを使った確率モデリングの実例

Session: Internet Economics & Monetization 1 * Machine Learning in an Auction Environment Patrick Hummel & R. Preston McAfee (Google Inc.) * Optimal Revenue-Sharing Double Auctions with Applications to Ad Exchanges Renato Gomes (Toulouse School of Economics) & Vahab Mirrokni (Google Research) Session: The Future * Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Dive

gologo13 2011/06/12

Click Through Rate のモデル化

DataMining

リンク

Stanford University - Introduction to Computational Advertising

September-December, 2011 - Stanford University, California Contents Course Information Course Schedule Lecture Handouts Readings Assignments Project Instructor Bios Related Courses Acknowledgement Course Information Overview Computational advertising is an emerging new scientific sub-discipline, at the intersection of large scale search and text analysis, information retrieval, statistical modelin

gologo13 2011/06/12

Yahoo! Research の人たちによる講義

リンク

はてなブックマーク

タグ

関連タグで絞り込む (31)

dataminingに関するgologo13のブックマーク (55)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス