「DeNAの大規模データマイニング活用したサービス開発」 慶應義塾大学大学院 理工学研究科 2014年度下期 「ビックデータ実践論」 特別講義 の講義資料です。 実際の大規模データマイニング活用したサービス開発での各種挑戦、心がけていること、分散処理基盤、等、話しています。興味ある方はぜひ。Read less
![DeNAの大規模データマイニング活用したサービス開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/9d679312825eb58b7da6f82a27109398afde848c/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fdena-150402061747-conversion-gate01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
2013/05/18に#TokyoWebminingで話した資料です。 大人の都合でグラフの縦軸と横軸がありません。 基本的には横軸は時間(day)と、縦軸はUUです。Read less
ITエンジニアがデータサイエンティストを目指すには?:ITエンジニアのためのデータサイエンティスト養成講座(1)(1/2 ページ) それぞれの専門分野を生かした「データサイエンスチーム」を結成すればデータ活用への道は短縮できる。そのとき、ITエンジニアはどんな知識があればいい? データサイエンティストとして活動する筆者が必須スキル「だけ」に絞って伝授します。 連載バックナンバー はじめに:分析スキルの課題をどう乗り越えるべき? 昨今では、IT系のメディアのみならず一般雑誌や新聞なども“ビッグデータ”というキーワードを見出しに使っています。この文字を目にしない日がないくらいに多用されていて“バズワード”としてとらえられるケースも少なからずあるようです。 しかし、世界の至る所で――もちろん日本でも、ビッグデータを分析することで新たな知見を見つけて利益を増大した企業や、顧客の購買行動を予測するこ
統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。 疑うべき順番は モデル → 推定法 データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。 ひとつの事例 とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で
「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
Obtaining Search Engine Transaction Logs There are currently six transaction logs available for release. They are: Excite_1997_small. Excite_1997_large Excite_1999 Excite_2001 AlltheWeb_2001 AlltheWeb_2002 AltaVista_2003 (four files, one from each vertical: Web, Audio, Image, Video) At the moment, these are the only transaction logs available. Please email me, Jim Jansen, if you would like access
Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは,外界で観測された現象をキーワード(シンボル)や数値に変換し,そのデータをコンピュータに与えます.コンピュータは,与えられたデータがどのような性質を持つのか計算し,データの中に埋もれている特徴的な事象を見出します.あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが,そういう訳ではありません. 現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません.例えば,「顔が白い」というパターンがマイニングで得られたとき,「顔」「白色」の
This document discusses Kafka, a distributed messaging system originally created by LinkedIn and now an Apache project. It provides an overview of how Kafka works and how various companies use it, including for log processing (LinkedIn), analytics (Facebook, Twitter, Google), and integrating with other technologies like Hadoop, Zookeeper, HBase and Storm. It also covers Kafka's scalability, perfor
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
2011年10月26日 報道関係者各位 プレスリリース 日本電信電話株式会社 株式会社プリファードインフラストラクチャー ==================================================== ビッグデータのリアルタイム処理を可能にする 大規模データ分析基盤技術を世界に先駆けて開発 ~10月27日よりオープンソースソフトウェアとして公開~==================================================== 日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」) と株式会社プリファードインフラストラクチャー(東京都文京区、代表取締役社長:西川 徹、以下「PFI社」)は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分 析処理する基盤技術「Jubatus*2」(第1版)を開発しま
2018年1月15日の東京大学医学部機能生物学セミナーでの岡野原大輔の講演資料です。 最後の参考文献を修正しました。 修正版はこちらです。 https://www.slideshare.net/pfi/20180115-87025513
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます NTTとプリファードインフラストラクチャー(PFI)は10月26日、ビッグデータをリアルタイムに高速分析処理する基盤技術「Jubatus(ユバタス)」を開発したことを発表した。10月27日からOSSとしてhttp://jubat.us/で公開する。 Jubatusはビッグデータを“常に素早く、深く解析”することを狙った大規模分散リアルタイム解析フレームワーク。常に素早く処理するために、データを複数のサーバに振り分けて並列かつ逐次的に処理させる。深く解析するために、複数のサーバがお互いの途中処理結果を共有する仕組みが必要になる。 共有するために、サーバ間通信によるボトルネックの発生リスクが伴うため、通信方法を工夫しないとトータルでの性能が
SIGIR2011勉強会に参加できないことがわかったので,腹いせにいくつかQuery Suggestion関係の論文を読んでみます.まず最初はこれ.Query Suggestions in the Absence of Query Logs 背景クエリログが手に入らない状況(デスクトップ検索や企業内検索など)でクエリ補完を行なうという論文.ここでいうクエリ補完とは,ユーザが入力中の不完全なクエリをリアルタイムに補完するGoogle Suggestのような機能を指しており,クエリ入力後の検索結果画面にクエリ候補を表示するクエリ推薦やクエリ訂正とは異なる.従来のWeb検索などではクエリ補完のために大量のクエリログを利用して高頻度なクエリを補完候補として提示する手法が一般的だった.それに対し本論文では検索対象の文書コーパスからフレーズ抽出を行なうことで,クエリログが手に入らない状況でも利用可能な
ソーシャル・ネットワーキング・サービス(SNS)では、ソーシャルグラフと呼ばれる人と人との“つながり”の情報が活用されている。「mixi」では、日々どのような方法でこのソーシャルグラフを分析しているのか。その最前線で活躍する木村俊也氏の話を聞いた。 8月に都内で開かれた「Japan Innovation Leaders Summit(JILS)」。そのテクノロジー・セッションでひときわ注目を集めたのは、ミクシィの木村俊也氏の講演だった。テーマは「ソーシャルグラフのデータ解析」。ソーシャル・ネットワーキング・サービス(SNS)が全世界的に隆盛の今、利用者が友人や知人をを探したり、つながったりする時に役立つソーシャルグラフ。その分析はSNSにおける既存のサービスの向上や、新サービスの設計に活かされる。また、サービス提供企業が広告展開などを通してそこから収益を上げていくマネタイジングにも直結する
Architecture and Performance of Runtime Environments for Data Intensive Scalable Computing, Portland, OR, 11/09 (2009) Google Scholar Baeza-Yates, R.: Graphs from search engine queries. In: van Leeuwen, J., Italiano, G.F., van der Hoek, W., Meinel, C., Sack, H., Plášil, F. (eds.) SOFSEM 2007. LNCS, vol. 4362, pp. 1–8. Springer, Heidelberg (2007) Chapter Google Scholar Baeza-Yates, R., Hurtado, C.,
Session: Internet Economics & Monetization 1 * Machine Learning in an Auction Environment Patrick Hummel & R. Preston McAfee (Google Inc.) * Optimal Revenue-Sharing Double Auctions with Applications to Ad Exchanges Renato Gomes (Toulouse School of Economics) & Vahab Mirrokni (Google Research) Session: The Future * Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Dive
September-December, 2011 - Stanford University, California Contents Course Information Course Schedule Lecture Handouts Readings Assignments Project Instructor Bios Related Courses Acknowledgement Course Information Overview Computational advertising is an emerging new scientific sub-discipline, at the intersection of large scale search and text analysis, information retrieval, statistical modelin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く