こんにちは@hagino3000です。インターネット広告配信システムの開発をしております。去年に引き続き今年も国際会議のKDDに参加してきました。本稿は私がアドテクと業務に関係する発表を聴講したレポートになります。 KDDとは KDD 2018 | London, United Kingdom KDDはデータマイニング分野のトップ会議です。採択論文はResearch Track PapersとApplied Data Science Track Papersに分かれており、後者は実際のアプリケーションに適用した題材が対象です。よって、アプリケーション開発現場で対面する問題をいかに解いたか、なぜその手法を利用したのかについて発表・議論される場であるのが特徴です。Facebook, Amazon, LinkedIn, Microsoft, Airbnb, Netflix, Alibaba, G
何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す
https://www.youtube.com/watch?v=6ZvCU0dht50 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約1時間前 Google Test Automation Conferenceが今年はSeattleで開催されたようです。その中で興味深いと感じた話題をいくつか拾ってみました。 1) 成長を続けるGoogle 会社の規模が大きくなり、歴史を重ねてくると、何事も非効率になりがちですが、Ankit Mehtaが紹介してくれた数字によると、Googleの開発ペースは依然として右肩あがりのようです。 コードのコミットは、1日3万チェックイン。約3秒に1回。グラフを目測した限りでは昨年から約20%増。 リリース数もこの1年でほぼ倍増。 2) テストクローラーを利用してのモバイル実機テストの
ある国際会議のkeynote Speechの中で紹介されていた話。非常に面白かった。 Wired: How a Math Genius Hacked OkCupid to Find True Love 「いまどきの若い男は、なんでもコンピュータか!」とか思われるかもしれないけど、何をしたのかを読んでみると「これって、単なるナンパの方が楽だったんじゃないか?」と思わされる。 登場人物のスペック この人の経歴がアメリカ的。 名前:Chris McKinlay (35歳) 経歴 2001年:Middlebury College を卒業。専攻は中国語 同年:世界貿易センターで中国語から英語への翻訳のアルバイト。アルバイトを辞めた5週間後に9・11。 〜2002年:その後、友達に誘われて、an offshoot of MIT’s famed professional blackjack team に
概要 Clojureでデータマイニングに必要な各手法を解説する記事です。 本記事を読むと、全くClojureを知らない方でも データ抽出・集計 可視化 機械学習(決定木、ランダムフォレスト、k-meansクラスタリング) をClojureで実行できるようになります。 はじめに ClojureとはJVM上で動く(つまりOSを問わず沢山の環境で動く上に Java資産をそのまま使える)Lisp系の言語です。 Clojureではデータマイニングを行う際、 Incanterとclj-mlという2つの便利なツールがあります。 Incanterは統計処理用の専門ライブラリで、 単体で様々な統計分析を行ったり集計を便利にしたりする機能が沢山用意されています。 clj-mlはwekaという機械学習系のツールをClojureで簡単に使えるようにしたラッパーで、 決定木やランダムフォレストなどの分類器や 各種ク
Machine Learning Advent Calendar向けの記事です。 普段はGunosyという会社で社長業をしながら社長をしています。 ざっくりいうと 結論だけ知りたい人はここだけ 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について 最近はもっぱら広告の開発をしており、広告分野で
転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の
人工知能のクイズ王、APIが一般公開。あらゆるデベロッパーから利用可能に2013.11.18 21:00 福田ミホ ショッピングサイトでお買い物を手伝ってもらったり、など。 IBMが開発した人工知能のワトソンは、米国のクイズ番組で人間のクイズ王に勝利しただけじゃなく、お医者さんのサポートしたりパティシエになったり、いろんな仕事をこなしてきました。そして今彼は、頼まれた仕事は誰からでも、どんな分野でも引き受けてしまおうとしています。IBMがワトソンをクラウドに載せて一般公開しようとしているんです。 IBMが、2014年にワトソンを一般のデベロッパーに公開することを発表しました。そこでは新しいオープンなAPIが使われ、デベロッパーがワトソンの自然言語処理能力を直接使うコードを書けるようになる予定です。デベロッパーからワトソン君に自然言語で質問の文字列を送ると、リアルタイムで回答を得られる仕組み
my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) I have a colleague who wants to look through large amounts of (text) data for examples of a pretty rare phenomenon (maybe 1% positive class, at most). We have about 20 labeled positive examples and 20 labeled negative examples. The natural
毎日暑いですね。比戸です。 ちょうど今週シカゴで開かれていたSIGKDD2013でBest research paperに選ばれたEdo Liberty氏 (Yahoo! Haifa Labs)の”Simple and Deterministic Matrix Sketching”のアルゴリズムを実装して公開してみました。 元論文PDFは著者サイトから、私が書いたPythonコードはGithubからそれぞれ入手できます。 SIGKDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining)はACM主催で行われる、知識発見&データマイニングにおけるトップ会議です。最近は機械学習との境目が曖昧になってきましたが、査読時には理論的な新しさだけでなく、実データ(特に大規模データ)を使った実験での評価が必要とされるのが特徴です。
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
概要 複数の関連する分類問題を同時に最適化するマルチタスク分類問題を考える.例として,個々人の受信メールから重要度の高いメールを抽出するタスクはマルチタスク問題として考えられる*1 *2. 上記のようにパーソナライゼーション等のタスクでは,タスク数は非常に多いが一人ひとりのデータ数が少ない場合が考えられる.この条件下では,タスク数より少ない数の学習器のみを用い,タスク間で学習器をシェアしながら学習を行う方が理論的にも実験的にもよりよい結果が得られる事を示した. 背景 タスク毎のデータ量が少ない場合,十分な汎化性能を持つような学習は困難 パーソナライゼーション等では一般的な現象 全タスクを一つのタスクと思って単一の学習器で学習する場合は,タスク間で異なる特性を捉えられず識別精度が悪化 中庸をとりたい,つまり複数のタスクで分類器を共有 分類器の学習に,複数タスクのデータを用いることが可能に 貢
250. Reference "Pattern Recognition and Machine Learning" Christopher M. Bishop Springer; 1st ed. 2006. Corr. 2nd printing edition (October 1, 2007) "Truth and Probability" Frank Plumpton Ramsey (1926) "The physical basis of IMRT and inverse planning" S Webb British Journal of Radiology (2003) 76, 678-689 251. Wikipedia 渡辺慧 http://ja.wikipedia.org/wiki/%E6%B8%A1%E8%BE%BA%E6%85 %A7 『No Free Lunch T
2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年ではないでしょうか。 Mahoutは 大規模分散データマイニング・機械学習のライブラリです。ApacheプロジェクトのOpen Sourceで、Hadoop上で動作しデータマイニング・機械学習の大規模分散実行を行うことができます。 Apache Mahout 大規模分散 データマイニング・機械学習を実行できる Mahout ですが、まだ「ドキュメント整備が発展途上で詳細を知るためにはソースコードから読み解く」必要がある場合が多く、また、活用には「対象とするデータマイニング・機械学習の基礎知識」が必要なため、まだまだ活用の敷居が高いのが現状ではない
電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop View more presentations from Koichi Hamada 2900万人以上の登録会員をかかえるモバイルソーシャルゲームプラットフォーム「Mobage」では、1日20億超の行動情報が蓄積されています。これらの大規模行動データを対象に、データマイニング・機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く