作成者 :しんゆう@データ分析とインテリジェンス ブログ :https://analytics-and-intelligence.net/ Twitter:https://twitter.com/data_analyst_
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle
Take a break for a few minutes outside “Cairo’,” one of our kitchens in San Francisco. The coffee is hot, and the view is fabulous. In online experimentation platforms, we choose the experiments with significant successful results to launch to the product. When estimating the aggregated impact of the launched features, we investigate a statistical selection bias in this process and propose a corre
イントロNetflixは、スマホやPCがあれば、どこでもいつでも、映画やドラマを見放題で楽しむことができます。今年はお家時間が増えたことで、Netflixをより満喫している方も多いのではないでしょうか。実際に、2020年1月〜3月に会員が全世界で1600万人ほど増え、合計1億8000万人を超えています。 Netflixをいくつかの数字で見てみると、さらにその凄さに驚かされます。 ・全世界のインターネット通信量(下り)の15%をNetflixが占めており、YouTubeを超える世界一の動画サービス ・時価総額が20兆円超え ・サブスクリプション収入が月々約1500億円 そんな多くのユーザーを有するNetflixの魅力の1つに、推薦システムがあります。Netflixのホーム画面には、今話題の作品やユーザーにパーソナライズ化されたおすすめの作品が並びます。 Googleの検索と違って、Netfl
Colin McFarland, Michael Pow, Julia Glick Experimentation informs much of our decision making at Netflix. We design, analyze, and execute experiments with rigor so that we have confidence that the changes we’re making are the right ones for our members and our business. We have many years of experience running experiments in all aspects of the Netflix product, continually improving our UI, search,
世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証を完全にランダム化比較試験(Randomized Controlled Trial: RCT)として実施するのは困難です。 この問題について統計的因果推論の観点からは様々なソリューションを与えることが可能なようです。例えば傾向スコア(Propensity Score)は最近色々なところで取り上げられていますし、バックドア基準といったものも挙げられます。で、今回はその中でも差分の差分法(Difference-in-Differences: DID)を取り上げることにします。理由は単純で「どうしてもexperimentによって何かしらの介入・施策
はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示
隠れAIプレイヤーだったAdobeが、今回のMAXでいよいよ表舞台に立った。 前記事では、Adobeの構造と収益体制について解説した。今回は本編として、AdobeがAI戦略で、何を狙っているのかを考察する。 *注 筆者はAdobe社から、Adobe MAX 2017への招待を受けて参加しています。…が、それはそれとして中立で書きます。Adobeさん、都合の悪いこと書いてたらごめんなさい! Adobeが学習しているモノは何か?AdobeのAIプレイヤーとしては、特殊性なポジショニングを持つ。その特殊性を理解するには、まずAdobeが何を学習しているのか?を理解しなければならない。多くの人々は、「AdobeのAIは画像認識」だと考えている。だが、それは大きな間違いだ。画像認識は、AdobeのAI群のわずか一部分にすぎない。 では、AdobeのAIの本質は何か? Adobe Senseiの本質は
(Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。 それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。 ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ
このコースは、Pythonを使ってデータを解析し可視化するために必要なスキルを網羅しています。Pythonと科学計算のためのライブラリの使い方が完璧に理解できるようになっています。 このコースを習得すれば、次のような事ができるようになります。 - Pythonプログラミングへの知識が深まります。 - NumPyを使って、アレイを使った数値計算ができるようになります。 - pandasを使った効果的なデータ解析ができるようになります。 - Matplotlibとseabornを使って、出版にも使えるほど綺麗なデータの可視化が可能になります。 - Pythonを使って実際にデータを解析する方法論が身につきます。 - 機械学習への理解が相当高まります。 2023年5月にコースの大幅改訂を行いました。ほとんどすべての動画と資料が更新されています。 17時間以上、100本を超えるビデオと、すぐに使え
データサイエンティストってなんだろう 掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。 業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。 まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。 なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれない どちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、もしくは「流行りのデータサイエンティスト様を雇いたいけどどんな人採ればよいかのぅ」 って方々に見て欲しい記事なのでそのあたりはご了承願いたい 世間一般の見解を見てみる とりあえず世の中に既にある有名な幾つかの定義の俗説を見てみることにする。 "Data Scien
いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。 その一方で、日本の企業も含め、A/Bテストを本番環境で導入している企業は非常に少ないです。 加えて、日本で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。 日本のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。 プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。 そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。 今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ
Netflixが膨大なユーザーデータを活用しもっとも注力しているのがレコメンデーション機能だ。再生される作品のおよそ80%は検索ではなく、レコメンデーションを経由して選択された作品だという。 同社は2007年にストリーミングサービスをローンチする以前から、作品に対する評価を予測するマシンラーニングの大会「Netflix Prize」を開催するなど、レコメンドに必要なアルゴリズム開発に積極的に取り組んでいた。 ストリーミングサービスへの移行によって取得できる視聴データが圧倒的に増えると、レコメンド機能の改善を加速させていった。 Netflixは視聴した作品や視聴時間、視聴した日時、利用したデバイス、検索やページのスクロールの様子を細かくトラッキング。膨大なユーザーデータを複数のアルゴリズムによって処理し、トップページに表示する作品やジャンル、それらの並び順を決定しているという。 トップページ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く