作成者 :しんゆう@データ分析とインテリジェンス ブログ :https://analytics-and-intelligence.net/ Twitter:https://twitter.com/data_analyst_
今回は、SQLを書く上で特にパフォーマンスに影響のあるSQLの実行計画の読み方について解説します。実行計画はデータベース製品によってさまざまに差異がありますが、ここでは比較的どのデータベース製品でも共通する内容について解説します。 実行計画とは記述したSQLが実際にデータベースの内部でどのように処理されて結果を返すか、その処理方法を記述した情報です。 A5:SQL Mk-2では、SQLエディタで実行計画を見たい SQL の上にキャレットがある状態でメニューから [SQL(S)] – [SQLの実行計画(J)] または、Ctrl+E で表示できます。 表示の仕方はデータベース製品ごとに異なりますが、多くのデータベース製品ではツリー状の情報として表現されます。(このため A5:SQL Mk-2でもツリービューで実行計画を表示します。) ツリーのリーフ(端)から処理が行われ、ルート(根)に向かっ
はじめに グロース本部でデータサイエンティストをしています@Kazk1018です。この記事では、先日社内にて公開した「10X Data Jobs」という、10Xのデータに関わる職種や業務、具体的な事例などについて書いたドキュメントの内容を紹介します。 今はAdvent Calendarの季節ですが、本記事はAdvent Calendarではなく、10Xのメンバーで書いているAdvent Calendarについてはこちらにありますのでぜひ本記事と一緒にご覧ください! 「10X Data Jobs」とは? 背景として、社内外から「あれ?この業務はどの職種が担当しているんだっけ?」「これから応募したいと思うんですがこの職種は○○のような業務は担当していますか?」という問い合わせが多くありました。これは半年でデータに関わる職種のJD(職務記述書)の変更や追加があったことが主な要因と思われます。たし
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle
Take a break for a few minutes outside “Cairo’,” one of our kitchens in San Francisco. The coffee is hot, and the view is fabulous. In online experimentation platforms, we choose the experiments with significant successful results to launch to the product. When estimating the aggregated impact of the launched features, we investigate a statistical selection bias in this process and propose a corre
Colin McFarland, Michael Pow, Julia Glick Experimentation informs much of our decision making at Netflix. We design, analyze, and execute experiments with rigor so that we have confidence that the changes we’re making are the right ones for our members and our business. We have many years of experience running experiments in all aspects of the Netflix product, continually improving our UI, search,
世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証を完全にランダム化比較試験(Randomized Controlled Trial: RCT)として実施するのは困難です。 この問題について統計的因果推論の観点からは様々なソリューションを与えることが可能なようです。例えば傾向スコア(Propensity Score)は最近色々なところで取り上げられていますし、バックドア基準といったものも挙げられます。で、今回はその中でも差分の差分法(Difference-in-Differences: DID)を取り上げることにします。理由は単純で「どうしてもexperimentによって何かしらの介入・施策
はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ##データサイエンティストってなんだろう 掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。 業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。 まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。 なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれない どちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、も
いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。 その一方で、日本の企業も含め、A/Bテストを本番環境で導入している企業は非常に少ないです。 加えて、日本で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。 日本のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。 プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。 そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。 今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ
このnoteでは、データ分析をやってみたい人向けに、何を学んだらよいかまとめます。ちなみにこの記事では、「ディープラーニングで何かしたい!」みたいな人ではなく、「データをもとに有益なアウトプットを出せるようになりたい」という人向けの記事となっています。 追記) 反響があり、News Picksではテクノロジー一面に掲載されていました。 また、はてなブックマークでもホットエントリー入りして、5/5現在898ブックマークを突破しました。 データ分析の全体像まず、データ分析を行う上での全体像から見ていきたいと思います。流れとしては大きく分けて、4つあります。 1. データ分析から何を検証したいか決める (調査のデザイン) 2. データ収集 3. データの整形 4. 分析を行う 各フェーズごとに行うことと、何が学ぶべきかまとめていきたいと思います。 1. データ分析から何を検証したいか決める (
483 化学と生物 Vol. 51, No. 7, 2013 セミナー室 研究者のためのわかりやすい統計学-3 統計検定を理解せずに使っている人のために III 池田郁男 東北大学大学院農学研究科 34 34 484 化学と生物 Vol. 51, No. 7, 2013 35 36 * 35 * 485 化学と生物 Vol. 51, No. 7, 2013 * 37 36 * 486 化学と生物 Vol. 51, No. 7, 2013 * 38 * 38 * * 37 487 化学と生物 Vol. 51, No. 7, 2013 39 * 40 * 39 40 * * 488 化学と生物 Vol. 51, No. 7, 2013 * 41 42 41 * 489 化学と生物 Vol. 51, No. 7, 2013 43 42 43 490 化学と生物 Vol. 51, No. 7, 2
408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室 研究者のためのわかりやすい統計学-2 統計検定を理解せずに使っている人のために II 池田郁男 東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4
318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く