タグ

分析に関するskozawaのブックマーク (24)

  • より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ

    はじめに こんにちは、Gunosy Tech LabのBIチームに所属しているクボタです。 Gunosyではアプリ内のロジックやUI等の変更において数値ベースでの意思決定を行なっています。 例えば新たなキャンペーンでのCVR増加やUI変更によるA/Bテストでのクリック数増加の効果検証などで統計的に裏打された手法を用いることで正しく意思決定を行うことを目指しています。 data.gunosy.io 記事ではそのような状況で必要となるサンプルサイズの設計や統計的仮説検定のお話をさせていただきます。 はじめに 検定手法の選択 統計的仮説検定の手順 比較する指標の選定 帰無仮説 と対立仮説 の決定 検定統計量の選定 有意水準の決定 検出力の決定 効果量の決定 サンプルサイズの計算 ノンパラメトリック検定 多重比較 おわりに 参考文献 検定手法の選択 数値による意思決定を行う際に検定はよく利用され

    より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ
  • メルカリのデータサイエンスチームと分析エコシステムのはなし | メルカリエンジニアリング

    ※各プロダクト名の頭の”Google”は省略しています ※もちろん実際にはGoogle社のツール以外にも様々な分析用プロダクトが使われています 各ツールの詳細についてはWeb上の良質な情報がたくさんあるので、説明はそちらに譲るとして、ここではそれぞれの簡単な特徴とメルカリでの活用の仕方について主に述べていきます。 ◆ 1.BigQuery “弊社分析の中核的存在” 利用シーン: データの集計 どんなツールか Google BigQuery SQLの超速いやつ どんな大きなデータでも、複雑なクエリでも、高速で結果を返してくれる頼れるアニキ メルカリの分析での使い方 速いは正義 メルカリは多くのユーザを抱えているため、そのログデータも非常に巨大です。 そのため、通常のSQLでは計算に時間がかかりすぎるということが多々発生します。 BigQueryは とにかく「高速」の一言。なのでトライアンドエ

    メルカリのデータサイエンスチームと分析エコシステムのはなし | メルカリエンジニアリング
  • データ分析を支える「便利カラム」の問題点とその解決策 - LIVESENSE ENGINEER BLOG

    こんにちは、'16新卒入社で、Analyticsグループ所属の田中です。 仕事ではデータ分析基盤や機械学習システムの開発・運用を行っています。 今回はデータ分析基盤における「便利カラム」にまつわる問題と、それを解決するためのアーキテクチャについてご紹介します。 リブセンスのデータ分析基盤 みなさんの会社では、サービスのデータ分析をどのように行っていますか? リブセンスにはデータ分析・活用の文化が根付いており、ディレクターや営業職の社員までもがSQLを用いてKPIのモニタリングや施策の評価を行っています。 分析活動を支えるために、社内では "Livesense Analytics" という全社横断のデータ分析基盤を構築・運用しています。 このような組織が形成されるまでのポイントについては次の資料で解説しています。 営業さんまで、社員全員がSQLを使う 「越境型組織」 ができるまでの3+1のポ

    データ分析を支える「便利カラム」の問題点とその解決策 - LIVESENSE ENGINEER BLOG
  • 株式会社ALBERT(レコメンドエンジン)

    データ分析から導き出されたインサイト無しにAI人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

    株式会社ALBERT(レコメンドエンジン)
  • 行動ログでプロダクトを改善するには/exploit user behavior for product

    https://techconf.cookpad.com/2017/ youtube https://www.youtube.com/watch?v=45i0oG6dsws

    行動ログでプロダクトを改善するには/exploit user behavior for product
  • 物語の展開には1パターンしかない_物語の作り方(下書き2) - orangestarの雑記

    www.gizmodo.jp これ物語の作り方(下書き) - orangestarの雑記をちゃんと書くときの内容として考えていたことだけど、何時になるかわからないし、とりあえず書いとかないとと思ったのでドラフト的に書いておく おそらく元の記事は、タイプ分析と言うよりは、最初に構成によって分類して、その構成の違いによる“好かれ具合”の違いを機械分析で調べた、ということなのだろう。タイトルが悪い。今から話すのはだから、元の記事とは違う、概念の話。 物語の展開には1パターンしかない。 因果関係がある。 これは三幕構成、悲劇喜劇分類よりももっと根っこの話。 物語と呪術。物語を考える前に、人間の仕様を考えなければならない。 人間は、物事に“因果関係”“相関関係”を求めるように進化した。興味を持っていること、気になっていること身の回りのことに、因果関係や相関関係、なんらかの理由がなければ落ち着かない、

    物語の展開には1パターンしかない_物語の作り方(下書き2) - orangestarの雑記
  • 巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

    トレンド調査ラボの青木峰郎(id:mineroaoki)です。 好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、 最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。 今日はわたしが開発している「たべみる」の背後で働いている 巨大バッチの構成について話したいと思います。 たべみるのバッチは約3000行のSQLで構成されており、 処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。 このバッチ処理プログラムをBricolage(ブリコラージュ)というフレームワークで構造化する手法について説明します。 「たべみる」とは まず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。 「たべみる」は企業のみに提供しているB2Bの分析サービスで、 クックパッドレシピ検索の分析をすることができま

    巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ
  • 95%の確率で人間よりもいい「広告コピー」を考えるシステムが登場 | TABI LABO

    工場での作業や、街にあるいろいろなサービス。人間の代わりにロボットがしてくれることは日々増えてきています。でも、クリエイティブな仕事はどうなのかと聞かれると、まだ無理でしょという声がほとんどなのではないでしょうか? でも、技術の進歩は早いもの。実はコピーライティングを代わってくれるプログラムがすでに実用化されているようです。 コピーライターがいらなくなる!? 海外メディア「QUARTZ」によれば、マーケティングソフトウェアを提供するニューヨークの企業「Persado」が、広告コピーを自動生成できるソフトを開発したそう。 8年間かけて広告で見られている50万ものフレーズをデータベース化。その後2年間かけてプログラムを制作したもので、感情の変化を分析しているのだとか。 95%の確率で人間に勝つ! このプログラム、人間のコピーライターが書いたフレーズと比較するテストを行えるようですが、なんと95

    95%の確率で人間よりもいい「広告コピー」を考えるシステムが登場 | TABI LABO
    skozawa
    skozawa 2015/04/14
    広告コピーの自動生成、どういうロジックなんだろ
  • 食べログの口コミに見る人間心理 ―麻薬と性とトラウマと― · Naoki Orii's blog

    フランスの希代の美家であるブリア・サヴァランは「ふだん何をべているのか言ってごらんなさい、そしてあなたがどんな人だか言ってみせましょう」といったそうだ。これは、「ドン・キホーテ」の有名な一文「君の友人を教えなさい、そうすれば君がどういう人間か言ってみせよう」をもじったものであるが、示唆に富んだ文である。その人が何をべるか(もっと正確に言えば、何をべないか)によって、その人の育ちや信仰、文化的・民族的背景など様々なことを知ることが出来る。 同様に、口コミもそれを書いた人について多くを物語る。ここで試しに、以下に挙げたべログの口コミを読んで頂きたい。 バラのクリームにたっぷりのフランボワーズをマカロンとともに。ルバーブのアクセント。コレめっちゃカワイイ(*^_^*) 一目ぼれです☆ バラにフランボワーズにマカロンにピンクときたら、女子にはたまらない~! ちょっと高めの価格設定やけど、

    食べログの口コミに見る人間心理 ―麻薬と性とトラウマと― · Naoki Orii's blog
  • 機械学習によるデータ分析まわりのお話

    2. データサイエンティスト 2 今世紀でもっともセクシーな職業 ハーバード・ビジネス・レビュー 2013年年2⽉月号 2018年年までに⽶米国で14〜~19万⼈人不不⾜足 マッキンゼー 2011年年5⽉月 求められるスキル ビジネススキル,機械学習/ビッグデータ, 数学/OR,プログラミング,統計 Analyzing the Analyzers, O’reilly 2013 4. ⽇日お話すること 4 1. データのこと Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い 2. 機械学習のこと Keywords: 機械学習の分類,アルゴリズム,注意点 3. 評価のこと Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線 4. 分析のこと Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス 教師あり学習(後述)寄りの内容が多いです

    機械学習によるデータ分析まわりのお話
  • トピックモデルに基づく多様性の定量化 | カメリオ開発者ブログ

    こんにちは、シバタアキラ(@punkphysicist)です。 明日NikkeiBPさんから発売予定の「図解と数字で説得する! データプレゼンテーションの教科書」の�記事のために、自然言語処理を使った分析をさせていただきましたのでご紹介させていただきます。こんなビジュアルのかっこいい分析です。 今回ご協力させていただいたにご興味をお持ちの方は下記からお探し頂けます!下記日経BPさんのご紹介 得られた答えや発見を図解やビジュアルの形で分かりやすく示す「プレゼンテーション」能力も身に付ける必要に迫られて います。そこで、図解を使ってメッセージを分かりやすく伝える方法論から、最先端のデータビジュアライゼーションの現状までを盛り込んだムック「データプレゼンテーションの教科書」の一部を公開します。これこそデータを魅せるワザを習得できるベストプラクティスです。 今回のお題は「多様性」です。今年もいろ

    トピックモデルに基づく多様性の定量化 | カメリオ開発者ブログ
  • データに振り回されて失敗した�あんなことやこんなこと�~ゲームのために必要な本当の�ビジネス・アナリティクス~

    CEDEC2014にて発表させていただいた内容です。 発表日時 : 2014年9月4日(木) 13:30~14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定 セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス(分析)」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする

    データに振り回されて失敗した�あんなことやこんなこと�~ゲームのために必要な本当の�ビジネス・アナリティクス~
  • テキストマイニングから見えた、家電量販店に対する不満とは?【マイボイスコム調べ】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    テキストマイニングから見えた、家電量販店に対する不満とは?【マイボイスコム調べ】
  • Hadoop上で動くスケーラブルなRandomForest分類器の開発 | 株式会社サイバーエージェント

    業務経歴: 大手総合電機メーカー、バイオベンチャーを経て、2011年に株式会社サイバーエージェント入社。現在は「Ameba」サービスの分析を担当。 1.はじめに RandomForestという分類器はパラメータ設定の容易さや確率分布を仮定してなくも良い手軽さ等の理由により、様々な分野で多様されている。しかしながら、アナリストがよく利用する分析ソフトウェアR上でのRandomForest実装をそのまま使うと大きなデータを扱うことができないためソーシャルゲームなどの分析には適用できない場合もあった。そのため弊社内で構築されているHadoop環境を使って大規模なデータを扱えるようなRandomForest分類器を開発し、それを利用してAmebaプラットフォームの分析を行った。 2.実装 以下にRandomForestの一般的なアルゴリズムを示し、現状のRとMahoutとの実装での制限を示した上で

  • Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014

    Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの

    Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014
  • データ分析において必要なことを原点に立って考えてみる - Qiita

    今日は統計や技術の詳細な話は少しお休みして、そもそもデータマイニングとは何なのか、分析において必要なことは何なのかを考えてみます。 仮説力とは何なのか データ分析の実務においては、分析モデルの手法や統計的方法の前にまず検討しなければならないことが多々あります。たとえば分析対象の問題をどのように設定するか、対象の特徴 (= 属性、振る舞い等) をどのように表現するか、何を可視化するかあるいはそれをどう決めるか、ログなどを用いて特徴の計算方法をどのように定義するか、といったことなどです。 実務というのは大学での実験ではありません。目の前にあるデータに対して興味先行で機械学習や統計的手法を適用しても得られるものはありません。統計学の有名な言葉に GIGO (ゴミを入れればゴミが出てくる) という言葉がある通り、高度な解析手法やツールに溺れても自己満足で不適切な分析に終わってしまうのです。 分析の

    データ分析において必要なことを原点に立って考えてみる - Qiita
  • 中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.

    新しい年度になって消費税も上がったことで,3月までの駆け込み消費*1の反動でマンションとか全く売れていないんだろうなぁと思う今日この頃です*2.個人的な趣味でいうと新築よりは中古派ですので,増税前に無理矢理ローン組んだ人がさくっと数年で手放したのを買うのとかが,味があってよいと思うわけですけれども.2015年に消費税が10%にあがる公算も高そうですしね. さて,先日こんな興味深い記事を拝見いたしました. 徒歩5分vsバス利用、中古マンションの値下がり具合を可視化 - マンションチラシの定点観測 | マンション選びのお役立ち情報ブログ REINSといえば,不動産会社御用達の物件データベースなわけですが,当然のことながら業者専用のデータベースなので,私のような一般の人はみることができません.と思っていたら,上記記事で紹介があるように,中古物件の成約済みデータに関しては閲覧可能なんですね. 上記

    中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
  • 集めた情報の分析方法(物事の本質を探る方法) - 僭越ながら【1テーマの本を30冊読んで勉強するブログ】

    最近仕事であるテーマについて調べ物をしています。 昔は、情報をひたすら集めるだけ集めて、そのまんま放置しがちでした。 それって、ものすごく勿体なくて意味のないことなんですよね。 集めた情報をきちんと分析すること。 集めた情報を分析して得た結論をまとめておくこと。 ...をしておかないと、情報を集めた労力が無駄になってしまう。 先日「集めた情報の分析方法」を勉強しました。 ひたすら情報を集めた後、きちんと分析すると、その情報の質を見いだすことができる...ということです。 今日の記事では、この「集めた情報の分析方法(=物事の質を探る方法)」について紹介したいと思います。 [スポンサード リンク] 集めた情報の分析方法(物事の質を探る方法) 目に見えているものだけを分析するのではなく、その全体構造/背景を探り、その位置づけを理解する。 情報をとにかく多くのカテゴリに分類していき、物事を理

    集めた情報の分析方法(物事の本質を探る方法) - 僭越ながら【1テーマの本を30冊読んで勉強するブログ】
  • 太宰治の文学の変化をTopic Modelで分析する · Naoki Orii's blog

    海外に長い間住んでいると、日語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。 太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰」というイメージがあるようだ。例えば、私がまだ日に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中してを読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も