『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
次世代統計利用システムは、統計におけるオープンデータの高度化に向けて、総務省統計局と協力し、独立行政法人統計センターが試行提供するシステムです。次世代統計利用システムは、統計におけるオープンデータの高度化に向けて、総務省統計局と協力し、独立行政法人統計センターが試行提供するシステムです。
僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、ということは結構多いです。 実際のところ、本当は異常値検出・外れ値検出みたいな手法でゴリゴリやりたい(例えばyokkunsさんが提供なさっているRの{ChangeAnomalyDetection}パッケージとか、はたまた{tsDyn}パッケージでも実装されているようなSETARとか、もしくは{MSwM}パッケージでやれるマルコフ状態転換モデルとか)んですが、Rを使ってもらうだけでも一苦労という現場ではそうも言ってられないという実態もあります。 ということで、もう何もかも面倒なのでお手軽に「KPIの上がり下がりを見て『これ凄く
総務省は、政府統計のポータルサイトであるe-Statなどで広く公開している政府統計データについて、より高度な利用を可能とする取組についてまとめました。 総務省統計局は、政府統計の中核的機関として、人口や事業所・企業、消費など国の基幹となる重要な統計を作成しております。データ提供の面においても、e-Statを通じ広く公開してきました。 (政府統計の総合窓口(e-Stat) http://www.e-stat.go.jp) 現在、政府全体でオープンデータへの取組を推進しているところですが、これらの取組をリードする総務省として、政府統計の情報提供のかたちを更に高度化すべく検討を行い、独立行政法人統計センターと協力し、トップランナーとして次のような取組を進めています。具体的には次の3つです。 (1)API機能による統計データの高度利用環境の構築 (2)統計GIS機能の強化 (3)オンデマンドによる
ニコニコ動画をご利用いただきありがとうございます。 去る4月末、第四回ニコニコ学会β開催を記念し、国立情報学研究所 情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ動画のメタデータ「ニコニコデータセット」を公開しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント本文、投稿日時、コメント位置等)約300GBです。動画データ本体および個人を特定するユーザIDは含まれません。原則「すでに公開されているデータ」をとりまとめており、非公開のデータは含みません。 本データが公開されることにより、スクレイピング等を行わなくともニコニコ動画に関する研究が行えるようになります。 また、学術機関に所属する研究者が検証可能な形で公式に研究発表しやすくなるものと考えられ
「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースはGitHubに置いてあります。 やってることはものすごく簡単で、要はサンプルサイズが小さい状況で○○%(例えば課金率とか翌週定着率とか)という「割合」の実測値がある場合に、それが統計学的に見て実際にはどれくらいばらつく可能性があるか?をシミュレーションするというものです。 そこで、以下の関数CIComputeに、真の割合の信頼区間を求めたいデータのサンプルサイズnpar、想定される割合nratio、ブートストラップ繰り返し計算回数nbootを与えれば、勝手に真の割合・標準偏差・95%信頼区間上限&下限を返してくれて、ついでにブートストラップ
2013/05/18に#TokyoWebminingで話した資料です。 大人の都合でグラフの縦軸と横軸がありません。 基本的には横軸は時間(day)と、縦軸はUUです。Read less
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。 そういう記事を見ていると、何となーくですが微妙に2種類に分かれてる印象があります。つまり、 データサイエンティストは数学や統計学の知識があるというより、データ活用の勘や経験に優れビジネス的に役立つ分析に長けた人材であるべきだ(例その1, 2) データサイエンティストは何よりもまず統計学・機械学習などの専門知識に通じているべきだ(例その1, 2) という、パッと見だと互いにdisってるんじゃね?みたいな相反する方向の記事がそれぞれ結構増えてきてるように見えるんですよね。 現場でwebマーケティングにゴリゴリ取り組んでいる自称データサイエンティスト*1の身からすると「どっちでもええや
ゴールデンウィークが終わって*1 ネット世界に戻ってきたところ、Gunosy 騒動 とやらで賑わっていました。クロール問題(どうやって効率的に対象となる URL をクロールするか)は私自身も苦労している部分なので、何か書いてみます。 情報の推薦(レコメンデーション)や分類(カテゴライズ、ランキング、等々)を行う Web サービスを作成・運営する場合、大雑把に分けると以下の 2 つのフェーズが存在します。 Web 上から対象となる情報(主に URL)を収集する 収集した情報を何らかのアルゴリズムに従って分類・推薦する 今回のお話の結論を先に書いてしまうと、「アルゴリズムやコンセプトの検討段階では 2. のフェーズ(情報の分類・推薦)を非常に重要視するが、実際に Web サービスが出来あがって運用する段階になると、むしろ 1. のフェーズ(情報の収集)に苦心する事が多い」と言うものです。 So
こんばんは。学習するニュースサービス、Gunosyに対する批判が随所で書かれていますね。 本記事では、確かなデータをもとに、その批判を1つ1つ検証していきます。 結論 Gunosyは、はてブ記事に限らない、非常に多彩なニュースを配信している。 以下、 批判派の記事 検証 公式見解 の順に見ていきます。 批判派の記事 Gunosyのレコメンドエンジンの仕組み解説 論点1:レコメンド機能はなく、はてブからバズった記事を取ってきているだけなのでは はてブでバズった記事のみを配信しているのではないか、という批判です。 違う!分析エンジンなんてものはないんだ。そもそも。 はてブユーザーの関心分野の記事しかそもそも引っかかってこない仕組みなんだ。 だから、お前が野球が好きなんてことは、Gunosyはこれっぽっちもわかっちゃいねえ。 そこら辺でバズった記事だから、誰が読んでもそこそこ面白いに決まってる。
昨今のwebディレクターは「データ分析」「A/Bテスト」病にかかってしまい、考え方のスケールが小さくなっているのではないか。 大変面白いブログ記事を拝読しました。うん、まさにこの通りだと僕も思います。笑 本当に、こういう記事を待ってました!というのが偽らざる本音です。・・・と称賛するだけならブログ記事にするほどの話じゃないじゃん、と言われそうなので何か僕も一つ書いてみます。 局所最適にハマってないか? (注:元画像はこちら) ・添付の図のように「戦略か戦術か」、「分析が必要か否か」の4分類を行い、現在の居場所を把握した上で施策を考えいくのがいいのではないかと考えました。 ・①→②→③→④という順で、進めていくのがいいのではないかと考えました。 ・①の「入り口論」ですが、これは、「この事業を続けるべきであるか?」「本当に今のルーチンワークでいいのか?」ということから「事業モデルを変えるべきで
追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
ITエンジニアがデータサイエンティストを目指すには?:ITエンジニアのためのデータサイエンティスト養成講座(1)(1/2 ページ) それぞれの専門分野を生かした「データサイエンスチーム」を結成すればデータ活用への道は短縮できる。そのとき、ITエンジニアはどんな知識があればいい? データサイエンティストとして活動する筆者が必須スキル「だけ」に絞って伝授します。 連載バックナンバー はじめに:分析スキルの課題をどう乗り越えるべき? 昨今では、IT系のメディアのみならず一般雑誌や新聞なども“ビッグデータ”というキーワードを見出しに使っています。この文字を目にしない日がないくらいに多用されていて“バズワード”としてとらえられるケースも少なからずあるようです。 しかし、世界の至る所で――もちろん日本でも、ビッグデータを分析することで新たな知見を見つけて利益を増大した企業や、顧客の購買行動を予測するこ
はじめに 昨日、Gunosyは多くのユーザに同じ記事を配信しているのか検証してみたという記事を書いた。 ランダムにピックアップしたGunosyユーザの特定の日の配信記事リストから、記事URLを使って重複をカウントし、本当に重複記事数が著しく多かったり、ユーザ間の重複率が批判の通りなのかを検証したものだ。 こちらでは、技術ブログなので検証に使ったコードを公開して簡単に解説しよう。 技術的な方針 今回は、素早く分析するためにフレームワークなどは使わず、捨てる前提のスクリプトを以下の方針で書いた。 Google Custom Search APIによりGunosyの公開ユーザ名を取得 (1)で取得したユーザに特定の日(今回は5/5)に配信された記事のURLとタイトルを取得 ユーザ間の重複数を記事毎に数えてファイルに書き出す 事前準備 Google Custom Search APIにより、gun
Gunosyに対する批判の一部を検証してみた Gunosyについて、色んな意見が飛び出しているようなので、簡単ですがデータを見てみました。こういうときは冷静にデータを見てみるのが良いでしょう。あくまでもデータの羅列なので個人的にどう思っているかは表明していないです。 検証した部分 検証したのは、批判における以下の部分。 つまり、Gunosyの50〜60%のユーザーは、自分と全く同じ記事を読んでいるわけだ。 これで「一人ひとりの好みに応じて配信してます」というのはさすがにキビシイwGunosyのレコメンドエンジンの仕組み解説 - ベンチャー・アンダーグラウンド また、これに対するGunosy側の所感から以下の部分。 実際にGunosyを使っている友人の方がいれば見比べてみてほしいのですが、配信されている記事が25記事とも同じであるというGunosyユーザー様はほとんど存在しません。Gunos
ど素人の「Excel 回帰分析」表の見方 (単回帰分析) Excel ・ 分析ツールの「回帰分析」は、Excelが提供する便利な機能の一つです。 [注] : ど素人の「Excel 回帰分析」表の見方は、「回帰分析」の各出力項目を関数等に当てはめてみたものですので、統計学の理論説明はありません。統計無脳ですので。(・_- ;;ゞ ハジ ・回帰分析 : 相関関係や因果関係があると思われる2つの変数のうち、一方の変数から将来的な値を予測するための予測式(回帰直線)を求めるための手法です。2組のデータの傾向を分析するために行われます。 ・単回帰分析 : 説明変数が1つの場合の回帰分析 (重回帰分析は、説明変数が、複数ある場合の回帰分析です。) ・目的変数 (従属変数又は被説明変数) : 予測される側の変数 y ・説明変数 (独立変数) : 予測に用いられる変数x1、x2、x3・・・ ・
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く