PyCon JP 2017 の発表資料です。ジャンルは「業務利用事例」となります。 追記1. PyCon JP 2017 ベストトークアワード優秀賞を受賞しました! 追記2. http://yuzutas0.hatenablog.com/entry/2017/09/12/203000 に補足を掲載しています!
![Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck](https://cdn-ak-scissors.b.st-hatena.com/image/square/2c68b94e5e8948bec6d2f7c121de81348150bbe6/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Fd520b273412b44bbb1b503e5a3ce83d5%2Fslide_0.jpg%3F8531737)
こんにちは、'16新卒入社で、Analyticsグループ所属の田中です。 仕事ではデータ分析基盤や機械学習システムの開発・運用を行っています。 今回はデータ分析基盤における「便利カラム」にまつわる問題と、それを解決するためのアーキテクチャについてご紹介します。 リブセンスのデータ分析基盤 みなさんの会社では、サービスのデータ分析をどのように行っていますか? リブセンスにはデータ分析・活用の文化が根付いており、ディレクターや営業職の社員までもがSQLを用いてKPIのモニタリングや施策の評価を行っています。 分析活動を支えるために、社内では "Livesense Analytics" という全社横断のデータ分析基盤を構築・運用しています。 このような組織が形成されるまでのポイントについては次の資料で解説しています。 営業さんまで、社員全員がSQLを使う 「越境型組織」 ができるまでの3+1のポ
ビッグデータ分析及び環境構築に携わっているものとして、タイトルと中身を一目見て『これは!』と思い抽選に申し込み。晴れて当選する事出来たので、2017/02/28の仕事上がりで参加してきました。 当エントリは『WebサービスやiOS/Androidアプリを対象とした、インハウスのデータ分析基盤を開発しているエンジニアが、どんな基盤を作り、運用し、利用者に広めるためにどんな取り組みをしているのか、苦労を分かち合いながらノウハウを共有する場』(※connpassイベントページより抜粋)として設けられた当イベントに関する参加メモです。 データ分析基盤Night #1 - connpass 2017/02/28 データ分析基盤Night #1 #データ分析基盤Night - Togetterまとめ 「リブセンスのデータ分析基盤の全貌」 発表資料 聴講メモ Q&A 「Rettyのデータ分析基盤について
データの読み解きかたという課題に関して、ここ数年、分析のチームと一緒にコンテンツマーケティングを運用しながら、ずっと何かしっくりこないものを感じていました。 理由は、次のコミュニケーションの戦略、コンテンツの戦略や企画の参考になるような「発見のある」情報がなかなか見えてこないから。なぜそんなふうになってしまうのか。 長い間、もやもやしていたのですが、今月の初めに弊社で行われたフォーラムで、とある事業会社の方が一言、 「結局いまやっていることって、勝ち筋探しでしかないんですよね」 とおっしゃっていて、少しもやもやが晴れた思いがしました。 うっかりやりがちなこと 当たり前ですが、データは主に数字です。数字が出てくると私たちはつい本能的に「多いほうがよいもの」と捉えてしまいがちです。そうすると、少ない数字を改善し、多い数字を増やしていく。数字の多い施策に寄せていくといった対応策をとります。これ自
こんにちは、リッテルラボラトリーの清田です。 このたび、国立情報学研究所(NII)のご協力を得て、HOME'Sに掲載されている日本全国の賃貸物件データ(約533万件)と、それに紐付く物件画像データ(約8300万件)を研究資源として無償提供することになりました。あわせて、画像処理分野などで注目を集めているdeep learningなどの機械学習アルゴリズムや、テキストマイニング処理などを簡単に試していただけるツールキット群も年内に公開予定です。 2015年11月24日より、NII情報学研究データリポジトリを通じてHOME'Sデータセットとして提供開始しました。ぜひ多くの研究者の方にデータセットを研究利用していただき、住まい探しを変革するようなイノベーションにつなげていただけると嬉しいです! 詳しい内容については、以下のイベントでお話しさせていただきました。 スライドファイルを公開しております
こんにちは、検索・編成部ディレクターの岡根谷です。 クックパッドを訪れてレシピ検索するユーザーさんの検索成功率を上げるために、日々施策を行っています。 自信を持って進めるためには客観的なデータ はじめはどんなによさそうと思った施策でも、進めていく中で、自分や一緒にやっているエンジニアが施策の価値に自信をなくして停滞する瞬間が必ずあります。 そんな時、A/Bテストの結果などの客観的な定量データは非常に心強いです。客観的な裏付けがあると、判断に対しての迷いがなくなり、前向きに改善に取り組んで価値を生み出していけるようになります。 客観的データを自分の言葉で伝えたい しかし、このよく言う「施策の効果を数字で」というのは、いざちゃんとやろうとすると非常に手間のかかるものだったりします。 ある機能が検索成功率を上げるのに有効ということを示すために、 「機能ありの方がなしの場合より検索成功率高めだから
こんにちは。検索・編成部の原島です。 大学の研究者にお会いすると、「クックパッドのデータを研究に使用したいんですが...」と相談されることがあります。料理に関する研究をしているけれど、実際のデータがないため、なかなか研究が進まないという相談です。 料理に関する研究が進まないのは、クックパッドにとっても残念なことです。これらの研究は、クックパッドのサービスを改善するための「芽」でもあります。データがないだけで芽が育たないのは、非常に悲しい話です。 このような現状を打破するため、本日から、クックパッドのデータを研究者に公開します。このエントリでは、我々が準備してきたデータ公開の仕様について QA 形式で解説します。 誰が利用できるの? 申請していただいた研究者です。ただし、公的機関(e.g. 大学、独立行政法人)の研究者に限ります。申請時には、クックパッドと国立情報学研究所(後述)による審査が
目的 国土数値情報 ダウンロードサービスでは、国土交通省が管理するデータが取得できます。 今回は、鉄道データを用いて、その座標をGoogleMapにプロットしてみます。 デモ: http://needtec.sakura.ne.jp/railway_location/railway GIT: https://github.com/mima3/railway_location データについて 鉄道データは下記のページからダウンロードできます。 国土数値情報 鉄道データ http://nlftp.mlit.go.jp/ksj/gml/datalist/KsjTmplt-N02-v2_2.html ダウンロードしたファイル中のXMLの使用については下記を参考にしてください。 http://nlftp.mlit.go.jp/ksj/gml/product_spec/KS-PS-N02-v2_1.p
日本の子どもは自尊心(self-esteem)が低いといわれますが,その傾向は学年を上がるにつれ強くなります。 前回の記事で使った,国立青少年教育機構『青少年の体験活動等に関する調査』(2012年度)によると,「今の自分が好きである」という項目に「とてもそう思う」と答えた者の割合は,小4で30.7%,小5で24.1%,小6で20.9%,中2で8.9%,高2で7.3%というように,どんどん下落してきます。 http://www.niye.go.jp/kenkyu_houkoku/contents/detail/i/84/ 小学校と中学校の段差が大きいようですが,高校受験を見据えたテストの連続で,周囲と比した自分の相対位置を思い知らされることが多くなるためでしょう。よって自尊心の程度が,勉強のでき具合に規定される度合いが高まってくるとみられます。 私は上記調査のローデータを使って,この2つの関
博報堂生活総合研究所は10月22日、生活者意識の定点観測調査「生活定点」を無償で一般公開した。データをダウンロードして2次利用することが可能な上、特設サイトではデータを活用したコンテンツを多数用意し、データ分析に慣れない人でもさまざまな視点から意識の変化が時系列で分かるようになっている。 生活定点は1992年から隔年で実施。首都40キロ圏(東京都、埼玉県、千葉県、神奈川県、茨城県)と阪神30キロ圏(大阪府、京都府、兵庫県、奈良県)の20~69歳の男女という同じ対象者設定に対し同じ質問を継続して尋ねる定点調査で、項目数は衣食住から恋愛・結婚、消費、メディア接触など項目数は約1500。2014年の有効回収数は3201人だった。 サイトでは、22年間にわたる約1500項目の回答値を一覧できる集計表(Excelファイル)を無償でダウンロードできる。集計表は検索機能や時系列グラフの自動作成機能などを
CEDEC2014にて発表させていただいた内容です。 発表日時 : 2014年9月4日(木) 13:30~14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定 セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス(分析)」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする
Josh Willsは、Googleで広告オークションシステムとデータ分析インフラの開発を担当し、現在は、ClouderaのSenior Director of Data Scienceを勤めています。 機械学習によるデータ分析が、Googleなどに限らず、AirbnbやEtsyなどその他のネット企業にも広がっていく中、今後必要とされるデータモデルについて 、Midwest.io と GraphLab Conference で講演しています。 複数の機械学習分析を操るGoogleのチャレンジ 機械学習分析のベースとなる各サービスの仕様が頻繁に変更になる。 機械学習分析はそれぞれ単体でも複雑なのに、Googleの場合、それらが相互に関連があるケースが多かった。一つの機械学習分析の変更が、他の機械学習にどう影響がでるかが把握しきれない。その結果、広告配信システムを理解できない(= コントロール
一時的にアクセスできない状況にあるか、 移動もしくは削除された可能性があります。 よろしければ下記よりお探しの情報をお求めください。
The SUSHI Preference Data Set includes responses of a questionnaire survey of preference in SUSHI. These preference are collected by a scoring method using a five-point-scale, and additionally by a ranking method. A ranking method is a one of method for performing a sensory test. In this method, the respondents sort given objects according to their preference order. This data set also includes dem
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く