タグ

データと分析に関するkoemuのブックマーク (23)

  • 世界各国から91名30チームが参加! メルカリ初の大型ハッカソン「Mercari Euro Hack 2018」 - mercan(メルカン)

    「データが好き」だけでは終わらせないメルカリ文化とは? 経営とプロダクトを“数字”で支えるBI×MLマネージャー対談 データドリブンになれるかどうかは、「数字に理解のあるメンバーがいるか」「数字をもとに施策を考える習慣があるか」ーー。 メルカリではプロダクトの機能改善はもちろん、経営やプロダクト成長戦略の意思決定でも「データ」を活用する文化があります。そんなメルカリをデータで支えているのが、Business Intelligence(以下BI)チームとMachine Learning(以下ML)チームです。 BIチーム・・・意思決定に必要なデータを分析し、提案する MLチーム・・・メルカリにある大量のデータをAIに学習させ、サービスの利便性や付加価値を高める 機械学習の進歩もあり、さまざまな場面で「データ活用」に注目が集まっています。そんな中、メルカリではどのようにデータを活用しているので

    世界各国から91名30チームが参加! メルカリ初の大型ハッカソン「Mercari Euro Hack 2018」 - mercan(メルカン)
    koemu
    koemu 2018/04/17
    BIは診断と方針の判断、機械学習はサービスに落とし込んで改善する。同じデータを扱う部署でもこうも違う。
  • そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる - Qiita

    データサイエンティストってなんだろう 掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。 業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。 まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。 なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれない どちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、もしくは「流行りのデータサイエンティスト様を雇いたいけどどんな人採ればよいかのぅ」 って方々に見て欲しい記事なのでそのあたりはご了承願いたい 世間一般の見解を見てみる とりあえず世の中に既にある有名な幾つかの定義の俗説を見てみることにする。 "Data Scien

    そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる - Qiita
    koemu
    koemu 2018/03/14
    ひかるさんは図の作り方が本当に丁寧でいつも参考になる
  • (論文)ビッグデータを用いた経済・物価分析について : 日本銀行 Bank of Japan

    研究事例のサーベイと景気ウォッチャー調査のテキスト分析の試み 2015年6月25日 日銀行調査統計局 岡崎陽介※1 敦賀智裕※2 全文 [PDF 600KB] 要旨 近年、経済活動と情報技術IT)の結び付きが強くなるもとで、大規模かつ多種多様なデータ(「ビッグデータ」)が生成され、経済・物価分析に徐々に活用されるようになりつつある。稿では、同分野における2000年代後半以降の研究動向のうち、経済・物価動向の把握を目的としたものに注目する。そして、豊富な研究例が報告されている(1)インターネット検索データ、(2)POSデータ等のスキャンデータ、(3)テキストデータを用いたものを中心に、概要をとりまとめている。これらは、速報性・リアルタイム性の高さ、これまで定量化されてこなかった定性的な情報の活用、既存のマクロ経済指標を補完するような新たな経済指標の作成・公表等といった観点で、従来にはな

    (論文)ビッグデータを用いた経済・物価分析について : 日本銀行 Bank of Japan
  • 分析請負人カミヤのデータエンジニア事始め

    我が社も社内データを活用して業績を高めたいのだが、さて何から手を付ければいいのか…。昨今のビッグデータ分析の盛り上がりで、さまざまな企業の方からこんな悩みを打ち明けられることがあります。それも、企業のトップ層から、事業部門や情報システム部門など現場の方まで、悩みの中身は様々です。 連載では、私がすかいらーくでの取り組みや、他のユーザー企業のデータ分析担当者との議論を通じて得られた知見を基に、データ分析を成功に導くポイントを解説します。 [8]攻めのITの典型、O2Oアプリの作り方を学ぶ データ分析でビジネスに貢献する「データエンジニア」を目指すこの連載も、この第8回をもってひとまず終了です。最終回となる今回は、ITで企業の業績を向上させる、いわゆる「攻めのIT」を取り上げます。攻めのITにおいて、データ分析の考えがいかに重要か、分析的な観点からどのようにシステムを設計するか、私が… 20

    分析請負人カミヤのデータエンジニア事始め
  • ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の4日目です 3日目は、@arihh さんによる 3年くらいお菓子神社運営してきた です 自己紹介 @ka_nipan ドリコムに新卒で入社し、Android開発、BtoBtoC のwebサービス開発を経て、現在は弊社アプリのログ収集から集計、可視化、その他周辺ツールといった分析基盤の面倒を見ています 日はそのデータ基盤の話を書きます データ分析基盤全体図 弊社では Hadoop をオンプレで運用していて、そこにログや分析用のデータを置いています メリット 運用コストが安い Treasure Data、Big Query、Amazon Redshift 等の外部サービスを使うよりは安く済みます 自由度が高い 各サービスには容量をはじめ色々と制限があったり、こちらの要求仕様にマッチしない部分が少なからずありますが、自前の場合その辺は融

    ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に
    koemu
    koemu 2014/12/04
    「基本的に HDFS には gzip 圧縮した tsv ファイル等を置いていて、SequenceFile は置いていません」オンプレで設置するほうが良いと判断できるほどの状況なのだな…
  • The Big Data wrangling CIO you've probably never heard of: But his kit probably knows YOU

  • YAPC::Asia 2014に行ってきた&しゃべってきた - たごもりすメモ

    YAPC::Asia Tokyo 2014 みなさんご存知のYAPC::Asiaに出したtalk提案が採択されたので、スピーカーとして参加してきた。スケジュールを見たら2日目の一番最後の枠(LTの直前)で、なんと初めてのホールでのtalk。 1日目午後は会社でお仕事上の用事があったので参加できず、2日目朝は前日夜に死ぬほど飲んでいたので動けず、2日目午後は自分のtalk前で気もそぞろ……という感じで聞く側としてはアレだったけど、いろんな人が会場にいていろいろ話したし、面白かった。 しゃべってきた "Handling not so big data." というタイトルで、今現在における分散データ処理プラットフォームの世界はどうなっておるのか、ということをざっと概観しつつ、そういう仕事に踏み込むときには何が重要なのかについて少し話した。 Handling not so big data fro

    YAPC::Asia 2014に行ってきた&しゃべってきた - たごもりすメモ
  • Fluentdとログ収集のパターン - Go ahead!

    「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

  • 金融用語辞典 - 景気動向指数

    景気動向指数(けいきどうこうしすう) Indexes of Business Conditions(インデックシィズ・オブ・ビジネス・コンディションズ) CI(composite indexes)(コンポジット・インデックシィズ) DI(diffusion indexes)(ディフュージョン・インデックシィズ) 景気動向指数とは、総合的な景気局面の判断・予測を行うために、複数の指標を組み合わせて算出した指数のことです。 内閣府経済社会総合研究所が速報値と改定値を作成し、毎月公表しています。 【景気動向指数を算出するための基礎指標】 景気動向指数(CIおよびDI)は、30項目の基礎指標を使って算出しています。 基礎指標とは、景気全体の動きを捉えるために、毎日の暮らしのようす(どれだけモノが生産されたか、失業者はどれくらいいるのか、株価は上がったのか下がったのか、中小企業の売り上げはどうか…な

    koemu
    koemu 2014/06/10
    先行指標 遅行指標
  • なぜ機能するKPIは割合や比率でないといけないのか? - symsonic

    流し読みしかしていなかった「Lean Analytics」ですが、あらためてしっかり読んでみると仮説と検証/データドリブンのチームを作る上で大切な”指標、計測、分析”の質がチラホラ。 意外と間違いが多いKPI設定における3つのポイントをメモ。 なぜ、KPIは割合(ratio)や比率(rate)でないといけないのか。 1.Ratios are easier to act on(割合は行動を容易にする) 車の運転を思い浮かべるといい。目的地までの「距離」はとても大事な情報だが、「スピード(時間/距離)」は今の状態を教えてくれる指標なのですぐに運転にフィードバックできる。今のスピードが分かれば、目標の時間までに目的地に着くために急いだり、ゆっくりしたり行動を変えることができる。 2.Ratios are inherently comparative(割合は質的に比較しやすい) スピードという

    なぜ機能するKPIは割合や比率でないといけないのか? - symsonic
  • Pinterestのグロースチームが活用する4つの分析フォーマット - symsonic

    Pinterestのオフィシャル開発ブログの「いかにPiterestが持続的なグロースを実現しているか(How Pinterest drives sustainable growth)」という素敵なエントリーでグロースチームが継続的に追っている4つのログフォーマットが紹介されていました。 user state transitions Xd28s cohort heat maps conversion funnels 最後の2つは割とポピュラーだと思うのですが、前半2つの「user state transitions / Xd28s」ってなんぞやって感じだと思うので、4つまとめてご紹介したいと思います。 1.user state transitions 曰く、これがPinterestのグロースチームの中で最も重要なチャートとのこと。まず前提条件ですが、Pinterestでは「28日」使わなか

    Pinterestのグロースチームが活用する4つの分析フォーマット - symsonic
  • Presto: Free, Open-Source SQL Query Engine for any Data

    Calling our Presto community speakers – we want to hear from you! Fill out out community call for papers to speak at upcoming meetups and conferences. What is Presto?Presto is an open source SQL query engine that’s fast, reliable, and efficient at scale. Use Presto to run interactive/ad hoc queries at sub-second performance for your high volume apps.

    Presto: Free, Open-Source SQL Query Engine for any Data
  • Bamboo

    koemu
    koemu 2013/12/10
    "bamboo is an application that systematizes realtime data analysis."
  • 「企業価値」の本当の意味とは? 私鉄4社(東急・小田急・近鉄・阪急阪神)に株価バブルを見る

    1959年生まれ。栃木県在住。都市銀行勤務を経て92年に公認会計士2次試験合格。09年12月〜13年10月まで公認会計士試験委員(原価計算&管理会計論担当)。「高田直芳の実践会計講座」シリーズをはじめ、経営分析や管理会計に関する著書多数。ホームページ「会計雑学講座」では原価計算ソフトの無償公開を行なう。 ------------ファイナンスの基礎知識が満載!------------ ★高田直芳ホームページ『会計雑学講座』★ 公認会計士・高田直芳 大不況に克つサバイバル経営戦略 大不況により、減収減益や倒産に直面する企業が急増しています。この連載では、あらゆる業界の上場企業を例にとり、どこにもないファイナンス分析の手法を用いて、苦境を克服するための経営戦略を徹底解説します。 バックナンバー一覧 日経済新聞『大機小機』は『春秋』と並んで、毎日読むように心掛けているコラムである。2013年10

    koemu
    koemu 2013/11/22
    ちゃんと定量的に分析している点は良いと思う。経済に限らず、定量的な分析が欠けている物事って少なくない。
  • Kibana: Explore, Visualize, Discover Data | Elastic

    Search and analytics, data ingestion, and visualization – all at your fingertips

    Kibana: Explore, Visualize, Discover Data | Elastic
    koemu
    koemu 2013/11/14
    お手軽 クライアントベース分析プラットフォーム
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • QlikView Home Page | QlikView

    Qlik StaigeBring your AI strategy to life with a trusted data foundation and actionable predictions Learn More

    QlikView Home Page | QlikView
    koemu
    koemu 2013/09/12
    インメモリDWH
  • MySQL to HBase Heterogeneous Replication【実装編】 | 株式会社サイバーエージェント

    概要 Hadoopを用いたログ集計基盤は次第に整備されつつあるが,集計にはユーザなどのいわゆるマスタデータ(会員登録情報,プロフィール情報など)とのJOINが必要とされることが多い. しかしながら,(特にAmebaサービスでは)マスタデータはMySQLに保存されていることが多く,さらにHDFSには追記処理しかできない(特定行の削除などができない)ためマスタデータをMySQLからダンプコマンドにより全データ取得し,HDFS上のファイルを置き換えるという非効率な処理に陥りがちである. そこで,MySQLからHadoop(HDFS)をベースとしながら,ランダムリード/ライトが可能なHBaseにデータレプリケーションが可能となれば非常に便利である. 稿では「MySQL to HBase Heterogeneous Replication【第一報】」に続き,実際にMySQLからHBaseへのヘ

  • 時系列データ分析 - hnami.net_Pukiwiki

    2014-06-19 SandBox 2014-04-15 microexam 2013-05-11 DCIO 2013-03-15 game2013 2013-03-08 MCmicro 2012-09-18 game2010 2012-02-17 microexamold microexam2010 2011-04-19 appmicro 2011-01-04 semielemental2 2010-04-01 kihonmicro 2009-06-01 radvance 2009-05-17 AICを使った変数選択 step02 step01 stepaiccsv FrontPage 2009-05-13 ロジット分析とプロビット分析 2009-05-10 赤池の情報量基準 2009-05-05 時系列データ分析(2) radvance 時系列データ † そろり新左衛門の倍増話は後世

    koemu
    koemu 2013/03/29
    SARIMAモデル
  • データサイエンティストを目指すなら知っておきたいRパッケージ10個+α - データサイエンティスト上がりのDX参謀・起業家

    元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。 randomForest:超強力な汎用予測モデル RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続 plyr:データ集約 reshape2:データ加工 forecast:時系列予測 stringr:文字列操作 lubridate:日付操作 sqldf:SQLライクなデータ操作 ggplot2:綺麗なプロットを描く qcc:品質管理 個人的には、下の3つは

    データサイエンティストを目指すなら知っておきたいRパッケージ10個+α - データサイエンティスト上がりのDX参謀・起業家