タグ

analyticsに関するkoda3のブックマーク (137)

  • ラーメンと自然言語処理

    大好きなラーメンべ歩きの効率を劇的に上げるべく、自然言語処理とR言語の勉強がてらラーメン屋さんのクラスタリングを行ってみた話。 自然言語処理は素人に近いので分析の妥当性はちょっと不安っていうか合ってるか否かもよくわからんが、のれん分けを自動で(たまたま?)見つけたりしながら分析を進めた過程を共有できればと思います。

    ラーメンと自然言語処理
  • Python 機械学習プログラミング データ分析演習編

    この資料では、Pythonデータ分析ライブラリーである「pandas」を使う練習を目的として、データ分析の初歩的な内容を解説しています。 2015/11/25 ver1.0 公開 2015/12/11 ver1.1 仮説検定の説明を分かりやすく修正 2016/11/15 ver2.0 改訂版公開、scikit-learnの利用例を追加 2017/06/11 ver2.1 仮説検定パートを削除、sklearnの利用例をアップデートRead less

    Python 機械学習プログラミング データ分析演習編
  • 【知見共有】GoogleBigQueryの設計ミスでデータサイエンティストの業務効率が低下 - Qiita

    GoogleBigQueryの問い合わせクエリー肥大化でメンテが大変なことになったので、人間のためのクエリーを書けるよう工夫する話です。データ収集基盤としてBigQueryを採用しています。スマホアプリやサーバで生成される全てのユーザ行動ログをfluent経由でBigQueryに投入してデータサイエンティストに自由に活用してもらっています。 データ収集基盤の仕様設計 BigQueryはGoogle様のクラウド技術を利用して100GByteのフルスキャンだって10秒で終わるイケてるサービスです。BigQueryをデータ収集基盤として運用すればReadが超高速なので、アプリエンジニアは行動ログを仕込むだけ、データサイエンティストは蓄積されたデータを利用してビジネスに活用とWin-Winの関係が築けるはずだ、と思っていたのですがそう上手くはいきませんでした。 問い合わせクエリー肥大化による業務効

    【知見共有】GoogleBigQueryの設計ミスでデータサイエンティストの業務効率が低下 - Qiita
  • Pivotal、高速データ分析が可能なデータベース「Greenplum Database」をオープンソースとしてリリース

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Pivotal、高速データ分析が可能なデータベース「Greenplum Database」をオープンソースとしてリリース
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • 機械学習によるデータ分析 実践編

    演習用のスクリプトは以下にあります. Python http://nbviewer.ipython.org/gist/canard0328/a5911ee5b4bf1a07fbcb/ https://gist.github.com/canard0328/07a65584c134a2700725 R http://nbviewer.ipython.org/gist/canard0328/6f44229365f53b7bd30f/ https://gist.github.com/canard0328/b2f8aec2b9c286f53400 Read less

    機械学習によるデータ分析 実践編
  • 3C分析とは?3C分析のやり方がわかる入門編

    3Cは、「市場・顧客(Customer)」「競合(Competitor)」「自社(Company)」のそれぞれの英単語の頭文字をとったもので、それぞれのCは市場を分析する重要な要素となっています。3Cは市場環境を分析するためのフレームワークです。 3Cは、ビジネスの環境には、市場(=顧客)という買い手、自社という売り手、そして競合が売り手として存在するという事業環境におけるプレイヤーの構成要素に着目しています。3Cのそれぞれの要素を調べることで、事業環境を分析できます。 3Cは、元マッキンゼー、現ビジネス・ブレークスルー代表の大前研一氏が提唱したフレームワークであるという説があります。 3C分析を使うタイミング 3C分析は、事業戦略を策定するプロセスで使います。マクロ環境分析で、政治や経済など、自社だけの努力では制御ができない要因を分析してから、市場のミクロの分析するときに3C分析を利用し

    3C分析とは?3C分析のやり方がわかる入門編
  • SWOT分析とは?効率良いやり方と事例のご紹介

    SWOT分析の概要 SWOT分析は、事業の環境分析をするためのフレームワーク(枠組み)です。SWOT分析は、3C分析と並ぶ、事業環境分析の有名なフレームワークです。 (参考)3C分析について 3Cは、「市場・顧客(Customer)」「競合(Competitor)」「自社(Company)」のそれぞれの英単語の頭文字をとったもので、それぞれのCは市場を分析する重要な要素です。くわしくは「3C分析で勝てる戦略を導く方法・やり方のご紹介」でまとめました。 SWOT分析の中核には、SWOTからなるフレームワークがあります。SWOTは、S:強み、W:弱み、O:機会、T:脅威の頭文字です。 SWOT分析では、自社を取り巻く環境による影響と、それに対する自社の現状を分析しながら、自社の最良のビジネス機会を発見します。 SWOT分析はなぜ必要なのか? SWOT分析は、事業戦略における自社および競争環境の

    SWOT分析とは?効率良いやり方と事例のご紹介
  • 4つの視点 BSCnavi

    4つの視点について 4つの視点は、企業のビジョンを達成するための戦略シナリオを明確にするためのバランススコアカード(BSC)特有の分類方法です。 バランススコアカードにおける4つの視点の関係 財務の視点は、従業員や株主など利害関係者(ステークホルダー)の期待に応えるために、財務的目標の達成を目指します。 財務の視点を実現するために顧客の視点があります。 財務的目標の達成や顧客満足度を向上させるために業務プロセスの視点があります。 企業が競合よりも優れた業務プロセスを備え、顧客満足を図り、財務的目標を達成するために学習と成長の視点があります。 このように4つの視点は、シナリオとしての関連性があることが大きな特徴です。 財務の視点 財務の視点とは、「財務的業績の向上のために、株主に対してどのように行動すべきか」というものです。 具体的指標(KPI)には、売上高、利益、EVA(経済付加価値)、R

  • MSが開発進めるクラウドサービス向けビッグデータ分析フレームワーク「Prajna」とは

    Microsoftが「One Microsoft」として組織改編に着手して以来、「One」はコードネームやコンセプトによく登場している。たとえば「OneSync」「OneCore」「OneStore」「OneGet」、そして「OneNet」がある。 OneNetは1年以上前から開発されているが、初耳という方もいるかもしれない。Microsoftは先に、OneNetを「Prajna」というコードネームに変更した。 Prajnaは、分散型関数型プログラミングプラットフォームの構築を目指すMicrosoft Researchプロジェクトだ。ビッグデータ解析を利用するためのクラウドサービスを構築したいというユーザー向けと位置付けている。Microsoft Researchのクラウドコンピューティングおよびストレージ(CCS)グループは以下のように説明している。 Prajnaは.NET上のSDKセッ

    MSが開発進めるクラウドサービス向けビッグデータ分析フレームワーク「Prajna」とは
  • 使って無い人多すぎてビビる!Search Consoleを活用した超お宝キーワード発見術【超保存版】

    どうも、ブログマーケッターJUNICHIです。 やっぱりブログって色んな事書かないと飽きて続きませんね。 SEOの記事ばっかりだと頭使うから疲れます。 でも頑張れる限りは、キーワードの話をします。 今回は、多くの人が無視している、超素晴らしいキーワード選定ツールの紹介です。 それは、GoogleのSearch Consoleです。 もともと、Googleウェブマスターツールって呼ばれていたツールです。 Search Consoleを導入して、2~3カ月以上WEBサイトを運営している人ならば、このツールを上手に使う事で、掘り出し物のキーワードが見つかるので、是非この使い方を覚えてみて下さい。 Search Consoleの『検索アナリティクス』・『検索クエリ』は超優秀なツール Seach Console自体は、キーワード選定をするためだけのツールではないんだけど、その中にある「検索アナリティ

    使って無い人多すぎてビビる!Search Consoleを活用した超お宝キーワード発見術【超保存版】
  • カスタマージャーニーマップについての簡単なまとめ

    良質なUXを提供するためには、全プロセスでユーザーとの接点を最適化する必要があります。カスタマージャーニーマップとは、ユーザーのサービス利用体験すべてを可視化することで、ユーザー理解を深めるためのツールです。 HCD事業部・宮内 2015年8月12日 良質なユーザーエクスペリエンスを提供するためには、サービスそのものの品質だけでなく、認知、利用前、利用中、利用後、すべてのプロセスにおいてユーザーとの接点を最適化する必要があります。 顧客のサービス利用体験すべてを可視化することで、顧客の行動・心理を理解 カスタマージャーニーマップとは、ユーザーがサービスを利用する体験すべてを可視化(モデル化)することで、ユーザー理解を深めるためのツールです。 利用のプロセスに沿って、ユーザーとのタッチポイント・ユーザーの行動・思考等を可視化します。 主にサービスの改善・設計を行う際に現状の課題を明らかにし、

    カスタマージャーニーマップについての簡単なまとめ
  • 【永久保存版】資料作成にデータを用いたいなら!無料で統計データが手に入るサイト20選

    来週は絶対に成功させたい重要なプレゼンがある。準備万端で挑むために、提案の裏付けは必要不可欠です。しかし、それが全国や世界規模の内容になると個人で情報を収集することは、ほとんど不可能。 そんなときに頼りになるのが、国の機関や大手企業が公開している統計データです。今回はその中から無料で閲覧、ダウンロードできるものを20個紹介しようと思います。 官公庁が公開している統計データ一覧 1:総務省統計局総務省統計局 統計局は、国の中枢的な統計機関として国勢調査、その他国勢の基の統計調査の企画、実施を行っています。人口推移、家計調査、労働力推移など、基的な情報をPDFExcel形式でダウンロードすることができます。 2:内閣府統計情報・調査結果内閣府統計情報・調査結果 景気動向指数や、消費者動向調査を同じくPDFExcel形式でダウンロードすることができます。GDPや景気統計が主な掲載項目です

    【永久保存版】資料作成にデータを用いたいなら!無料で統計データが手に入るサイト20選
  • 情シスから始まるデータ分析--価値を引き出すチーム作り

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 昨今、データを活用したビジネス応用事例を多く目にするようになった。筆者もデータアナリストとして活動するなかで、データ活用のニーズの多さを実感している。一方で、データは存在するが活用ができていない、という状態の企業もまだまだ多い。分析のための組織を作った、作りたいがチームビルディングの進め方が分からないという声も耳にする。 連載は、現在情報システム部門で業務をされている方に、データ分析組織を構築する上での注意点を解説したい。 第1回は、情シスとデータ分析の親和性に触れ、マーケティング部門と連携ができるようになることをゴールにし、そのメリットや、心がけるべきことなどについて触れていく。 情シスはデータ分析を実施する最適な部署 まず、情シス

    情シスから始まるデータ分析--価値を引き出すチーム作り
  • データサイエンティストに縁遠い人のための「機械学習」入門

    関連キーワード ビッグデータ | データ | データサイエンティスト | データ分析 | 経営 ビッグデータ活用の目的と期待 出典:IDC Japan(TechTargetジャパン記事「“やるかやらないか”で二極化するビッグデータ活用 一般企業への浸透が進む」から)《クリックで拡大》 機械学習は、ビッグデータを活用して企業経営にインテリジェンスを持ち込むときの鍵となる。ただ、機械学習のアルゴリズムは魅力的ではあるものの、この技術は急速に複雑化している。われわれ全員がデータサイエンティストになる必要はないが、IT担当者は機械がどのように学習するか、しっかり理解していなければならない。 併せて読みたいお薦め記事 「機械学習」はどう使われる? 「機械学習」とは? データ分析技術に関連する12の大胆予測 「機械学習」時代の経営判断はどうあるべきか データサイエンティスト活用 「データサイエンティス

    データサイエンティストに縁遠い人のための「機械学習」入門
  • メキメキ開発の進む Apache Sparkのいまとこれから (Spark Casual Talk #1 発表資料)

    Spark Casual Talk #1 (2015/06/23)発表資料 『メキメキ開発の進む Apache Sparkのいまとこれから』 NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 猿田 浩輔(Apache Sparkコミッタ)、土橋 昌 ※イベントページ http://connpass.com/event/15575/Read less

    メキメキ開発の進む Apache Sparkのいまとこれから (Spark Casual Talk #1 発表資料)
  • Gipeda - Gitリポジトリのログを静的HTML化

    プログラマーのパフォーマンスを測る一番のツールはバージョン管理のリポジトリを見ることです。コード量を増やせばいいわけではありませんが、日々のコーディング結果が反映されるのは間違いなくリポジトリです。 そこで使ってみたいのがGipedaです。GitHubに限らず、そのコミット歴などを可視化してくれるツールになります。 Gipedaの使い方 Gipedaは静的なHTMLファイルを生成します。 コミット一覧をクリックすると、変更したファイルの内容が分かります。 コミット履歴のグラフ化もできます。 Gipedaはローカルで使えますのでGitHub以外はもちろん、オフラインでも使えるのが利点になります。また、静的なファイルを生成するので任意のサイトにホスティングすることができます。 GipedaはPerl製のオープンソース・ソフトウェア(MIT License)です。 Gipeda itself –

    Gipeda - Gitリポジトリのログを静的HTML化
  • Re:dashをつかって、Prestogres経由でTreasureDataにクエリを投げる。 - Qiita

    NOTE: 現在はこちらをご利用ください。http://qiita.com/toru-takahashi/items/9f1f425a1474d1f2c6da Re:dashとは、Open Source Data Collaboration and Visualization Platformらしいです。 クエリを登録していろんなデータソースからデータを取得して可視化できるダッシュボードにできるオープンソースです。 データソースとしては、今の所下記があり、今どきのデータ分析エンジンは、可視化エンジンはついてないので、嬉しいですね。 PostgreSQL / Redshift MySQL Graphite Google BigQuery MongoDB URL Script セットアップ Google Compute EngineとAWSのテンプレートがありますが、今回はgithub上にある

    Re:dashをつかって、Prestogres経由でTreasureDataにクエリを投げる。 - Qiita
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • フリーのビッグデータ分析学習環境を使って、構造化データと非構造化データの分析を試してみる

    Apache Hiveは、SQLに似た言語(HiveQL)を使用して、データの抽出や変換などを行うことができます。しかし、Hiveは処理にMapReduceを使用しており、大規模データのバッチでの処理や、チュートリアル3(後述)のような柔軟な処理には適していますが、一般的に処理に時間がかるため、繰り返し分析を行うような用途に利用するのは難しいでしょう。 Cloudera Impalaは、大規模データのための高速なSQLエンジンです。残念ながらこのチュートリアルではその来の力を発揮することができませんが、数十TBもの大量データに対するクエリでも、今回と同じ操作で同じように分析を行うことができることは覚えておいてください。 Impalaについての詳細は、以下のスライドを参考にしてください。 「Impala概要 道玄坂LT祭り 20150312」 「Evolution of Impala」 「

    フリーのビッグデータ分析学習環境を使って、構造化データと非構造化データの分析を試してみる