タグ

統計に関するmoromoroのブックマーク (114)

  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
    moromoro
    moromoro 2013/10/09
    集合知プログラミング読みたい
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • 統計くん - 国勢調査を簡単にCSV化できる無料Webサービス

    統計情報を簡単にCSV化できる無料Webサービス統計くんは国勢調査を簡単にCSV化できるWebサービスです。 このサービスは、次世代統計利用システムのAPI機能を使用しています。 サービスの内容は総務省統計局又は独立行政法人統計センターによって保証されたものではありません。 運営&開発 satoru.net - お問い合わせ

  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • Twitter公式のアクセス解析「アナリティクス」が日本でも使用可能に、実際に何ができるか使ってみたよレポート

    「どれぐらいフォロー解除されているか」「自分のツイートのリンクは何回クリックされたのか」「自分のフォロワーは何に興味を持っている人が多いのか」「自分のサイトに埋め込んだツイートボタンは何回クリックされたのか」「自分のサイトのページでたくさんリツイートされたのはどれか」といったアクセス解析ができる「アナリティクス」機能が日Twitterの一部アカウントで利用可能になっています。これは2011年9月に「Twitter Web Analytics」として発表されていたもので、2011年7月にTwitterが買収した「BackType」というTwitterのアクセス解析サービスを改良したものになっており、GIGAZINEの公式Twitterアカウントでも利用可能になっていたので早速使ってみました。 ログインして右上にある設定アイコンから「アナリティクス」と書いてあるメニューが見えれば利用可能な

    Twitter公式のアクセス解析「アナリティクス」が日本でも使用可能に、実際に何ができるか使ってみたよレポート
  • Newsroom - Gartner

    Gartner Survey Reveals 71% of CMOs Believe They Lack Sufficient Budget to Fully Execute Their Strategy in 2023 Marketing

  • 2012年世界の携帯電話販売台数、2009年以来の減少に(ガートナー調べ) - WirelessWire News(ワイヤレスワイヤーニュース)

    調査会社ガートナー(Gartner)の新たなレポートによると、2012年の世界の携帯電話の販売台数は、フィーチャーフォンへの需要の減少などにより、2009年以来初めて減少に転じたという。 [TNW] 同レポートによると、2012年の世界の携帯電話の販売台数は約17億5000万台で、前年度比1.7%減。また2012年第4四半期にはフィーチャーフォンの販売台数が2億6440万台となり前年同期から19.3%減少している。一方、スマートフォンの販売台数は増加が続き、同期の販売台数は2億770万台(前年同期比38.3%増)となったという。 全体での減少の原因のなかには、中国などの新興市場での成長鈍化や、携帯電話の普及がすでにある程度進んだことなどが含まれる。携帯電話を初めて購入するユーザーが少なくなり、ほとんどの消費者が携帯電話の買い替えを行う段階まで市場が成熟してきているとガートナーでは分析してい

  • 研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ

    ニコニコ動画をご利用いただきありがとうございます。 去る4月末、第四回ニコニコ学会β開催を記念し、国立情報学研究所 情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ動画のメタデータ「ニコニコデータセット」を公開しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント文、投稿日時、コメント位置等)約300GBです。動画データ体および個人を特定するユーザIDは含まれません。原則「すでに公開されているデータ」をとりまとめており、非公開のデータは含みません。 データが公開されることにより、スクレイピング等を行わなくともニコニコ動画に関する研究が行えるようになります。 また、学術機関に所属する研究者が検証可能な形で公式に研究発表しやすくなるものと考えられ

    moromoro
    moromoro 2013/05/26
    wwwwwの出てきたコメ数/全コメ数=50%くらいかなw
  • ニールセン、スマートフォンの視聴率を計測する「Mobile NetView」の提供を開始 | Web担当者Forum

    ニールセン、スマートフォンの視聴率を計測する「Mobile NetView」の提供を開始 | Web担当者Forum
    moromoro
    moromoro 2013/05/26
    機種別情報がホスィ
  • DAUを評価指標から捨てた会社の話 #tokyowebmining

    2013/05/18に#TokyoWebminingで話した資料です。 大人の都合でグラフの縦軸と横軸がありません。 基的には横軸は時間(day)と、縦軸はUUです。

    DAUを評価指標から捨てた会社の話 #tokyowebmining
    moromoro
    moromoro 2013/05/22
    DAU捨てを偉い人に認めさせられんのです・・・
  • Google Books Ngram Viewer

    <iframe name="ngram_chart" src="" width=900 height=500 marginwidth=0 marginheight=0 hspace=0 vspace=0 frameborder=0 scrolling=no></iframe> Part-of-speech tags cook_VERB, _DET_ President Wildcards King of *, best *_NOUN Inflections shook_INF drive_VERB_INF Arithmetic compositions (color /(color + colour)) Corpus selection I want:eng_2019

    moromoro
    moromoro 2013/05/19
    本に出てくる単語統計
  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • R言語で統計解析入門: 目次1 テクニカルデータプレゼンテーション  梶山 喜一郎

    Technical Data presentation in R コピペで学ぶ Rでテクニカルデータプレゼンテーション 1.基礎統計解析編 グラフィックス・リテラシ-教育: 「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア 福岡大学工学部図学教室   梶山 喜一郎 ・つまみいで,学習しないように願います. ・データの可視化を体系・系統だったスキルにするために順を追って学習する. ・統計ブームに乗っている学習者も先人に感謝の気持ちを.さらに, ・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認. A. はじめに--ここは統計・解析の必要を味わった後で読めばよい まず,統計の手続きを実行する.慣れたら統計的に考えよう. 学校の統計学を復習--買った教科書とノートをまた読むだけ a. 測定と尺度 Measurement and scale b. 記述統計学の

  • 相関と因果 - Interdisciplinary

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk: 林岳彦の研究メモ ひっそりと感想文をば。 相関関係の定義 リンク先では、因果関係の便宜的な定義がなされているけれど、相関関係の方にはそれが無かったりします。で、この種の問題においては、そもそも相関関係って何だっけ?みたいな問題意識もあると思う訳ですね。 サイコロ 独立した2つの現象に関連性が現れることは、単なる偶然によっても生じえます。もっとも単純には、「二つのサイコロを転がしたら同じ目がでた」なんてのがそれにあたります。 で、ここにある、二つのサイコロを転がしたら同じ目がでたを、相関関係と呼べるのかどうか、みたいな疑問も出てきたりするのです。2つサイコロを振ってゾロ目になる事を相関関係と表現出来るのなら、どこからどこまでの現象をそのように呼べるのだろうか、と思えてくる

    相関と因果 - Interdisciplinary
  • 気象観測データを統計処理・取得できるウェブページを公開します - 気象庁 | 平成25年報道発表資料

    近年、社会におけるインターネットの普及など情報通信技術の進展により、企業・国民等において、大量・多様なデータを処理・利用できるようになってきており、政府等が保有する多様で膨大な公共データについて、様々な場面での活用が期待されるようになってきています。 このような中、気象庁では、日よりホームページ上で、機械判読可能な形式(CSV形式)による、過去の気象観測データの公開を開始します。 過去の気象データ・ダウンロードのページ

  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
  • 統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース | OSDN Magazine

    4月3日、オープンソースの統計解析ツール「R」開発チームは最新版となる「R 3.0.0」(開発コード「Masked Marvel」)のリリースを発表した。2^31-1以上の要素を持つベクトル(Long Vector)のサポートなどが加わっている。 Rは統計や解析処理、グラフ化のための言語および実行環境。WindowsMac OS X、Linuxなどで利用できる。GNU Projectの1つで、動的型付け、オブジェクト指向などの特徴を持ち、データの操作、計算、グラフィック表示などの機能も統合されている。拡張性が高く、関連パッケージが豊富に用意されている点も特徴で、パッケージはCRAN(Comprehensive R Archive Network)から入手できる。ライセンスはGPL。 バージョン3.0.0は、2004年に公開されたR 2.0.0以来のメジャーバージョンとなる。大きな変更点と

    統計解析ツール「R」、8年半ぶりのメジャーバージョンアップ版「R 3.0.0」リリース | OSDN Magazine
    moromoro
    moromoro 2013/04/16
    再燃しそー
  • 最後のソフト発売日をもとに各ゲーム機の寿命を比較してみた

    ゲームハードの寿命とはなんだろうと考えた。 次世代ハードが発売されたら終わりだろうか?いや、それでもソフトは発売される。 最後のソフトが発売された終わり?それでも、以前のソフトは遊べる。 生産が中止されたら?その後も、中古屋やオークションで手に入る。 人々の話題に上らなくなったらさすがに寿命だろうか? …いや、熱心なファンの心のなかで、ずっと生き続けるだろう。 ゲームハードの明確な寿命を定めるのは難しい。 明確な日付が知られている「最後のソフトの発売日」を、そのゲーム機の一つの終焉として、各ゲーム機の寿命を一覧にしてみた。 なお、情報源はWikipediaで、バーチャルコンソール等のダウンロード専売ソフトや非ライセンスのインディーズゲームは除外している。国内限定で、海外は無視。 この手のまとめを作成すると色々ツッコミが入るので前もって言い訳をしておく。 ・ワンダースワンとワンダースワンカラ

    moromoro
    moromoro 2013/03/31
    PCFXが3DOより長かったのかw
  • 幼子がいる母親の就業率(47都道府県)

    前回は,東京都内の地域統計を使って,幼子がいる母親の就業率と保育所供給率の関連を明らかにしました。分かったのは,両指標の間に強い正の相関関係がある,ということです。 ところで,東京に土地勘がなく,いまいちピンとこなかった方もおられるのではないでしょうか。また,東京という局所(大都市)でいえることがどれほど普遍性を持つのか,という疑問もあろうかと存じます。 そこで今回は,分析の次元を引き上げて,47都道府県のデータを用いて同じ分析をしてみようと思います。保育所の供給が多い地域ほど,幼子を抱える母親の就業率は高いか。県レベルのデータをもとに,追試をしてみましょう。 私が住んでいる東京都を例に,指標の計算方法を説明します。まずは,幼子を抱える母親の就業率です。2010年の『国勢調査』によると,都内に居を構える核家族世帯のうち,6歳未満の幼子がいる世帯は418,670世帯です(末子年齢による)。こ

    幼子がいる母親の就業率(47都道府県)
    moromoro
    moromoro 2013/03/31
    核家族世帯であるかどうかって関係ねーの?都市部は割合高いと思うけど。
  • 33の業界別、集客関連KPI(平均直帰率/平均検索流入(SEO+PPC)割合/平均ソーシャル流入割合/訪問あたりPV数など)まとめ | SEOツール GinzaMetrics

    SEOツール > SEO&コンテンツマーケティング Blog > イーブック・調査レポート > 33の業界別、集客関連KPI(平均直帰率/平均検索流入(SEO+PPC)割合/平均ソーシャル流入割合/訪問あたりPV数など)まとめ 先日投稿した記事「競合他社のウェブサイトはどうなってるんだ? を簡単に調べる無料ツール3選+α」で紹介したSimilarWebが便利だと思い、33の業界別に「平均直帰率」「検索流入割合」「ソーシャル流入割合」「訪問あたりPV」数などをまとめてみました。 (特に前職時代)何度となく「うちの業界平均と比べて、当社の直帰率は悪いのでしょうか?」「検索エンジンからの流入比率は30%くらいですがこれは当社平均と比べて多いでしょうか、少ないでしょうか?」聞かれましたが、このデータがあれば解消できそうです。 調査方法と調査対象の33業界 ■調査ツール SimilarWebを使いま