タグ

データに関するiuyuiのブックマーク (9)

  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • Rrdtool基礎から応用

    Pythonの処理系はどのように実装され,どのように動いているのか? 我々はその実態を調査すべくアマゾンへと飛んだ.

    Rrdtool基礎から応用
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • オープンデータ・ベリーとちぎ

    栃木県経営管理部 行政改革ICT推進課 E-mail:opendata@pref.tochigi.lg.jp TEL:028-623-2215 栃木県は、国の「世界最先端IT国家創造宣言」(平成25年6月14日閣議決定)、「新たなオープンデータの展開に向けて」(平成27年6月30日高度情報通信ネットワーク社会推進戦略部決定)等を踏まえ、民間との協働推進や県政の透明性の向上に資するため、県が保有する公共データをオープンデータとして公開し、民間等による活用を促進します。 このサイトでは、可能な限り、機器判読可能なCSV等の形式でデータを提供しています。今後も利用者の意見をもとに、利用しやすいサイトを提供していきます。このため、サイトは、利用規約も含め予告なく変更されることがありますのでご了承ください。 なお、ダウンロードしたファイルがございましたら、こちらの「ご意見・ご要望」に記入いただけ

  • 私はこうやってマーケティングデータを集めています。 : LINE Corporation ディレクターブログ

    今年も熱い夏がやってきました。ロックフェスと事業計画の熱い夏が! というわけでこんにちは、佐々木です。 今回は、「予算(事業計画)って、どうやって(何を根拠に)立てているんですか?」というスタッフの質問に答えるために、事業計画のために集めた資料の出典を紹介します。 なお、資料の多くは私が担当するブログ関連事業のものですので、ネットならではのマーケティングデータの集め方といった内容になります。限定的な分野ですが、なにかの参考になれば幸いです。 総務省 情報通信政策研究所(IICP) ・総務省 情報通信政策研究所 まずは総務省調べのデータ。 大規模なリサーチ結果を無料で利用できるので、とても重宝します。 例1)「ブログ・SNSの経済効果の推計」(PDF) 例2)「ブログの実態に関する調査研究」報告書文(PDF) 矢野経済研究所 ・矢野経済研究所 ブログ関連の市場調査で優れたレポートを発表して

    私はこうやってマーケティングデータを集めています。 : LINE Corporation ディレクターブログ
  • Pinterestはいかにスケーラビリティと格闘してきたのか(後編)。QCon Tokyo 2013

    4月23日に都内で開催されたエンジニア向けのイベント「QCon Tokyo 2013」。急速に人気サイトへと成長したPinterestが、その裏でいかにスケーラビリティと格闘してきたのかをPinterestエンジニア自身が紹介するセッション「Scaling Pinterest」が行われました。 この記事は「Pinterestはいかにスケーラビリティと格闘してきたのか(前編)。QCon Tokyo 2013」の続きです。 クラスタリングは怖い スケーラブルなシステムで問題なのは、データベースがひとつのサーバに収まらなくなったときにどうするのか、ということだ。 例えば、Cassandraは自動的にスケーリングしてくれて設定も簡単。可用性も高く単一障害点はない。しかし障害はそれでも起こるもので、クラスタリングの技術はまだ枯れておらず基的に複雑なものだ。コミュニティもまだ十分ではない。 私たち

    Pinterestはいかにスケーラビリティと格闘してきたのか(後編)。QCon Tokyo 2013
  • Pinterestはいかにスケーラビリティと格闘してきたのか(前編)。QCon Tokyo 2013

    4月23日に都内で開催されたエンジニア向けのイベント「QCon Tokyo 2013」。急速に人気サイトへと成長したPinterestが、その裏でいかにスケーラビリティと格闘してきたのかをPinterestエンジニア自身が紹介するセッション「Scaling Pinterest」が行われました。 この記事では、その内容をダイジェストで紹介しましょう。 つねにシステムのどこかが壊れている Pinterest、Marty Weiner氏。 Pinterestはオンラインのピンボードで、ユーザーが「ボード」を作成して、そこに画像など好きなものをアップロードしてシェアできるというもの。「ピン」ひとつひとつが画像やリンクになっている。 ユーザーやボードをフォローすることもできるし、再ピンしたりイイネしたり、コメントの入力もできる。

    Pinterestはいかにスケーラビリティと格闘してきたのか(前編)。QCon Tokyo 2013
  • nabokov7; rehash - livedoor Blog

    ライブドアのブログやクリップ、リーダーなどを担当するチームのプログラマです。 社内のイントラブログで書いていた記事などを少しずつ公開中。 サイトの利用率調査などをするときに,「どれくらいの人数のモニターを調査すれば信頼ある値がとれるのか」という話が話題にのぼったのでメモ。 例えば Nielsen Online の調査では4万人を対象にしているとのことだけど,一方,日のインターネット人口は約8000万人というデータもあります。 全体の0.05%しか調査しないのでは,相当誤差がありそうな気しますよね! 「ある質問にたいして yes か no か」の二択のサンプリング調査をして,全体のパーセンテージを推測する,という場合,必要なサンプルの個数は以下の3つのパラメータによって決まります。 1. 母集団の数 母集団の数が増えれば,当然必要なサンプル数も多くなります。ただし,母集団の数があ

  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1