[B! データ] iuyuiのブックマーク

iuyui id:iuyui

データに関するiuyuiのブックマーク (9)

ダメな統計学：目次｜Colorless Green Ideas
2017年1月20日追記：『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。はじめにデータ分析入門検定力と検定力の足りない統計擬似反復：データを賢く選べ p値と基準率の誤り有意であるかないかの違いが有意差でない場合停止規則と
iuyui 2014/12/17
統計学

統計

データ
リンク
Rrdtool基礎から応用
Pythonの処理系はどのように実装され，どのように動いているのか？我々はその実態を調査すべくアマゾンへと飛んだ．
iuyui 2014/12/04
データ

運用

インフラ

はてな

グラフ

rrdtool
リンク
統計屋のためのAWK入門 - あんちべ！
はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや
iuyui 2014/09/15
データ

プログラミング

awk
リンク
オープンデータ・ベリーとちぎ
栃木県経営管理部行政改革ＩＣＴ推進課 E-mail:opendata@pref.tochigi.lg.jp TEL:028-623-2215 栃木県は、国の｢世界最先端IT国家創造宣言｣（平成25年６月14日閣議決定）、｢新たなオープンデータの展開に向けて｣（平成27年６月30日高度情報通信ネットワーク社会推進戦略本部決定）等を踏まえ、民間との協働推進や県政の透明性の向上に資するため、県が保有する公共データをオープンデータとして公開し、民間等による活用を促進します。このサイトでは、可能な限り、機器判読可能なCSV等の形式でデータを提供しています。今後も利用者の意見をもとに、利用しやすいサイトを提供していきます。このため、本サイトは、利用規約も含め予告なく変更されることがありますのでご了承ください。なお、ダウンロードしたファイルがございましたら、こちらの「ご意見・ご要望」に記入いただけ
iuyui 2014/09/15
データ
リンク
私はこうやってマーケティングデータを集めています。 : LINE Corporation ディレクターブログ
今年も熱い夏がやってきました。ロックフェスと事業計画の熱い夏が！というわけでこんにちは、佐々木です。今回は、「予算（事業計画）って、どうやって（何を根拠に）立てているんですか？」というスタッフの質問に答えるために、事業計画のために集めた資料の出典を紹介します。なお、資料の多くは私が担当するブログ関連事業のものですので、ネットならではのマーケティングデータの集め方といった内容になります。限定的な分野ですが、なにかの参考になれば幸いです。総務省情報通信政策研究所（IICP) ・総務省情報通信政策研究所まずは総務省調べのデータ。大規模なリサーチ結果を無料で利用できるので、とても重宝します。例1）「ブログ･SNSの経済効果の推計」（PDF）例2）「ブログの実態に関する調査研究」報告書本文（PDF）矢野経済研究所・矢野経済研究所ブログ関連の市場調査で優れたレポートを発表して
iuyui 2013/10/12
データ

統計
リンク
Pinterestはいかにスケーラビリティと格闘してきたのか（後編）。QCon Tokyo 2013
4月23日に都内で開催されたエンジニア向けのイベント「QCon Tokyo 2013」。急速に人気サイトへと成長したPinterestが、その裏でいかにスケーラビリティと格闘してきたのかをPinterestのエンジニア自身が紹介するセッション「Scaling Pinterest」が行われました。この記事は「Pinterestはいかにスケーラビリティと格闘してきたのか（前編）。QCon Tokyo 2013」の続きです。クラスタリングは怖いスケーラブルなシステムで問題なのは、データベースがひとつのサーバに収まらなくなったときにどうするのか、ということだ。例えば、Cassandraは自動的にスケーリングしてくれて設定も簡単。可用性も高く単一障害点はない。しかし障害はそれでも起こるもので、クラスタリングの技術はまだ枯れておらず基本的に複雑なものだ。コミュニティもまだ十分ではない。私たち
iuyui 2013/05/15
スケーラビリティ

負荷分散

技術

データ
リンク
Pinterestはいかにスケーラビリティと格闘してきたのか（前編）。QCon Tokyo 2013
4月23日に都内で開催されたエンジニア向けのイベント「QCon Tokyo 2013」。急速に人気サイトへと成長したPinterestが、その裏でいかにスケーラビリティと格闘してきたのかをPinterestのエンジニア自身が紹介するセッション「Scaling Pinterest」が行われました。この記事では、その内容をダイジェストで紹介しましょう。つねにシステムのどこかが壊れている Pinterest、Marty Weiner氏。 Pinterestはオンラインのピンボードで、ユーザーが「ボード」を作成して、そこに画像など好きなものをアップロードしてシェアできるというもの。「ピン」ひとつひとつが画像やリンクになっている。ユーザーやボードをフォローすることもできるし、再ピンしたりイイネしたり、コメントの入力もできる。
iuyui 2013/05/15
データ

スケーラビリティ

システム
リンク
nabokov7; rehash - livedoor Blog
ライブドアのブログやクリップ、リーダーなどを担当するチームのプログラマです。社内のイントラブログで書いていた記事などを少しずつ公開中。サイトの利用率調査などをするときに，「どれくらいの人数のモニターを調査すれば信頼ある値がとれるのか」という話が話題にのぼったのでメモ。例えば Nielsen Online の調査では4万人を対象にしているとのことだけど，一方，日本のインターネット人口は約8000万人というデータもあります。全体の0.05％しか調査しないのでは，相当誤差がありそうな気しますよね！「ある質問にたいして yes か no か」の二択のサンプリング調査をして，全体のパーセンテージを推測する，という場合，必要なサンプルの個数は以下の3つのパラメータによって決まります。 1. 母集団の数母集団の数が増えれば，当然必要なサンプル数も多くなります。ただし，母集団の数があ
iuyui 2012/02/18
データ

統計
リンク
統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
はじめに統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。それでは実際のデータをどうやって手に入れましょうか？実験や調査をして実際のデータを得るのは大変でお金もかかります。幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。というわけで、今日は、
iuyui 2012/02/14
統計

データ

勉強
リンク
1