タグ

統計に関するocaesarのブックマーク (20)

  • データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう! ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。 はじめまして、藤井健人(@studies)と申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。 「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。 しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。 そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただ

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • トヨタも虜にする「天才が憧れる天才」AI企業、PFNゴールデンチームの全貌

    研究者やグーグルApple、CYBERDYNEなど名だたる企業から人材が集まる(画像をタップすると高解像度版を表示します)。 取材をもとにBusiness Insider Japanが作成 メルカリが上場し、日で有数のユニコーン(未上場で企業価値10億ドル以上の企業)とされるプリファード・ネットワークス(以下、PFN)。 トヨタやファナック、日立製作所など日を代表する技術系大手企業から資金を調達し、事業面でも連携を進める、いま日でもっとも注目を集めるスタートアップの1社だ。 PFNが開発したオープンソースの深層学習フレームワーク「Chainer」は、世界中の企業や開発者に利用され、AIの研究開発の最前線にい込んでいる。 そのPFNは、プリファード・インフラストラクチャー(PFI)から分社する形で2014年3月に創業、現在の社員数は150人を超えた。そして、いまなお優秀な技術者が集

    トヨタも虜にする「天才が憧れる天才」AI企業、PFNゴールデンチームの全貌
    ocaesar
    ocaesar 2018/08/23
    何これっ💦
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/) この記事は一昨年のこの書籍紹介記事のアップデート版です。 相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良いが増え続けてきたせいでついに初級者向けは6冊、中級者向けは何と15冊にまで膨れ上がってしまいました(汗)。ともあれ、自分のところにアフィリエイトの類は一銭も入らないにもかかわらず*1懲りずに書籍紹介をやろうと思います。 あ、最初に断っておきますが僕の知識レベルは極めて適当なので、極めていい加減なことを書いている可能性があります。また最初に読んでから時間が経っていて記憶があやふやなせいで、内容に関する記述が不正確な書評が混じっている可能性もあります。誤っているところやおかしいところがあったらバンバン突っ込んでく

    データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版) - 渋谷駅前で働くデータサイエンティストのブログ
  • ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.

    こんにちは。久々の投稿です。 僕のTwitterをフォローしてくれている方はご存知かと思いますが、4月から機械学習エンジニア/データサイエンティスト(見習い)として働く事が決まりました。 今日六木の某社から正式に内定を頂きましたが、間違いなくTwitterのおかげでありTwitterこそ就活の全てであると確信した次第でございます— マスタケ (@MATHETAKE) 2017年2月23日 良い区切りですので今回はタイトルの通り、ただの純粋数学の学生だった僕がデータサイエンスの勉強を何故/どのようにしてきたのか、についての思い出せる範囲で書こうと思います。 Disclaimer: この記事は基的に、"What I did" に関する記事であって決して "What you should do" についての記事ではありません。そんな勉強方法おかしいとか、こうすべきだ、みたいなマサカリは一切受

    ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.
  • 大阪市のオープンデータを使って、ひったくり事件発生個所を視覚化してみた。

    [2016/6/8 data update] 以前、大阪都構想住民投票結果の地図を作った際に、大阪市のオープンデータの中に犯罪発生個所データがあるのを発見したので、そのなかから「ひったくり発生個所」データを視覚化してみました。 大阪市市民の方へ 大阪市の犯罪発生情報 example データの読み込みと整形処理が結構重いので、ページが表示されるまでに時間がかかります。 画面上位にある「被害者の年齢」や「事件発生時刻」のヒストグラムは、バーをクリックするとデータの絞り込みを行えます。グラフの空白部分をクリックすると、絞り込みを解除します。 地図上のエリアをクリックすると下に事件に関するデータを表示します。 めんどうだったこと 公開されているcsvの町名の一部が旧漢字だったため、e-statから取得した町丁目境データと名寄せするのがめんどくさかったです。 来は新漢字に寄せた方がよいのでしょうが

    大阪市のオープンデータを使って、ひったくり事件発生個所を視覚化してみた。
  • 社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座

    統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

    社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • 統計学・データサイエンスの勉強法

    ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。 教師用の教科書と初心者用の教科書 私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、そのだけを読めば分かるようになっていると同じ印象を持ちました。 オンライン教育(MOOC) アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富

    統計学・データサイエンスの勉強法
  • 統計解析 & R言語超初心者入門資料まとめ

    興味を持ち続けていた統計解析や、R言語の勉強をはじめました! まだまだ初歩の初歩ですが、この記事がいつか偉大な一歩になれるように頑張っていく所存ですw まずは、R言語や統計解析に関する入門記事や、モチベーションがアップしそうな記事をまとめていきます! (02/23 11:00) 初学者の人にお勧めな資料にフォーカスしてまとめ直し 🍮 [スライド] 統計学入門 統計学の全体像をつかむのに最適なスライドです。初歩…とはちょっと呼べないくらい内容が深いです! 🏈 [スライド] 初めての「R」 統計解析を始めるときにWindowsな方も、Macな方もとっつきやすのが『R』です。このRを完全初心者をターゲットに説明をしていただけている資料です。超わかりやすいです! 🍄 [デスクトップアプリケーション] R用のIDE: RStudioRStudio RStudioはR言語用のIDEです。Wind

    統計解析 & R言語超初心者入門資料まとめ
  • 実践! Rで学ぶ統計解析の基礎 - @IT

    Rは統計解析のブッシュナイフだ 実践! Rで学ぶ統計解析の基礎(1) オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しよう!

  • 「きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり

    そろそろバレンタインデーですね。バレンタインといえばチョコレート――ということで、全国民を巻き込みかねない「きのこの山」「たけのこの里」“どっち派”戦争について、無料家計簿アプリ「ReceReco」(レシレコ)の購買データ分析を通じて考察してみたいと思います。 スマートフォンでレシート写真を撮るだけで家計簿を作れる無料iPhoneAndroidアプリ。ダウンロード数は115万、登録レシート枚数は2000万枚、登録された支出総額は450億円を超えている(2013年11月時点)。なお、登録されたレシートデータを個人が特定されない範囲で二次利用することは全ユーザーに事前許諾済み。 関連記事:目指したのは「究極のシンプル」 レシート撮るだけ家計簿アプリ「ReceReco」の狙い 全体戦況は「ダブルスコア」で決着 常に並び称され、ネット上でもよく比較される明治の2大ブランド「きのこの山」と「たけの

    「きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり
  • 最近の会社での統計学普及の取り組みと入門書について - Kentaro Kuribayashi's blog

    データサイエンティストブームですね。というのはおいといて、弊社でも統計学をいろんなひと(特にディレクタやデザイナとか)が学んで使えるようになるといいよねという感じで、みんなで勉強しよう!みたいなことをしています。今日は、若手敏腕ディレクタのzaimyが、下記資料に基づく勉強会をしてくれました。 http://www.storyboards.jp/viewer/u0arvn 僕も目下勉強中なのでなんもわからないのですが、読んだのうち、統計学に馴染みのない人向けでよかったものについて社内向けにまとめてみたので、こちらにも転載しておきます。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2013/06/17メディア: Kindle版この商品を含むブログ (2件) を見る これが一番オススメです。見た目は固そうですが、簡単だし、内容もいいと思います。Kindl

    最近の会社での統計学普及の取り組みと入門書について - Kentaro Kuribayashi's blog
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • はてなブログ | 無料ブログを作成しよう

    我が家のダグウッド ダグウッドとはハナミズキのことである。昔、日からポトマックリバーの桜の苗木を送った返礼として、アメリカから送られて来たのが日での始まりで、アメリカ原産でアメリカヤマボウシともいうらしい。 最近では日でも、あちこちで、街路樹であったり、庭木であっ…

    はてなブログ | 無料ブログを作成しよう
    ocaesar
    ocaesar 2013/01/09
    もう忘れてしまったな。懐かしい限り。
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久

    今日は、世の中の人がどんなお金の使い方をしているのかを全国で調査したデータを紹介します。市場調査を行うにあたって参考になるかなり詳細なデータを入手できます。しかも無料で。 「30代の男性は書籍や雑誌に1か月あたり何円使っているのか」「ケータイの通信費は、年齢層でどれくらい違うのか」「緑茶と紅茶とコーヒーと、それぞれいくらぐらい使っているのか」「やシャツや下着に使っているお金は?」「CD・DVDやゲームにはどれくらいお金を使っているのか」「映画や遊園地や温泉にはみんなどれくらい行っているのか」こんなデータがあればいいと思いませんか? それがあるのです。 そのデータとは、総務省統計局が行っている「全国消費実態調査」。 平成21年全国消費実態調査(統計局)全国消費実態調査とは、国民生活の実態について、家計の収支や貯蓄・負債、耐久消費財、住宅・宅地などの家計資産を総合的に調査し、世帯の消費・所得

    日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久
  • 「国の借金」意味分かって使ってる?:日経ビジネスオンライン

    の財務省やマスコミ、評論家、それに政治家などは、好んで「国の借金」という用語を使用する。その割に、彼らはバランスシート(貸借対照表)について全く理解していないわけだから、実際、困ったものである。 借金とは「人から借り入れた財産」を意味し、バランスシートの負債項目に計上されるべきものだ。「国の借金! 国の借金!」などと騒ぎ立てるのであれば、常識としてバランスシートについて理解していなければならないはずだが、現実はどうも違うようだ。 誰かの負債は、誰かの資産 今回は、まずは2つの「原則」をご紹介したい。 1つ目は「この世の誰も覆せない絶対原則」。資産と負債の関係についてである。 ◆原則1:誰かの負債は、誰かの資産。誰かの資産は、誰かの負債 誰かがお金を借りているのであれば、誰かが貸している。誰かが貸してくれない限り、誰もお金を借りることはできない。当たり前である。 ところが、マスコミなどで

    「国の借金」意味分かって使ってる?:日経ビジネスオンライン
  • "交通事故死減少"は真っ赤なウソ!? 軍事国家時代から続く「大本営発表」のカラクリ - 日刊サイゾー

    警視庁公式ページより世の中のへんなものをこよなく愛するのり・たまみの、意外と知らないちょっとへんな社会学。 「大営発表」って言葉、聞いたことありませんか? 戦争中、日が負けているのも関わらず「敵艦4隻大破の大戦果。帝国の勝利は間近!」みたいな感じで、嘘っぱちを流し続けていた政府の公式発表のことです。 たとえば昭和18年の「ブーゲンビル島航空戦」の時は、日の惨敗だったのにも関わらず、「撃沈5隻、大破8隻。大勝利!」なんて発表されていたんだそうです。 当時は、今と違ってインターネットなどはありません。情報は完全にコントロールされていました。政府・軍部だけでなく、NHKをはじめ、戦後コロッと態度が変わった新聞も大営発表を堂々と流していました。それじゃあ、みんな信じますよね。鵜呑みにした多くの若者たちは戦地に向かい、死んでいきました。それも戦死ではなく、糧補給がいい加減だったせいで、餓死

    ocaesar
    ocaesar 2010/07/25
    本来、一般の日本人は「大本営」や「お上」の言ってることは信じてない。問題は反権力の革を被った権力大好きなマスコミ。
  • 問:史上最も有名で、最も戦闘的だった統計学者は誰か? 答え:ナイチンゲール

    意志決定する人たちが数字に弱い。 基的に、四則計算しか/もできない。 かけ算割り算(それと按分ってやつ)に大小比較が、今でも最高の意志決定手段だったりする。 どれだけたくさんデータを集めても、平均値しか求めない(し知らない)。 かつて広大な領土を持つロシアでは、統計は非常に重要視された。 ほとんどのケースで「この目で見る」ことがかなわぬ状況で、統計の活用は(マイクロソフトのビル・ゲイツがそうだったように/例えば電気料金の詳細データから、照明がついている=それぞれの事務室が使用されているのべ時間を割り出し、各セクションの仕事の進捗具合や、人材の過不足を知った)、しゃぶりつくすまで徹底的に活用された。 でなければ、統治は不可能だった。 そのロシアとサルデーニャが組み、フランス、オスマン帝国およびイギリスを中心とした同盟軍と戦った。 戦闘地域はドナウ川周辺、クリミア半島、さらにはカムチャツカ半

    問:史上最も有名で、最も戦闘的だった統計学者は誰か? 答え:ナイチンゲール
  • 1