タグ

統計に関するheppokonekoのブックマーク (13)

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

    データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
  • データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

    統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。 疑うべき順番は モデル → 推定法 データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。 ひとつの事例 とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

    データサイエンティストではない人に知っておいて欲しい事 - hotokuとは
  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

  • 『100分の1を100回やってみる』

    ゲーム作家・ゲーム研究者遠藤雅伸のブログです。 ゲームに関する話題を、ビジネス、アカデミック両面からも取り上げます。 ゲームデザインにおいて初心者の陥りやすい問題の1つとして、確率に対する誤った考え方があります。 -------------------------------------------------- 課題:RPGで、ある敵を倒したら稀にアイテムが手に入る。このアイテム、敵を100匹ほど倒したら少なくとも1回くらいは出て欲しいのだが、さてどのような設定にすればいいか? -------------------------------------------------- 最も安易な考え方が、「100回に1回起きればいいことなんだから、1/100の確率でアイテム出せばいいんじゃね?」というもの。これと同じ考え方をした人に向けて、このエントリーは書かれていますので「簡単な余事象の問題

    『100分の1を100回やってみる』
    heppokoneko
    heppokoneko 2011/12/24
    "約37%の人がまだアイテムに出会っていないことになっています。「そこまで多いとは思えないんだけど」という感想の原因は、一度出た人が2つ目3つ目を出している分が作りだした幻想であって、実際には不運な人がこ
  • ジャンルコード別サークル数の推定速報(C81) - Myrmecoleon in Paradoxical Library. はてな新館

    前回につづき,今年12月開催のコミックマーケット81(C81)のジャンルコード別の参加サークル数の現時点での推定を出しました。ソースは昨夜から現在までにPixivのイベント検索・twitcmapおよびTwitter上でのツイートを元にしています。 とそのまえに告知。今回もサークル参加します。スペースは 12/31 3日目土曜 Q-03a です。「大晦日のキュゥべえは3年A組」と覚えてください(さすがに無理がある)。一応予定だと今回は,コミケPixivとニコニコ動画のクリエイター(同人作家・絵師・うp主)の比較・相関分析などを出すつもりだったのですが,実は11月12月に大きなイベントを控えて多忙なのでどうなるかはちょっと謎かも? とりあえず何かしらは出します。 ということで冬コミのサークル数の推定値です。 ジャンル名 C79 C80 C81推定 対前回比 対前年比 前回増減 備考 創作(少

    ジャンルコード別サークル数の推定速報(C81) - Myrmecoleon in Paradoxical Library. はてな新館
    heppokoneko
    heppokoneko 2011/10/30
    へぇーってなる
  • 日本女性のブラジャーの平均サイズは? | エキサイトニュース

    先日、下着のバーゲンセールで自分のサイズが発見できずに悔しい思いをした。 私と同じサイズの人が多くて売り切れなのか、はたまた需要が少なくて製造数が少ないのか? そんなことを考えていると「ブラジャーのサイズで、一番売れているのはどのサイズなのだろう」と、ふとそんな疑問が涌いた。 ブラジャーのサイズは、今更言うまでもないが、カップサイズとアンダーバストサイズで表示されている。 カップサイズは、いわゆるAとかBといったアルファベットで表示されているもので、バストのふくらみがいちばん高いトップとバストのふくらみのすぐ下のアンダーバストの差で選ぶようになっている。 トップとアンダーの差は、A(10cm)、B(12.5cm)、C(15cm)、D(17,5cm)、E(20cm)、F(22.5cm)、G(25cm)、H(27.5cm)、I(30cm)……となっているので、アンダーバストが70センチで、トッ

    日本女性のブラジャーの平均サイズは? | エキサイトニュース
  • 【情報通信白書】ソーシャルメディアで深まる絆、身近な人より遠くの人 (RBB TODAY) - Yahoo!ニュース

    総務省が8月に発表した2011年版の情報通信白書。ここでは全3部のうち第2部の「共生型ネット社会の実現に向けて」の内容を紹介する。第2部では、インターネット・ソーシャルメディアの利用状況や、ICTリテラシーの格差を指す「デジタル・ディバイド」の存在などに言及している。 他の写真を見る 「ネットを通じて常に“つながっている”環境の実現が、国民生活の様々な場面で変化をもたらす」。同レポートはこのように述べ、インターネットが人々の生活に浸透している様子を指摘。情報ツールとしてのネットを重要視する人の数は、この5年間に20代で28.8%増加した点や、趣味・娯楽としての各メディアの重要度で、ネット(60.8%)が新聞(55.9%)を抜き、テレビ(90.9%)に次ぐ地位に入った点に触れている。 またソーシャルメディアに関しては、人々の絆を深めることにより身近な不安・問題を解決するツールとして活用

    heppokoneko
    heppokoneko 2011/08/15
    "またソーシャルメディアに関しては、人々の絆を深めることにより身近な不安・問題を解決するツールとして活用されており、そのポテンシャルは大きいとしている。ソーシャルメディアによってどのような人との絆が深
  • aサロン(記者ブログ)_科学面にようこそ_放射線の影響 追跡60年 - アスパラクラブ(朝日新聞)

    放射線は人体にどんな影響を与えるのか。広島・長崎の被爆者たちの健康調査で多くのことが分かっている。大きな犠牲から得られたデータは、世界の放射線防護対策の基礎となっている。 健康調査は、1947年に米国が設けた原爆傷害調査委員会(ABCC)が始め、75年から日米共同運営の「放射線影響研究所(放影研)」が引き継いだ。 被爆者9万4千人と、そうでない2万7千人を生涯にわたり追跡調査。うち約2万人は2年に1度の健康診断や生活習慣調査を続けている。 放影研の大久保利晃理事長は「系統的な長期調査で、世界が必要とするデータを発信できた」と話す。国際放射線防護委員会(ICRP)の委員で大分県立看護科学大の甲斐倫明教授も「放射線のリスク推定で決定的な役割を果たすのが放影研のデータ。ICRPもこれを基に計算している」と説明する。 長年の調査でわかった主なポイントは次の通りだ。 ◇広島・長崎調査、世界の防護

    heppokoneko
    heppokoneko 2011/04/09
    広島・長崎の被爆者たちの健康調査からわかっていること
  • 「YouTubeやニコ動が音楽購入の阻害要因にも」日本レコード協会が分析 

    heppokoneko
    heppokoneko 2011/02/18
    相関関係と因果関係?
  • 生還した戦闘機が教えてくれること ~ 選択バイアスの罠 - Feel Like A Fallinstar

    久しくご無沙汰しておりました。 書くネタ自体は山ほどあるんですが、業が凄い勢いで動いているのでそっちに集中していましたです。 さて、たまには分析チックなお話を。統計でガチガチの石頭になってしまわないように、常に僕が気をつけていることの1つが「選択バイアスの罠」です。 生還した戦闘機、しなかった戦闘機 あ、ちなみに、いまきは別に統計や分析の(アカデミックな意味での)専門家ではないので、そのあたりはご容赦を(汗 時に1940年ごろ。 世界は第二次世界大戦の真っ只中です。 統計学者のエイブラハム・ワルドという方が戦闘機の脆弱性について調査していたそうです。 帰還した戦闘機の大量のデータが彼の元に届きます。 「入手したデータどれもが、戦闘機のある部分の被弾頻度が他の部分よりも過度に多いことを示していた。」 さて、ここからどういう結論を導けばいいのでしょうか? (ちょっと立ち止まって考えてから読ん

    heppokoneko
    heppokoneko 2011/02/18
    "選択バイアスを知らずに読むのと、知ってて読むのでは全く意味が違ってくる"
  • 1