最初の1年で読むべき本を考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計の本ってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「この本が分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「本質的な理解のためにはもっと難しい本がいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな
となり、圧倒的に Web ビジネスがホットな転職先であることが分かります。Web ビジネスでの中途採用は、「IT企業から」と同じ「Webビジネス企業から」の両方。IT企業から流れ込んでいるのかと思ったら、「Webビジネスを渡り歩く」人も増えてきているのでしょう。 逆に、IT企業では、同じIT企業からの転職が圧倒的。(Webビジネス企業からの逆流は少ない)もしくは、ここに数字は出てこないが社内配置転換、が多いと推察されています。 アジャイル開発 p.106 から始まる節では、アジャイル開発における人材像について記述されています。欧米ですでに主流になっている手法だが、日本でも採用が増加傾向にあり、IPAのセミナーでのアンケートでは、2013年にはじめて「すべてのプロジェクトで適用している」もしくは「ほとんどのプロジェクトで適用している」の参加者割合が半数を超えた回があったそうです。 ただし、別
By Xava du 犯罪には「起こりやすい時間帯や季節」というものがあり、犯罪統計資料を分析することで、犯罪者の心理を推察し、犯罪の予防につながることが知られています。統計分析ツール「Statwing」を使ってアメリカ・シカゴ市の犯罪統計から浮かび上がってくる「犯罪の起こりやすい時間傾向」はこんな感じです。 Statwing https://www.statwing.com/open/datasets/1d1b775c005f4895a15377f8ec7636976d5fc426#workspaces/17881 Crime Over Time: Visualizing Crime Data in Chicago http://www.socrata.com/blog/crime-time-visualizing-crime-data-chicago/ ◆時間別パターン これは、シカゴ
※CSVファイルに、移動平均前の各月分の真の失業率を追加しました。(06/28/14) ※2014年3月分のデータに誤りがあったため、グラフおよびCSVファイルの3月以降のデータを修正しました。(06/29/14) 完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで、完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果 (就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。 5月の完全失業率(季節調整値)は3.5%と前月よりも0.1%低下し、真の失業率も4.3%と0.1ポイント低下した。真の失業率は概ね0.1ポイントずつ、順調に低下しており、完全失業率との乖離幅は0.8ポイントまで縮小している。 雇用は改善し、物価が上昇する中、『家計調査』による勤労者所得はそれほど
今日は、マーケティングや企画に携わる社会人なら知っておきたい、というよりは、知らないと恥ずかしい、無料で利用できる公的統計データのポータルサイト「e-Stat」の情報と、新しい統計データが自動的に飛んでくる「統計メールニュース」の情報をお届けします。 すでに6月も下旬。新入社員の方も配属部署が決まってバリバリ働いていることだと思います。 マーケティングや企画の仕事をする人にとって、調査データというのは大切なもの。 ネット上で発表される「○○のサービスのユーザー数が○○万人」なんて調査データ、みんな好きですよね。Googleトレンドのような検索ボリュームの情報や、どのブラウザがどれぐらい使われているかといった調査データも人気です。 どれも無料で入手できるデータですが、実は税金でちゃんとした手法でつくられている、質の高い調査データというのが、あるのです。 それが、政府の出している統計データ。
平日の若年層での固定電話・超離れインターネットの普及、技術進歩と共に、コミュニケーションのかたちも変化をとげ、アナログからデジタルへ、そしてデジタル内でもより新しい手法へとシフトを続けている。総務省が2014年4月に発表した「情報通信メディアの利用時間と情報行動に関する調査」を基に、その実状を探っていくことにする。 次に示すのは平日におけるコミュニケーションメディアの平均行為率。要はどれだけの人が利用しているか(頻度や時間は問わない)。例えば10代のソーシャルメディアの値は43.5%とあるので、10代の4割強は平日に、ソーシャルメディアを使ってコミュニケーションをしていることになる。当然、これらのツール以外にもコミュニケーション手段は存在し、利用されている…例えば直接口頭、手紙、貼り紙など…ことにも留意する必要がある。 ↑ コミュニケーション系メディアの平均行為率(平日、2013年)全体で
近年ビッグデータという言葉がバズワードとなっているが、それにともないデータ解析系のスタートアップの活躍が目立っている。 その中でも今注目を集めているのが、インテルやナイキといった企業も投資をしている「Reflektion」である。複数のサービスを提供しているが、その中でもコアとなるのがEコマース向けのデータ解析サービス。 Eコマース向けのサービスの特徴は、とにかく集めたデータをもとに“消費者個人個人”に最適化した体験を提供できること。それまでの個々の購買履歴を元に徹底して最適化したサイトになるようにサポートするというものだ。 いくつかある機能の中でも注目したい機能は3つ。 1つ目は、顧客が次に買いたくなる商品を割り出し、レコメンドする機能。これは特にこのサービスに限った話ではないものの、リアルタイムにデータを解析し、最新のトレンドや商品の売れ具合を基に常に最適な商品をレコメンドする。 2つ
「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期(11世紀)に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。 ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。 言語を確率論的にとらえ、計算式によって解析(処理)するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。 言語の差異構造を統計的に理解する 持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな
統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六本木で働くデータサイエンティストのブログ 例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。 というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ
2014/10/14 追記 本書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは本当によくあることで、 本書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか本書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 本を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす
お久しぶりです。林岳彦です。もうすぐ『愛なき世界』の日、いわゆる(マイブラッディ)バレンタインデーですね。何かと雑音が多いこの世界ですが、いつでも自分の足元を見つめて行きましょう。 さて。 今回は、以下の: そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ 統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側 A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT のあたりの皆様の良記事に触発されて「仮説検定」について何か書いてみようと思いました。で、書こうと思えば色々な側面から書ける気もするのですが、今回はちょっと斜めからのアプローチとして、「リスク分析の人の頭のなかで仮説検定はこんな感じに見えている」というところを書いていきたいと思います。 ここで、ひ
東京都心で積雪が27センチの大雪となった8日土曜日、周りでは「また休日の大雪か」という会話がかわされていました。 去年の大雪は、成人の日で祝日。また、今回、積雪が20センチを超えたのは94年2月12日以来でしたが、その日は土曜日でした。 東京の大雪は土日と祝日に集中東京都心の大雪注意報の基準は、降雪5センチです。結果的に5センチ以上積もった日を、90年代以降で調べてみました。 5センチ以上の積雪があったのは12回。そのうち10回が、土曜日・日曜日・祝日に降っています。 80年代は、そういった傾向は見られません。一方、2000年以降の5センチ以上は、すべて土日か祝日です。 気温が影響か可能性の一つとして考えられるのは、気温です。都市部では、人が多く活動する平日は、気温が上がりやすくなります。 気象庁気象研究所の解析によると、東京都心では、土日・祝日の気温が、平日に比べて、0.2℃ほど低く、特
生涯未婚率という指標をご存知でしょうか。読んで字のごとく,生涯,未婚の状態にとどまる者がどれほどいるかです。 これは,全人口の人生を死ぬまで追跡して出すような,込みいったものではありません。生涯未婚率としては,50歳時点の未婚率が用いられます。この年齢以降は,結婚する者はほとんどいないであろう,という仮定に立つわけです。 なお,多くの官庁資料の年齢統計は5歳刻みのものですが,5歳刻みの統計から生涯未婚率を出す場合,40代後半と50代前半の未婚率を平均するという便法がとられます。 私は,この方式に依拠して,男女の生涯未婚率を職業別に計算してみました。こういうデータは見かけないので,興味を持った次第です。正規・非正規の影響を除くため,正規職員男女の率を出すこととします。資料は,2012年の総務省『就業構造基本調査』です。 http://www.stat.go.jp/data/shugyou/2
Thunderbirdにはメッセージをスレッド表示させる機能が備わっています。 この機能を使うことでメッセージのやりとりを把握しやすくなるわけですが、このような表示はスレッドビュー内でチェックできるだけで、個別メッセージ単位では繋がりがちょっとわかりにくいですね。 あるメッセージをい開いた際、スレッドビューを見ること無く送受信の流れがわかるようになればさらに便利になるのではないでしょうか。 Thunderbirdにそんな機能を与えてくれるアドオンが「ThreadVis」です。 「ThreadVis」は、Thunderbirdでメッセージを開いた際、ヘッダ部にそのメッセージに関連するスレッドをグラフィック表示し、時間軸に沿ってどのようなやりとりがあったのかを簡単に把握することができるようになるというものです。 アドオンをインストールすると最初にウィザードが開くようになっていますので、まずはこ
This copy is for your personal, non-commercial use only. Distribution and use of this material are governed by our Subscriber Agreement and by copyright law. For non-personal use or to order multiple copies, please contact Dow Jones Reprints at 1-800-843-0008 or visit www.djreprints.com. http://jp.wsj.com/article/SB10001424052702304387404579307451353828272.html
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く