statisticsに関するkokorokaraのブックマーク (53)

  • ぼくは「モンティ・ホール問題」がよくわからない。 - 山形浩生の「経済のトリセツ」

    10月24日に、Change to Hopeというイベントがあって、スティーブン・ピンカーが来日して基調講演をする……予定だったのがコロナで来れずオンラインになってしまったんだが、ぼくがその司会役、というか質問係をおおせつかったのでした。 www.change-to-hope.com で、これは新著『人はどこまで合理的か』をベースに最近のネタを散りばめる講演で、ぼくも付け焼き刃でざっと読んでみました。基は、人はいろいろ数学パズルみたいなものにごまかされて合理性を発揮しにくくなる部分があるのだ、という話や経済学的な合理性の話などで、あとは合理性がいかにしてこれまでの人類の発展を率いてきたか、これからも理性をちゃんと使ってがんばらないといけないよ、というもの。一般向けの講義をまとめたものだそうで、人によっては知ってる話ばかりでつまらないかもしれない。まったく知らなかった目新しい話はない。類書

    ぼくは「モンティ・ホール問題」がよくわからない。 - 山形浩生の「経済のトリセツ」
  • 人間参加型(human-in-the-loop)機械学習とは?

    This domain may be for sale!

    人間参加型(human-in-the-loop)機械学習とは?
  • 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita

    Pythonスクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~Pythonスクレイピングpandasデータ分析 やりたいこと はてなブックマークで、Python記事を検索しトレンドを分析 はてなブックマークにSeleniumでログイン ブックマーク数をスクレイピング 時系列比較を行う バズるタイトルを分析 実装方法 詳しくは下記記事を参考にしてください。Pandasを利用したデータ分析まで載せています。 【Pythonスクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ 実装 from selenium import webdri

    【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • 意外と深い「平均」の世界

    2016年4月28日ロマンティック数学ナイト@六木で発表したときの資料です。相加平均,相乗平均,調和平均を一の線で結びます。また,その他にも興味深い平均をいくつか紹介し,それらも別の線で結びます。Read less

    意外と深い「平均」の世界
  • 出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“本当の確率”を読み解いてみよう

    出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“当の確率”を読み解いてみよう ライター:宮里圭介 まったく確率表示をしていなかったり,レア度別の確率のみ表示したりと,タイトルによって対応はさまざまだ スマートフォン向けゲームに欠かせない存在となっている「ガチャ」。お目当てのキャラやアイテムを引き当てたときの嬉しさは格別だし,結構な額のリアルマネーを使ったあげく,ハズレばかりだったときの悔しさもまたかなりのものだ。 すべては運にかかっているので,プレイヤーが頼りにできるデータといえば,公開されている出現確率ぐらいだろう。以前はその確率が公開されていないゲームが多かったが,最近は業界として確率表示を進める動きが強まっており,人気タイトルの「グランブルーファンタジー」でも,日(2016年3月10日)から装備品個別の出現確率が表記されるようになる。 だが,確率が明らかにな

    出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“本当の確率”を読み解いてみよう
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • ヒットチャートではわからない「真のヒットソング」が音楽配信サービスの統計から浮き彫りに

    By Jeff Blum 1900年代半ばにラジオやレコードが普及して以来、多くのヒットソングが人々の心を惹きつけてきました。時代ごとに「名曲」と呼ばれる楽曲が歴史に名を残してきたわけですが、それらの楽曲が実際にどの程度聞き続けられているのかを把握することは非常に困難なものでした。 しかし、ネットを使って音楽をストリーミング配信するサービスの登場により、その状況は変化しつつあります。2006年にサービスを開始した世界最大級のユーザー数をほこる音楽ストリーミングサービスのSpotifyの再生回数をもとにした統計をとると、「名曲」とはまた別の、当に長く聴き続けられている「真のヒットソング」が別に存在していることが見えてきています。 THE MOST TIMELESS SONGS OF ALL-TIME http://poly-graph.co/timeless/ さまざまなデータにもとづいて

    ヒットチャートではわからない「真のヒットソング」が音楽配信サービスの統計から浮き彫りに
  • 今後のメディアを考えるうえで知っておきたいデータ10選 - メディアの輪郭

    日々、いろんな海外メディアの情報を追っているのですが、改めて日におけるメディア関連データで気になるものを足下から整理しようと思い、調べてみました。 1. スマートフォンの所有率 (出典:ビデオリサーチインタラクティブ | プレスリリース) 昨年の時点でガラケーの所有率をスマホが上回っていたようですが、今年はさらに差が広がっていますね。特に女子学生(85.2%)、男子学生(78.3%)のスマートフォン所有率が高いとのことです。タブレットもじわじわ増えています。 2. スマートフォン加入者数 総務省によれば、日にはインターネット利用者数が9652万人いるようです。また、IDC Japanの2013年~2017年の国内スマートフォン加入者数予測によれば、2014年には6277万人に、2015年には約7000万人がスマホを持つことになりそうです。 3. スマートフォンの利用場所とシーン ヤフー

    今後のメディアを考えるうえで知っておきたいデータ10選 - メディアの輪郭
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • 機械学習とかに使えそうなデータセット - pixyzehn blog

    photo by Régis Gaidot データセットとかの知見を集めました。 いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。 これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。 奥 健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用されているのを見かけました。 注意点としては ・EachMovieなどは利用できない ・MovieLensやDelicious、Last.fmはdat形式のファイル ・WikiLensはdumpして使うようにされている ・Book-Crossingはcsvsql ・jesterはExcelファイル ということです。 それ以外だと ようこそ - the Datahub 情報学研究データリポジトリ データセット一覧 livedoor グルメの研究用データセットです。 20

    機械学習とかに使えそうなデータセット - pixyzehn blog
  • Python と R で連携する - Qiita

    R と Python の連携を考える 最近 R による基的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス

    Python と R で連携する - Qiita
  • バイオ系研究室PC管理担当のメモ

    バイオ系研究室PC管理担当のメモ

    バイオ系研究室PC管理担当のメモ
  • 社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久

    今日は、マーケティングや企画に携わる社会人なら知っておきたい、というよりは、知らないと恥ずかしい、無料で利用できる公的統計データのポータルサイト「e-Stat」の情報と、新しい統計データが自動的に飛んでくる「統計メールニュース」の情報をお届けします。 すでに6月も下旬。新入社員の方も配属部署が決まってバリバリ働いていることだと思います。 マーケティングや企画の仕事をする人にとって、調査データというのは大切なもの。 ネット上で発表される「○○のサービスのユーザー数が○○万人」なんて調査データ、みんな好きですよね。Googleトレンドのような検索ボリュームの情報や、どのブラウザがどれぐらい使われているかといった調査データも人気です。 どれも無料で入手できるデータですが、実は税金でちゃんとした手法でつくられている、質の高い調査データというのが、あるのです。 それが、政府の出している統計データ。

    社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久
  • 統計解析 & R言語超初心者入門資料まとめ

    興味を持ち続けていた統計解析や、R言語の勉強をはじめました! まだまだ初歩の初歩ですが、この記事がいつか偉大な一歩になれるように頑張っていく所存ですw まずは、R言語や統計解析に関する入門記事や、モチベーションがアップしそうな記事をまとめていきます! (02/23 11:00) 初学者の人にお勧めな資料にフォーカスしてまとめ直し 🍮 [スライド] 統計学入門 統計学の全体像をつかむのに最適なスライドです。初歩…とはちょっと呼べないくらい内容が深いです! 🏈 [スライド] 初めての「R」 統計解析を始めるときにWindowsな方も、Macな方もとっつきやすのが『R』です。このRを完全初心者をターゲットに説明をしていただけている資料です。超わかりやすいです! 🍄 [デスクトップアプリケーション] R用のIDE: RStudioRStudio RStudioはR言語用のIDEです。Wind

    統計解析 & R言語超初心者入門資料まとめ
  • データビジュアライゼーション・ツール20選 – lab.sugimototatsuo.com

    この記事はThe top 20 data visualisation toolsの原著者許諾済みの日語訳です。 By Brian Suda on September 17, 2012 Translated by Tatsuo Sugimoto 2014年4月28日更新:オリジナル記事が以前のサイトから移転したため発生していた画像の非表示に対応しました。 わたしがもっともよくきかれる質問のひとつが、データビジュアライゼーションを始める方法についてです。このブログの先へ進むには、練習し、さらに実践し、利用できるツールを理解する必要があります。この記事では、シンプルなチャートから複雑なグラフ、地図、インフォグラフィックスまで、ビジュアライゼーションを作成するための20種類のツールを紹介しようとおもいます。ほとんどのツールは無料で利用でき、そのうちいくつかはすでにインストール済みかもしれません。

    データビジュアライゼーション・ツール20選 – lab.sugimototatsuo.com
  • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

    はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rのを注文しまくってたりしていたら、下のようなの山が出来てしまいました。 これらのを付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )