タグ

統計に関するshmachidのブックマーク (26)

  • リフトチャート(LiftChart)を使ったモデルの評価

    こんにちはシバタアキラです。いつも予測モデルの値踏みをして生きています。告知ですが、「カステラ」として知られるデータサイエンスの教科書を読む会を月に2度行っています。興味のある方はこちらから登録してください!イベント登録ページ 機械学習モデルの評価の方法に、DataRobotでよく使われているリフトチャート(LiftChart)というものがあります。実は私もデータロボットで働くまで知らなかったモデル評価方法でした。実は知らないのは私だけではなく、ほとんどのユーザーの方はリフトチャートを知らない上、インターネット上を調べてもほとんど情報がありません。さらにはリフトチャートには複数の定義があり、DataRobotで使われているバージョンを定義する文献はほとんどありません(累積反応曲線と言われる別のものをリフトチャートと呼ぶことがある)。一方でリフトチャートは、そのシンプルさにかかわらず非常に

    リフトチャート(LiftChart)を使ったモデルの評価
  • ESTRELA - 統計と情報の専門誌「エストレーラ」

    2020年代のGIS教育 中谷友樹 (東北大学大学院環境科学研究科教授) 高校教育でのGIS教育の実践から 石橋 生 (桐蔭学園高等学校地理科教諭) GIS学会 教育委員会のハンズオンセッションから 桐村 喬 (皇學館大学文学部コミュニケーション学科准教授) 相 尚寿 (東京大学空間情報科学研究センター助教) 2005年以降の日学術会議における地理教育と地図/GIS教育の展開 矢野桂司 (立命館大学文学部人文学科地理学専攻教授)

    shmachid
    shmachid 2016/01/09
    “統計と情報の専門誌「エストレーラ」”
  • ESTRELA連載記事「Rとウェブの融合」

    2014年7月号より、公益財団法人統計情報研究開発センターが発行する統計と情報の専門誌「エストレーラ」で、「Rとウェブの融合」と題して記事を連載しています。ウェブ上での記事公開の許可を頂いたのでここに公開します。なおウェブ公開記事は校正前の原稿なので誌上記事とは文章表現等が多少異なりますが、内容には変わりはありません。 Rとウェブの融合(1)ーrChartsの基礎ー (2014年7月号) Rとウェブの融合(2)ーrChartsの利用例ー (2014年8月号) Rとウェブの融合(3)ーrChartsの応用例ー (2014年9月号) 大規模データの高速処理 ーdata.table、dplyrー (2014年10月号) Rとウェブの融合(4)ーrmarkdownー (2014年11月号) Rとウェブの融合(5)ーslidify、R Presentationー (2014年12月号) Rとウェブの

  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • 東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas

    東京大学出版会から出ている『基礎統計学I 統計学入門』というがある。 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会. このは、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ) 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~) 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所) それでは、なぜこのはすすめられるのだろうか? そして、どういう人がこのを読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良いなのだろう

    東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas
  • 「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ

    石井准教授の作成した「統計解析ソフトRのスクリプト集」をオンラインで公開します。名古屋大学教育学部の「心理・教育の統計学」の授業で実際に使用されている教材です。学習・研究にご活用下さい。 2016.4.5 Ver. 4.0βを公開しました。棒グラフオプション、オメガ係数、効果量、標サイズの推定などの記述が加わりました。 2015.3.18 Ver. 3.0βを公開しました。記述統計量の算出の部分を統一的にしたのと、データ例を書籍にあわせて変えています。 2014.11.4 Ver. 2.2βを公開しました。 統計解析ソフトRのスクリプト集 (PDF) 下記のサイトでは、シラバスと講義資料が公開されています。あわせてご活用下さい。 「心理・教育の統計学」(名大の授業) 講義資料 (PDF) ーーー はじめに 石井秀宗 この冊子は,心理学や教育学の研究でよく用いられる統計手法に関して,統計解

    「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」

    R初心者向け講座「Rによるやさしい統計学第20章『検定力分析によるサンプルサイズの決定』」20140222 TokyoR #36Read less

    Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
  • 機械学習や統計に関する情報収集 - Qiita

    機械学習界隈の情報収集方法 http://d.hatena.ne.jp/kisa12012/20131215/1387082769 いきなりですが上記の記事に機械学習に関する有力な情報源がまとまっています。まずはここを参考にするのが良いかと思います。ただ情報が多すぎですので、筆者は Wikicfp と arXiv.org あたりの論文、それにはてなブックマークをチェックしています。 また論文については機械学習の論文を探すにも良い情報がまとまっています。こちらも参考になります。 機械学習は日進月歩の世界ですので、最新の査読済み論文を追って概略だけでも理解する能力を身に付けると良いかと思います。 書籍としては次の 2 冊が聖書とも言える必読書で、気で機械学習をやりたければ必ず参考になるかと思います。 パターン認識と機械学習 (上・下) http://www.amazon.co.jp/dp/4

    機械学習や統計に関する情報収集 - Qiita
  • インターネット白書ARCHIVES

    TIMEMAPとは TIMEMAPは、時間軸に着目した新方式の検索エンジンです。情報の新しい探し方や見方を提供します。 アーカイブ内の記事が時系列に整理された年表が作成でき、また連想検索による関連記事の閲覧も可能です。 詳しくはこちら→

    インターネット白書ARCHIVES
  • 統計解析 & R言語超初心者入門資料まとめ

    興味を持ち続けていた統計解析や、R言語の勉強をはじめました! まだまだ初歩の初歩ですが、この記事がいつか偉大な一歩になれるように頑張っていく所存ですw まずは、R言語や統計解析に関する入門記事や、モチベーションがアップしそうな記事をまとめていきます! (02/23 11:00) 初学者の人にお勧めな資料にフォーカスしてまとめ直し 🍮 [スライド] 統計学入門 統計学の全体像をつかむのに最適なスライドです。初歩…とはちょっと呼べないくらい内容が深いです! 🏈 [スライド] 初めての「R」 統計解析を始めるときにWindowsな方も、Macな方もとっつきやすのが『R』です。このRを完全初心者をターゲットに説明をしていただけている資料です。超わかりやすいです! 🍄 [デスクトップアプリケーション] R用のIDE: RStudioRStudio RStudioはR言語用のIDEです。Wind

    統計解析 & R言語超初心者入門資料まとめ
  • Internet 2012 in numbers

    There is so much happening on the Internet during a year that it’s impossible to capture it all in a blog post, but we’re going to give it a shot anyway. How many emails were sent during 2012? How many domains are there? What’s the most popular web browser? How many Internet users are there? These are some of the questions we’ll answer for you. To bring you these answers, we’ve gone to the ends of

    Internet 2012 in numbers
  • Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach

    Discover a faster, simpler path to publishing in a high-quality journal. PLOS ONE promises fair, rigorous peer review, broad scope, and wide readership – a perfect fit for your research every time. Learn More Submit Now

    Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach
  • Facebookの投稿内容から、性別や年齢を予測可能なコンピューターモデル

  • 【保存版】企画書に使いたい統計データが見つかる、調査レポートサイト厳選9個+α | Find Job ! Startup

    企画書には、市場規模・ユーザーニーズの裏付け等を説明するために調査データは入れたいところ。 ただ、資料作成で焦っている時ほど、検索しても良い情報が見つかりませんよね。そんな時は、今回ご紹介するサイトの中を覗いてみて下さい。スタートアップが投資家の方など社外向けに資料を作る時に、必ずや役に立つデータが見つかるはずです。 目次 【1】政府機関でデータを公開しているサイト(×2サイト) 【2】リサーチ会社の公開調査を横断的に探せるサイト(×3サイト) 【3】公開調査を見れる調査機関のサイト(×4サイト) 【4】自主調査の結果を公開しているリサーチ会社のサイト(+α) 【1】政府機関でデータを公開しているサイト 1.総務省統計局 総務省統計局のサイトでは、「国勢調査」「人口推計」から、「家計消費状況調査」「サービス産業動向調査」など様々な国内統計データが無料で閲覧できます。統計データ一覧はこち

  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm