タグ

関連タグで絞り込む (206)

タグの絞り込みを解除

統計に関するmkawanoのブックマーク (191)

  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
  • 子どもの読書に関するアンケートの実施について(姫路市立図書館ホームページ)

    市内小中学校20校に対し、小学校4年~6年、中学校1~3年の児童生徒を対象に、子どもの読書に関するアンケートの実施しました。このページはその集計と分析について報告いたします。 なお、アンケートに協力していただいた児童生徒のみなさん、実施協力くださいました小中学校の教諭の皆様にお礼申し上げます。 1 . 調査目的 近年、図書館など子どもの読書環境は、充分とは言えませんが整えられつつあります。また、読書の意義についての社会認識の高まりから、幼い頃からの絵などの読み聞かせを実施している家庭も多くなっています。しかし、一方で、2005年のOECDの学習到達度調査におけるPISAショック、子どもの活字離れ、公立図書館の児童貸出冊数の低下、学校読書調査における不読者層の増加など、子どもの読書を憂う状況が報告されています。 年度、子ども読書活動推進計画(第二次)を策定するにあたり、図書館では子ど

  • 世界が求める「統計家」という人材 - Issei’s Analysis 〜おとうさんの解析日記〜

    これまでの記事でも述べていますように、日には統計学部というものがありません。海外では「Department of Statistics」というものがあります。海外の大学の構造は日のように学部→学科→教室という階層になっておらず、大学にDepartmentが直接ぶら下がっているので、Departmentによって大きさは違います。ですが「統計」という名前で1つのDepartmentがあるのは大きなことだと思います。海外では統計学に精通してデータ解析を行える専門家を「統計家(Statistician)」と言います。日では存在しない職業ですが、海外ではデータ解析の専門家として様々な分野で活躍しています。例えば次のような事を行うのが統計家です。銀行での信用リスクの開発保険会社でのリスクモデルの開発製薬会社での治験のデザイン、解析格付け機関での組織評価各種医療機関での疾病リスクの開発各会社のマー

  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • 言語研究者のための統計の学び方―より高度な内容|Colorless Green Ideas

    はじめに 先日、「言語研究者のための統計の学び方―基礎を身につける」という記事で、統計の基礎の学び方を紹介した。そこで紹介したことを学ぶだけでも、結構色々な言語研究ができる。だが、もう少し腰を入れて言語研究をする場合は、統計に関して、より高度な内容を学んでおく必要がある。 今回は、統計の基礎を学び終えた言語研究者が次にどう勉強していけば良いかについて紹介する。 この記事で扱う内容 先日書いた「言語研究者のための統計の学び方―基礎を身につける」という記事では、統計の基礎をどう勉強すれば良いかについて触れた。今回は、より高度な内容を学ぶためにはどうすれば良いかについて紹介したい。図示すると、以下のとおりになるだろう。 言語研究者のための統計の学習順序 上に掲げた図からも分かるように、今回扱う内容は、「コーパス処理向け」・「言語実験向け」・「言語教育向け」の3つに分かれている。このように分けた

  • 言語研究者のための統計の学び方―基礎を身につける|Colorless Green Ideas

    総和 総和と言っても、ピンと来ない人もいる。要するに与えられた規則に基づいて、数を足していくだけの話なのだけれども、慣れないとどういったものだか分かりづらいところがある。 総和記号の使用例 \[ \sum_{n=3}^{7} 2i = 2 \cdot 3 + 2 \cdot 4 + 2 \cdot 5 + 2 \cdot 6 + 2 \cdot 7 \] いずれにせよ、統計の教科書では、総和の記号がよく出てくるので、総和記号の取り扱いに把握しておくと統計が理解しやすくなる。高校の教科書だと、普通、数列について扱っている章に載っている。 組み合わせ論と確率 組み合わせ論と確率については、統計の入門書にもしっかり載っているので、特に力を入れる必要はないと思う。「そう言えばこんな感じなのだな」と、軽く確認するだけで十分だ。 対数 言語現象は対数の形で表されることが多いので、しっかり把握しておくこ

  • 院ゼミコラム(4):統計分析の腕を磨いておく - KogoLab Research & Review

    統計分析は確かに面倒だ.勉強しなくてはならないこともたくさんある.避けて通りたい気持ちもわかる. しかし,誰であれ科学的研究をする者は,データを収集し,それを分析することで何かを明らかにするしか方法はないのだ.科学の方法はそれしかない. とすれば,今あなたの手元にあるデータが貴重なものであればあるほど,統計分析をしたくなるのではないか? 時間をかけ,手間をかけ,苦労して集めたデータを,ただの平均値で示していいのか? 「平均するとこれだけの違いでした」というような小学生でもできる方法で終わりにしていいのか? あなたのデータを,さまざまな切り口で分析すれば,いろいろなことを明らかにする可能性があるとしたら,なぜそれをしないですませようとするのか? それはデータへの冒涜ではないのか? 自分が苦労して集めたデータを,自分の手で貶めているようなものではないか. 自分のデータが貴重なものであればあるほ

    院ゼミコラム(4):統計分析の腕を磨いておく - KogoLab Research & Review
  • Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜

    今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明

  • こんにちは統計学:Pythonによるχ2乗検定・t検定・U検定・分散分析・多重比較・相関係数の計算

    プログラミング言語PythonCGIに使った統計計算プログラムです。 とくに難しい設定は必要なく、ただデータを貼り付けるだけです。 心理検定などで統計計算が必要な方は、お試しになってみてください。 どんなときに、どんな統計分析を使うのか?

  • mixi, Twitter, Facebook 2011年4月最新ニールセン調査 〜 デモグラフィック分布比較もプラスしました:In the looop:オルタナティブ・ブログ

    mixi, Twitter, Facebook 2011年4月最新ニールセン調査 〜 デモグラフィック分布比較もプラスしました 5月18日に、2011年4月度のニールセン・インターネット視聴率が発表された。震災の影響でソーシャルメディア活用が劇的に増加した3月と比較すると、4月度は3サービスいずれもアクセスを減らしたことがわかった。なお、3.11大震災とソーシャルメディアの関連性については、下記記事を参考にしてほしい。 ・ 3.11 ソーシャルメディアの光と陰、これからのこと (2011/4) データ元は、ネットレイティングス社提供によるインターネット利用動向調査「Neilsen/NetRatings NetView」サービス。対象は「一般家庭および職場のPCユーザー」としている。 利用者数でいくと、mixiは1251万人(前月比95%)、Twitterは1549万人(同88%)、Face

    mixi, Twitter, Facebook 2011年4月最新ニールセン調査 〜 デモグラフィック分布比較もプラスしました:In the looop:オルタナティブ・ブログ
  • 質的研究と量的研究について - 社会学者の研究メモ

    とある出版企画でそういうお話を書かなければいけないので、社会学におけるいわゆる「質的研究」と「量的研究」の区別についてメモを書いておく。 結論から言うと、次のように考えるとミスリーディングである。つまり、「まずある<理論>があって、それを<実証>する手段として質的な研究と量的な研究がある」という考えである。こういう考え方は、混乱のもとであるから、避けたほうがよい。多くの社会調査論のテキストでは調査手段の選択として「質的調査」と「量的調査」を選択することがあるかのように書かれているが、少々説明不足である。そうではなく、さしあたり量的研究とその他のタイプの研究が、量的研究とどのような関係にあるのか、と考えたほうがスッキリする。 分野外の研究者からすれば見えにくいが、実際には量的研究と言っても様々である。が、現状からして、「複数のパラメータを含むモデルを構築し、それをデータに当てはめて統計学的推

    質的研究と量的研究について - 社会学者の研究メモ
  • はてなブログ | 無料ブログを作成しよう

    思いは言葉に。 はてなブログは、あなたの思いや考えを残したり、 さまざまな人が綴った多様な価値観に触れたりできる場所です。

    はてなブログ | 無料ブログを作成しよう
  • asahi.com(朝日新聞社):7勝7敗なら千秋楽の勝率75% 八百長、統計で証明? - スポーツ

    角界を揺るがす八百長疑惑。日相撲協会の放駒理事長は2日の会見で「過去には一切なかった」と述べたが、11年間の星取表を調べ上げ、八百長の存在を統計的に示した2002年の学術論文が改めて注目を集めている。  米シカゴ大のスティーブン・レビット教授(経済学)らは1989年から2000年までの十両以上の取組3万2千回以上を調べた。7勝7敗で迎えた力士の千秋楽での勝率は75%にもなった。  勝ち越しをかけた一番で勝率が上がるのは八百長ではなく、力士が必死になるからという説明もあり得るが、同じ相手と次の場所以降で対戦したときの勝率は4割程度に下がっていた。  教授らは、わざと負けることで借りを返したと分析。ただ、統計的には返し切れたとは言えず、残る分は金銭で埋めたのでは、とした。  勝ち星の数が番付に与えた影響を調べると、8勝した力士は平均約7枚昇格、7勝だと約4枚降格、差は11枚分だったが、9、1

    mkawano
    mkawano 2011/02/05
    誰か調べてないかなぁと思ったが、やっぱいた!いい仕事だ。
  • 「若者による犯罪が増えている」という感覚、マスコミが原因なの?:シロクマ日報:オルタナティブ・ブログ

    若者による犯罪が減少傾向にあります。過去10年間の上半期の刑法犯少年検挙人員および人口比(同年齢層人口1,000人当たりの検挙人員)をまとめた警察庁の資料によれば、検挙人員数は平成15年以降の8年連続で、同人口比は平成17年以降の6年連続で、それぞれ前年を下回っています: ■ 刑法犯少年の推移(上半期) (こちらの資料から転載しました) また通年の結果で見ても、刑法犯少年の数は平成16年~21年まで6年連続で減少(22年についてはまだ発表されていません)。だからと言って犯罪を犯す少年が何万人もいて良いわけではありませんが、少なくとも減少傾向にあることは統計データから明らかになっているわけですね。 一方で先日、こんな記事がネットで注目を集めていました: ■ 少年非行、減少の実感なし 内閣府の世論調査 (47NEWS) 少年の刑法犯が減り続け、周囲で子どもの非行をあまり見聞きしていないのに、少

    「若者による犯罪が増えている」という感覚、マスコミが原因なの?:シロクマ日報:オルタナティブ・ブログ
    mkawano
    mkawano 2011/01/31
    一次情報を見ることが大事
  • ネットの海はあまりに広大、TwitterやYouTubeなどの膨大なデータ量をまとめたイラスト

    by ?儿?? ここ数年で一気に身近になったネットサービス上でやりとりされている情報量を端的に示した図が紹介されていました。 Twitter上で毎分何件つぶやかれているかであるとか、Facebookの総利用者数を合わせたら大国の人口に匹敵するであるとか、なかなか面白いまとめ方がされていて、身近なネットサービスに対する見方がちょっと変わりそうなものとなっています。 TwitterやFacebookなどで交わされている情報量については以下から。The Awesome Size Of The Internet (Infographic) | The Roxor | Design blog for resources and inspiration まずはインターネット全体の話から。全世界で19億人がインターネットを使っていて、その内の42%がアジア在住。アジア住民の表現がちょっとベトナムチックで

    ネットの海はあまりに広大、TwitterやYouTubeなどの膨大なデータ量をまとめたイラスト
  • 第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT

    今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部) 統計解析の必要性とリテラシー 21世紀になって、経営学者の故ピーター・ドラッカー氏が言うところの知識労働者は、ますます統計解析を必要する局面が増えてきました。この状況は、20世紀後半から21世紀に起きた計算機能力の増大とインターネットの発展を基礎に、3つの大きな潮流が現れたことがキッカケとなっているように思います。その3つの潮流とは、オープンソース、オープンデータ、そしてオープンアイデアです。後ろの2つは今筆者が名付けました。 オープンソースは、皆さんがご存知のように、Linux、Apache、PerlPythonRubyなどのO

    第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT
  • なるほど統計学園TOP

    はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!

  • 【エッセイ】因果と相関の取り違え - Ylab 東京大学 山内研究室

    asahi.comに以下のような記事が掲載されました。 農薬摂取で「子の注意欠陥・多動性障害増える」 米研究 この研究は、Timeのサイトでも紹介されていますが、タイトルの差が気になりました。 Study: A Link Between Pesticides and ADHD 朝日新聞の表現「AでBが増える」は因果関係を意味しますが、Timeの"Link Between A and B"は、相関しか指し示していません。 小さいことにこだわっているようですが、この差は研究では重大な意味を持っています。相関(AとBが関係している)は因果(AのせいでBになる)を保証しません。Timeの記事では、メディア接触状況などの環境要因が複合的に関係している可能性も指摘されています。 今回の研究のような疫学的な方法では、直接的な因果関係を立証することはできません。このことは、Timeの記事にも以下のような記

    mkawano
    mkawano 2010/05/26
    やはり科学リテラシーが大事。
  • 問:史上最も有名で、最も戦闘的だった統計学者は誰か? 答え:ナイチンゲール

    意志決定する人たちが数字に弱い。 基的に、四則計算しか/もできない。 かけ算割り算(それと按分ってやつ)に大小比較が、今でも最高の意志決定手段だったりする。 どれだけたくさんデータを集めても、平均値しか求めない(し知らない)。 かつて広大な領土を持つロシアでは、統計は非常に重要視された。 ほとんどのケースで「この目で見る」ことがかなわぬ状況で、統計の活用は(マイクロソフトのビル・ゲイツがそうだったように/例えば電気料金の詳細データから、照明がついている=それぞれの事務室が使用されているのべ時間を割り出し、各セクションの仕事の進捗具合や、人材の過不足を知った)、しゃぶりつくすまで徹底的に活用された。 でなければ、統治は不可能だった。 そのロシアとサルデーニャが組み、フランス、オスマン帝国およびイギリスを中心とした同盟軍と戦った。 戦闘地域はドナウ川周辺、クリミア半島、さらにはカムチャツカ半

    問:史上最も有名で、最も戦闘的だった統計学者は誰か? 答え:ナイチンゲール
  • TAKENAKA's Web Page: 有意性検定の無意味さ

    The Insignificance of Statistical Significance Testing 統計学的な有意性検定の意味のなさ Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing. Journal of Wildlife Management 63(3):763-772. Jamestown, ND: Northern Prairie Wildlife Research Center Home Page. http://www.npwrc.usgs.gov/resource/1999/statsig/statsig.htm (Version 16SEP99). この論文の存在は, 久保拓弥さん(北大)の ページで知りました. The Wildlife Soci