サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
装丁を味わう
d.hatena.ne.jp/isseing333
Rアドベントカレンダー2011の10日目ということで、私ことisseing333が記事を書かせて頂きます。ネタを何にしようかなと考えたのですが、せっかくなのでなるべく多くの方に役に立つ情報が良いなと思い、Kaggleという予測モデルを作るコンテストを紹介しようと思います。Rで手軽に予測モデル作りを試す1つのモチベーションにして下されば幸いです。 KaggleとはKaggleは様々な企業や組織が公募しているコンテストで、ユーザー登録するだけで誰でも簡単に投稿することができます。いろんなテーマがあり、学習用のデータ・当てはめ用のデータ(テストデータ)が配られています。学習用データで予測モデル(予測アルゴリズム)を作成し、それをテストデータに当てはめて、予測結果をKaggleにアップすると、その場で順位が計算されて表示されます。 1日に投稿できる回数は決まっていて、だいたい1〜2回のようです。投
第15回TokyoWebminigで発表させて頂きました。TokyoWebminingでの発表は確か2回目だったかと思います。前回は博士論文の一部で研究していた、KsPlotについての内容でした。KsPlotは大規模データで直接機械学習を当てはめるとき、時間がかかり過ぎて計算ができないので、データからサンプリングして予測精度を見積もるというものです。Rのパッケージになっています。今回の本題とは違いますが、こちらの資料も紹介させて頂きます。 第12回TokyoWebminingでの発表Tokyo webmining 第12回_201106_大規模データマイニングでのモデル探索手法:K-sample plot View more presentations from Issei KurahashiR-bloggersの記事RのKsPlotパッケージRのパッケージの方は海外の方から「使ってるよ!
「データマイニング」ってのは名前の通りデータから情報をマイニングする作業の事です。そのためにはデータをガリガリと泥臭く探索する必要があり、Rのようなスクリプトだけで実行していくには限界があります。そのために作られているのがデータマイニング用のソフトであり、SAS Enterprize MinerやSPSS Modeler、KNIME、Rapid Minerなどがあります。後の2つはバックエンドがRのソフトです。これらデータマイニングソフトの最大の特徴は、「データ分析の手順がフローになって可視化されている」点です。1日や2日でデータマイニングが出来るわけではなく、1つ(または1連)のデータをそれなりの期間をかけて分析することになります。そのため探索する量は自然と多くなり、スクリプトの場合は「どのコードで何をしたか」がひと目で分からなくなってきます。その点、解析手順が可視化されていると、「やっ
これまでの記事でも述べていますように、日本には統計学部というものがありません。海外では「Department of Statistics」というものがあります。海外の大学の構造は日本のように学部→学科→教室という階層になっておらず、大学にDepartmentが直接ぶら下がっているので、Departmentによって大きさは違います。ですが「統計」という名前で1つのDepartmentがあるのは大きなことだと思います。海外では統計学に精通してデータ解析を行える専門家を「統計家(Statistician)」と言います。日本では存在しない職業ですが、海外ではデータ解析の専門家として様々な分野で活躍しています。例えば次のような事を行うのが統計家です。銀行での信用リスクの開発保険会社でのリスクモデルの開発製薬会社での治験のデザイン、解析格付け機関での組織評価各種医療機関での疾病リスクの開発各会社のマー
グーグルやマイクロソフトが「次の10年で熱い職業は統計分析だ」と公言していますが、日本では統計学があまり浸透していません。IBMも分析できる人間を4,000人増やすと言っているみたいです(同記事)。 統計学は深堀りしようと思うと難しい学問ですが、ツールとして使って結果の解釈をするだけならそんなに難しくはありません。さらに世の中で必要とされているのに、取得している人は少ないのが現状です。 ニーズはあるのにこれだけ浸透していないのは何か理由があるはず!!というわけで私が日頃から感じている、「統計学の取得を妨げている10の弊害」を紹介します。 1. 同じ内容の手法なのに違う名前で呼ぶ数量化○類数量化I類→一般線形モデル数量化II類→判別分析数量化III類→主成分分析数量化IV類→多次元尺度法 数理的には全く同じだが「正確には考え方が違う」という理由で一緒に説明されないこともある正確には「主成分分
いろいろ勉強会やらなんやらで「どうやって予測モデルを作ればいいんですか?」って質問が多いので、ここで記録しておきます。統計モデルってのは、物理とかのモデルと違って正解が無いのが厄介でもあり、楽しいところでもあります。 基本的に最終的なモデルは線形式でビシッと書ける方がカッコいいですし、実装も簡単です。単純な線形モデルで如何に予測精度を上げるか?が統計家の腕の見せ所でもあります。 モデルを探索する作業が統計家にとって最も至福の時の1つですね!探索というと闇雲にやっているようにも聞こえますが、その探索作業にもいくつか手順があります。 1. 結果変数を定める予測したい対象を決めます。これが無いと始まりません。 2. 明らかに特性の違う集団を分ける性別、年代、職種、地域など。分け過ぎてもセグメントが多くなって手に負えなくなるので、グループ数は4つくらいが良いかも。特性が違わない、同じと仮定しても大
今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明
個人的にもやもやと考えたカリキュラムです。日本の大学には存在しない統計学部がもしあったら、こんなカリキュラムを組みたいなぁ、と。 統計学の講義は分布や変数の型を教えるところから入るんだけど、授業を受けていて分かりにくいな〜と学生の頃から常々感じていました。(あくまでも個人的な偏見と妄想に満ち溢れた記事であることをご了承ください。。) それでは、カリキュラムを発表します!! 1. データ解析I一般化線形モデル教師付き機械学習非線形モデル(一般化加法モデル)カテゴリカルデータ解析生存時間解析グラフィカルモデリング経時データの解析探索的データ解析(EDA)多次元データの縮約非教師付き機械学習(クラスタリング)データマイニング 2. データ解析IIデータハンドリングI(R)データハンドリングII(perl、rubyなどスクリプト言語)データベースからのデータ取得I(RDBMS系)データベースからの
統計マップについてです。統計マップという言葉があるわけではないのですが、統計解析や機械学習の全体観を付けるために役立てればなと思い作ってみました。特に初学者〜中級者向けに、全体観を掴んでもらえたらな〜と思っています。 「統計学=集計」というイメージを持たれてる方も多いかと思いますが、いろいろな手法を駆使してデータの情報を引き出すことが出来ます。ですがその説明が回りくどかったり、個々の手法の説明の分量が多かったりして、統計学が何をやっているのかなかなか理解できなかったりします。「分散分析と線形回帰は実は同じ」なんですけど、それを説明している日本語の教科書もあまり見当たりません。。。 手法の全体像を紹介している記事もあまり見かけませんので、自分の分かる範囲で説明できたらなと思います。 多少分類に不安がある手法もありますが、ムービーにまとめましたので、ご参考頂ければ幸いです(音楽付きなので音量に
このページを最初にブックマークしてみませんか?
『データサイエンティスト上がりのDX参謀・起業家』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く