とある弁当屋の統計技師(データサイエンティスト) 2 石田基広 : : 矢印キーを使ってスライドを進めてください → お願い
最終更新:2022年 11月 3日 (木曜日) このページでは,国際共同研究のオープンソースなプロジェクトで開発され,GNU GPLに従って公開,配布されている高機能な統計ソフトであるRについてのTipsを扱う。 Archives 保管庫インデックス 保管庫1(2004年1月まで) | 保管庫2(2010年6月まで) | 保管庫3(2014年5月まで) | 保管庫4(2015年6月まで) | 保管庫5(2015年12月まで) | 保管庫6(2016年12月まで) | 保管庫7(2019年12月まで) | 保管庫8(2020年1月から) 無料電子本 出版社の和書刊行方針変更により絶版になったので,その時点での最終版をpdfで無料公開している。中澤 港(2003)『Rによる統計解析の基礎』ピアソン・エデュケーション(virtual 9th ed.)と中澤 港(2007)『Rによる保健医療データ
改訂版(2015.11.28)ができました → http://www.slideshare.net/TakashiYamane1/rrstudioRead less
2. サイバー系 はじめに ※この発表は個人の 見解であり、所属す る組織の公式見解で はありません。 2012/8/4 1 3. サイバー系 自己紹介 和田 計也(@wdkz) 静岡県袋井市出身 サイバー系企業でデータマイニングエンジニア職 最近はレポーティング周りの仕事してます 前職はバイオベンチャー バイオマーカ探索してた 学生時代は枯草菌の研究 2012/8/4 2 4. サイバー系 私はこうしてRStudioに乗り換えました 従来 エディタ(EmEditor) + RGUI featuring コピペ 現在 RStudio 乗り換えた理由 括弧補完してくれたり、オブジェクトの一覧が表示され てるから迷子にならないし、data.frameの中を手軽に 見れるし、plot図何枚も保持してくれてるし... Rmarkdownで記述
(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや
RとRubyによるデータ解析入門買いました。 データマイニングとかいま流行ってて面白そうだなー、でもどこからはじめればいいのかなーって前々から思っていたんです。 そんなところにRとRubyを使ってデータ分析のやり方をいちから教えてくれる本が出たなら買うしかないですよね。 コマンド叩くだけでデータ解析が簡単にできちゃって、無意識のうちにニヤニヤしてしまい我ながら気持ち悪い毎日を過ごしています。 この本の素晴らしい点はRとRubyの環境を用意さえすれば、コマンドを実行するだけでデータ解析ができちゃう!!(気分にさせてくれる)ところです。 プログラミングや統計の知識がなくても大丈夫、あとでわからないところは勉強すればいいんです。 簡単にデータを生成&分析して、結果を視覚的に確認できるところがすごくいいなと思いました。 というわけで、手元のMacかLinuxが動くマシンを使って、データマイニングを
今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような
私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分が興味を持っている分野に関しては、レコメンドして欲しいと感じてます。 ありがたいことにはてなはAPIを公開しており、はてなブックマークの情報を比較的簡単に取得できます。そこでこのAPIを利用して自分に合った記事を見つけるようなレコメンド機能をRとPythonで作成してみたいと思います。 利用するデータは、はてなAPIを使って収集します。具体的には、はてなブックマークフィードを利用して自分のブックマークしているURLを取得し、そのURLをブックマークしているユーザをエントリー情報取得APIを用いて抽出し、そのユーザのブックマークしているURLを収集します。こ
頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター
R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基本統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK
RMeCabパッケージを使用して、RでMeCabを用いて、 形態素解析を行ないます。 そのために、まず MeCab をインストールする必要があります。 MeCab のインストールや設定についてはこちらに記載しております。 RMeCabパッケージを読み込みます。 RMeCabC()関数を使用して、文字列を形態素解析してみます。 文字列は何でもよいですが、 ここではとりあえず、どらちゃんの歌でも入力してみました。 こんな感じで結果が返されます。 次は、RMeCabFreq()関数を使用して、ファイルを読み込んでみます。 こちらは青空文庫から、 夏目漱石さんの「吾輩は猫である」を使用させていただいております。 青空文庫 夏目漱石 吾輩は猫である のページ 今回は関数の確認であるため特別な加工をせず、 単純にこのデータをテキストファイルにしています。 ダウンロードのところ
「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日本のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ
2013年4月20日(土)にニフティ株式会社のセミナールームで、第30回R勉強会@東京(#TokyoR)が開催されました。#TokyoRは、里洋平氏(@yokkuns) が主催しているR言語を学ぶプログラミングの勉強会です。今回は100名以上の参加希望があったため、補欠が出てしまったほどの人気イベントです。 そもそも R言語とは、統計処理を得意とする言語であり、データの解析や可視化などを比較的簡単に実行出来るツールです。 今回は、その人気イベントである第30回R勉強会@東京にお邪魔し、全5時間に渡るアツい内容をまとめてお届けします。またこちらの勉強会まとめ記事は、株式会社リクルートキャリアが運営する「CodeIQ(コードアイキュー)」のご協力で提供されております。 (当日のアジェンダ) それでは、各セッション内容のご紹介です。 初心者セッション1 「はじめてのR」 最初は、R歴三年・ビジ
「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日本のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く