タグ

Rに関するpugleeのブックマーク (17)

  • 【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! - 黄昏より暗きもの、血の流れより赤きもの

    2015-12-06 【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! R 確率 統計 イベントレポート 今日は東京の銀座のリクルート GINZA8 11Fホールにて行なわれた「Japan.R 2015」へ行ってきた感想を書こう。 イベントはR言語と言うプログラムを使って、確率統計・機械学習と言った数学的なプログラムを組み、ある物事の傾向を調査してみた。あるいはそれらを有利に進める為のツール群の発表が行なわれていた。今日は、その中で自分が特に面白かった発表をまとめてみたい。CET(Capture EveryThing)プロジェクトにおける 機械学習・データマイニング最前線(高柳氏) 自社のデータ分析基盤やそれらの取り組みについて発表。コールセンターのログを見る。つながりにくい時間帯を掴んで、つながりやすくすると言ったことにFluentdを活用

    【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! - 黄昏より暗きもの、血の流れより赤きもの
  • 箱ヒゲ図--boxplotを使う

  • Rによるサポートベクターマシン解析

    仮想的なデータセットとして、Rにデフォルトでインストールされているデータセット 'iris' を用いる。データセットには、150標のアヤメの萼片の長さ (Sepal.Length)、萼片の幅 (Sepal.Width)、花弁の長さ (Petal.Length)、花弁の幅 (Petal.Width) という4種類からなる各標の特徴量とその特徴量を持つアヤメが属する種 (Species)、すなわち、'setosa'、'versicolor' および 'virginica' という3種類のラベルの情報が格納されている。このirisデータセットから全標の96%、すなわち144標 (150*0.96) をトレーニングデータセットとして分類器を作成し、残りの6標をテストデータセットとして、それらの標が属する種を予測する まず、以下の1行目のコマンドで1~150の整数から144個の整数をピ

    puglee
    puglee 2015/01/07
    Rを用いた分析例として参考になる.
  • パッケージユーザーのための機械学習(3):サポートベクターマシン(SVM) - 渋谷駅前で働くデータサイエンティストのブログ

    (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) PythonでSMO-SVM書き下すという宿題がまだ終わってないくせにこれ書いていいのか物凄く迷うんですが(笑)、R Advent Calendar 2013の12月6日分第6回の担当に当たっているのでついでに書いちゃいます。 なのですが。実はその12月6日は米ネバダ州・タホ湖畔で開催中のNIPS 2013に参加中*1でupできるかどうか分からない*2ので、タイムスタンプ変えて予めupさせてもらいました。ルール破っちゃってごめんなさい。。。 ということで、今回の参考文献はこちら。未だに評は分かれるみたいですが、僕が推すのはいわゆるSVM赤こと『サポートベクターマシン入門』です。 サポートベクターマシン入門 作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,Jo

    パッケージユーザーのための機械学習(3):サポートベクターマシン(SVM) - 渋谷駅前で働くデータサイエンティストのブログ
  • Rと因子分析

    因子分析(factor analysis)は、多くの変数により記述された量的データの分析方法として、1904年にスピアーマン(Spearman)によって提案された。 因子分析で扱うデータの形式は主成分分析と基的には同じであることから、同じ場面に利用されることが多いが、手法の開発の出発点は全く異なる。 主成分分析では、変数の間の相関関係を用いて、無相関の合成変数を求めることで多くの変数を少ない変数に縮約するが、因子分析は、変数の間の相関関係から共通因子を求めることで、多くの変数を少数個の共通因子にまとめて説明することを目的としている。 因子分析は、観測データにおける変数の間の関連成分をまとめたものを共通因子(common factor)と呼び、他の変数と関係がなく、その変数のみ持っている成分を独自因子(unique factor)と呼ぶ。因子分析では、観測データはお互いに関連性を持っ

    puglee
    puglee 2014/06/16
    SPSS みたいな高価なソフトウェアを使わなくても良い...のかな?
  • Rによるアソシエーション分析 - Qiita

    相関ルール 頻出するアイテム間の何らかの組み合わせの規則をアソシエーションルールと呼ぶ。アソシエーションルールは連関ルール、関連ルール、相関ルールなどと呼ばれます。 「商品Aを買うと商品Bも買う」のようなルールを見つけ出すことを目標としています。 今回の例は、掃除機の購買動機に繋がる不満要素の組み合わせです。 これを特定し、その中でも特に強い不満点を解明して、商品開発に貢献させることを目標とします。 アンケートの設問 設問の形式 チェックボックス系の複数回答形式の設問 回答データ 水平展開形式のデータ サンプル毎に複数の設問への回答が存在し、1サンプル1レコードの形式であること。 集計データ 予め用意できるのであれば、SQLなどで集計データを作成しておくとグラフが描きやすくなります。 (※そこまで準備しなくとも、Rで図を出すことは可能です。) ※しかし、この表では集計されてしまっているので

    Rによるアソシエーション分析 - Qiita
  • 10分で分かるr言語入門ver2 6

    HiRoshima.R #4 での阪上が担当した LT 「R で英語のデータを分析してみるー基礎編」の資料です。 英語コーパス学会等のお座敷で使用したものを,SnowballC パッケージの情報を更新する形で,再利用しています。

    10分で分かるr言語入門ver2 6
    puglee
    puglee 2014/06/08
    いつまでたっても初心者なので助かるかも...
  • seekR - 統計分析ソフトウェア R のための検索エンジン

    統計分析ソフトウェア R のための検索エンジンです。R 言語に関する内容に特化した検索結果を表示します。

  • Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 - Qiita

    出力結果 概要 RでTwitterユーザー間のフォロー/フォロワー関係を調べる。 手始めに、指定ユーザーのフォローリストを取得しグラフ化する。 作業 下記ページの作業を行った。 -> Mining Twitter with R - Tutorial 1: Building a corpus from Twitter data - YouTube ※英語注意。台詞は聞き取れなくてもOK。映像だけ見れば、何をやればいいかは分かる。 コード library(ROAuth) library(twitteR) library(igraph) #【認証処理】 # 設定情報を取得 twit.consumerKey <- "<あなたのTwitter-API key>" twit.consumerSecret <- "<あなたのTwitter-API secret>" # 証明書を取得 setwd(temp

    Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 - Qiita
  • Rクイックリファレンス 第2版

    統計分析の標準ツールとして不動の人気を誇るオープンソースソフトウェアRについてのリファレンス。Rの基操作から、パッケージの詳細、コマンドや関数の一覧、さらには可視化、最適化、並列化など、Rをさらにパワーアップさせるテクニックまで、幅広いトピックを取り上げます。Rの持つ機能を詳しく解説しつつ、Rの可能性を追求する一冊です。圧倒的な情報量を誇り、初心者にも上級者にも有用な情報が満載です。Rユーザにとっては常に手元に置いておきたい一冊です。 はじめに 第I部 Rの基 1章 Rの入手とインストール 1.1 Rのバージョン 1.2 Rのバイナリの入手とインストール 2章 Rのユーザインタフェース 2.1 RのGUI 2.2 Rコンソール 2.3 バッチモード 2.4 Microsoft ExcelでRを使う 2.5 RStudio 2.6 Rを走らせる他の方法 3章 R超入門 3.1 Rの基

    Rクイックリファレンス 第2版
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • R言語で統計解析入門: 目次1 テクニカルデータプレゼンテーション  梶山 喜一郎

    Technical Data presentation in R コピペで学ぶ Rでテクニカルデータプレゼンテーション 1.基礎統計解析編 グラフィックス・リテラシ-教育: 「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア 福岡大学工学部図学教室   梶山 喜一郎 ・つまみいで,学習しないように願います. ・データの可視化を体系・系統だったスキルにするために順を追って学習する. ・統計ブームに乗っている学習者も先人に感謝の気持ちを.さらに, ・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認. A. はじめに--ここは統計・解析の必要を味わった後で読めばよい まず,統計の手続きを実行する.慣れたら統計的に考えよう. 学校の統計学を復習--買った教科書とノートをまた読むだけ a. 測定と尺度 Measurement and scale b. 記述統計学の

    puglee
    puglee 2013/05/02
    随分以前にブックマークに入れていたのに忘れていた...
  • 統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む

    『アート・オブ・Rプログラミング』の日語訳が出たので早速買いました。 細かい仕様の解説が多くちりばめられていて結構いい感じです。 プログラミング初心者向けではないですが、他の言語になじんでる人が R に入門したい場合には、他の入門書よりもこっちを読んだ方が手っ取り早いのではないかと思います。 例えば、下記のように、他言語との比較による解説が各所に見られます。 他のスクリプト言語の経験がある読者は、Python での None や Perl での undefined などの「存在しない」値を知っているかもしれません。実は、R にはこのような値が2つあります。NA と NULL です。 http://www.amazon.co.jp/gp/product/4873115795 さて、今日はこのの 1.7.4 節からの話題です。 統計言語 R には、公式ヘルプが付属しており、例えば平均値を計

    統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む
  • EMアルゴリズムによる混合分布のパラメーター推定の解析計算&実装例 from 「Rによるモンテカルロ法入門」 - My Life as a Mock Quant

    問題設定 R言語の書籍「Rによるモンテカルロ法入門」 のEMアルゴリズムに関連した「練習問題5.14」をpthonの練習がてらEMアルゴリズム構築までの数式もメモりながら解いてみたというお話。問題設定としては という混合分布(分布から確率、分布から確率でサンプリング)から個サンプリングした状況を考えて、このパラメーターをEMアルゴリズムで推定するというもの。機械学習の分野でいう所の「教師なし2クラス分類」に該当する(たぶん)。 グラフを使ってもうちょっとちゃんと説明しておくと、実際に観察された青い棒グラフで示されているデータは赤色のグラフで示されているからのサンプルなのか、それとも緑色のグラフで示されているからのサンプルなのかを識別するための閾値的な量になっているというパラメーターを推定してましょうと、そして、既存のデータはのどちらの分布から来た可能性が高いのかを判断しましょうとそういう問

    EMアルゴリズムによる混合分布のパラメーター推定の解析計算&実装例 from 「Rによるモンテカルロ法入門」 - My Life as a Mock Quant
  • Rでt検定 1

    t検定の仮定 来,t検定には,さまざまな仮定が伴うものである。 各群の標が,いずれも正規母集団から得られたものであること(正規性) 各群の母分散が等しいこと(等分散性) したがって,t検定の実施に先立って,これらの仮定が成り立つかどうかを判断しなければならない。 そのために,正規性と等分散性について,それぞれ異なる検定を行う必要がある。 正規性の検定 2群のデータの分布が,正規分布に従うかどうかを検定する。 この目的には,Kolmogorov-Smirnov(コロモゴロフ・スミノフ)検定がよく用いられる。 Rでは,この頭文字をとって ks.test() という名前の関数が用意されている。 この検定の帰無仮説は「あるデータが,正規分布をなす」である。 したがって,P値が大きければ,正規分布であると判断できる。 > ks.test(x$A,"pnorm",mean=mean(x$A),sd

  • Rでisomap(多様体学習のはなし)

    1. Tokyo.R #14 Rでisomap (多様体学習のはなし) 2011年5月28日 Tokyo.R #14 Kohta Ishikawa (@_kohta) 1 2. Tokyo.R #14 アウトライン l  多様体学習って? l  線形と非線形 l  isomap l  実装してみた l  実務的な難しさ 2 3. Tokyo.R #14 多様体学習(manifold learning)? l  非線形な多様体(manifold)上に分布するような データの構造を学習する一連の手法 l  例えば、高次元空間に埋め込まれた実質的に低次 元な多様体を学習することで、非線形データの低次 元表現が可能になる l  データの分布構造が線形なら… l  主成分分析 (線形変換によって低次元でデータをよ く説明しようと試みる) l  因子分析 l  etc… 3 4.

    Rでisomap(多様体学習のはなし)
  • データマイニング+WEB 勉強会@東京 (Tokyo.Webmining) |Google Groups

    データマイニング+WEB@東京 (TokyoWebmining) 主催者の濱田晃一 (id: hamadakoichi)です。 日 2017/10/28(土) 、 「第60回 データマイニング+WEB

  • 1