タグ

rに関するbob3のブックマーク (237)

  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
    bob3
    bob3 2019/01/06
    Rのパッケージもあるようなので試してみる。
  • reticulateパッケージでPythonを使う - Qiita

    概要 reticulateパッケージはPythonを活用するRのパッケージ reticulateパッケージの使い方とライブラリ利用例を実行結果を提示して確認 試したライブラリはSentence Piece, Pytorch, AllenNLPなどは動作している (記事ではRを「パッケージ」とPythonを「ライブラリ」という風に書き分けています) 前書き 有用なライブラリがPythonで開発されているため使いたくなりますが、Pythonはわからない・書けないというRユーザーは未だに多くいらっしゃいます。 しかしながら、すでにあるPythonライブラリの関数にデータを適用した結果だけが欲しいのであれば、reticulateパッケージで事足りてしまうようです。 同様のパッケージには以前に紹介したPythonInRやrPythonなどがありますが、reticulateがリリースされてからは私は

    reticulateパッケージでPythonを使う - Qiita
    bob3
    bob3 2018/11/12
    Rからpythonを使う。
  • Tunnels and Trolls における TARO、DAROの出目の確率 - bob3’s blog

    昔、トンネルズ&トロールズ(Tunnels & Trolls, T&T)というTRPGがあって、最近「完全版」も出たんだけど、この中にTARO, DARO と呼ばれるルールがある。 トンネルズ & トロールズ 完全版 出版社/メーカー: cosaic発売日: 2016/09/24メディア: おもちゃ&ホビーこの商品を含むブログ (7件) を見る TAROは"Tripples Add and Roll Over"の略で「能力値決め等の際に6面体のサイコロを3個振ってその合計値を使うが、3個のサイコロの出目がすべて等しい場合(ゾロ目の場合)、もう一度3個のサイコロを振り、先の出た出目も合計値に足す。2回目もゾロ目だった場合はまた同様に振りなおして加える。ゾロ目が出なくなるまで繰り返す。」というもの。 最初の出目が「4,6,3」だった場合は、そのまま足し合わせて13。 最初の出目が「3,3,3」

    Tunnels and Trolls における TARO、DAROの出目の確率 - bob3’s blog
    bob3
    bob3 2018/01/07
    T&TのTARO、DAROの出目の出現確率を計算してみました。 #tntj #TunnelsAndTrolls #トンネルズアンドトロールズ
  • 高次元データを次元削減したうえでクラスターを真面目に検出する - 驚異のアニヲタ社会復帰の予備

    読んだ。 ClusterSignificance: a bioconductor package facilitating statistical analysis of class cluster separations in dimensionality reduced data Bioinformatics. 2017 Oct 1;33(19):3126-3128. オミックス解析などをすると複数パラメータの高次元データが得られるが、これをPCAやtSNE をして適当に次元削減して3次元プロットはよくする。 このとき、既にラベルが与えられている(病気の症例など)のを、3次元空間になったから目で見てそれっぽいクラスターになっているよね、と判断するのではなく、ノンパラメトリックに解析してクラスターが分かれていることを示すパッケージがClusterSignificance である。 いま、

    高次元データを次元削減したうえでクラスターを真面目に検出する - 驚異のアニヲタ社会復帰の予備
    bob3
    bob3 2017/10/11
    ClusterSignificanceパッケージ。非線形の一次元に落とし込んでクラスタの分かれ具合を見る? いじくってみないとよく分からんな…
  • 内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻 - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。ggplot2を使いこなすシャレオツな若い人を見ると自分の老いを感じる今日このごろです。 さて。 今回は、「説明変数と誤差項に相関がある」とはどういうことか、について見ていきたいと思います。 経済学系の統計解析のを読んでいると「内生性」という概念がよく出てきます(経済学系でない分野においては、「交絡」と呼ばれるものに実務上はおおむね対応する概念と言えます)。 この「内生性」の説明としては、例えば: 計量経済モデルにおいて、説明変数と誤差項との間に相関があるときに、内生性(endogeneity)があるという。このとき、説明変数は内生的(endogenous)であることになる。説明変数が内生的であれば、推定されたパラメータは一致推定量ではなくなり、推定値は統計学的に信頼されるものとはなりえない。 のように説明されます(内生性 - Wikipediaより引用*1。強調

    内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻 - Take a Risk:林岳彦の研究メモ
    bob3
    bob3 2017/09/27
    「ggplot2を使いこなすシャレオツな若い人を見ると自分の老いを感じる今日このごろです。」はい。
  • GitHub - koheiw/workshop-IJTA: Rによる日本語テキスト分析入門

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - koheiw/workshop-IJTA: Rによる日本語テキスト分析入門
    bob3
    bob3 2017/06/02
    Rでテキストマイニング
  • Rの良いところと悪いところうんぬんのメモ - 盆栽日記

    たまに見かける「Rの良いところは統計家によって開発されたことだ。そしてRの悪いところは統計家によって開発されたことだ」という言葉、Bow Cowgillが言ったらしい。 I was on a panel back in 2009 where Bow Cowgill said, "The best thing about R is that it was written by statisticians. The worst thing about R is that it was written by statisticians." https://www.r-bloggers.com/why-has-r-despite-quirks-been-so-successful/ 引用しようとした時にいつも検索に迷うのでメモしておく。

    Rの良いところと悪いところうんぬんのメモ - 盆栽日記
    bob3
    bob3 2017/04/10
  • Example for a latent class analysis with the poLCA-package in R – ahoi data

    When you work with R for some time, you really start to wonder why so many R packages have some kind of pun in their name. Intended or not, the poLCA package is one of them. Today i´ll give a glimpse on this package, which doesn´t have to do anything with dancing or nice dotted dresses. This article is kind of a draft and will be revised anytime. The „poLCA“-package has its name from „Polytomous L

    bob3
    bob3 2017/02/23
    メモ:潜在クラスモデル
  • ニコニコ動画(Re:仮)

    ニコニコ動画(Re:仮)
    bob3
    bob3 2016/01/25
    ちょっと気になるね。
  • Cluster Validation Statistics: Must Know Methods - Datanovia

    bob3
    bob3 2015/10/05
    クラスタ分析
  • 機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed

    みなさんこんにちは。アナリストの荒木です。近い将来さまざまな仕事がロボットに置き換わっていくと多くの人が予想しており、そのコアテクノロジーの一つが機械学習です。GoogleがDeepMindを買収したことで機械学習という言葉も身近になりつつありますが、すでにamazonレコメンドや画像認識などで活躍しています。 そこで今回は、ウェブ担当者が「機械学習ってどんなことをやっているのだろう?」という場合に勉強できるスライドをまとめました。 ↓【無料DL】「SEO内部対策チェックシート」を無料ダウンロードする 機械学習によるデータ分析まわりのお話機械学習でどんなことをしているのかをまとめたスライドです。データのこと・機械学習のこと・評価のこと・分析のことの4部構成で、データマイニングの一連の流れを学ぶことができます。 Deep LearningGoogle認識例で有名になった手法を紹介したスラ

    機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed
    bob3
    bob3 2015/03/09
    #tokyor
  • Text mining and word cloud fundamentals in R : 5 simple steps you should know - Easy Guides - Wiki - STHDA

    Text mining methods allow us to highlight the most frequently used keywords in a paragraph of texts. One can create a word cloud, also referred as text cloud or tag cloud, which is a visual representation of text data. The procedure of creating word clouds is very simple in R if you know the different steps to execute. The text mining package (tm) and the word cloud generator package (wordcloud) a

    Text mining and word cloud fundamentals in R : 5 simple steps you should know - Easy Guides - Wiki - STHDA
    bob3
    bob3 2015/01/13
    Rでワードクラウド
  • Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介

    2. CyberAgent, Inc. アジェンダ • 自己紹介 • 弊社ゲーム部門の分析体制 • 分析事例紹介 – 継続/離脱に関する決定木分析 – プラットフォーム周遊に関するアソシエーショ ン分析 • まとめ 2013/7/29 2 3. CyberAgent, Inc. 自己紹介 • 高野雅典 • データマイニングエンジニア • 主な業務 – Amebaソーシャルゲームの分析 – ソシャゲ用BIシステムの設計・開発 – ちょっと前はソシャゲフロントエンドエン ジニア • 得意/興味のある領域 – 複雑系科学・進化ゲーム理論 – R・データ解析 – JavaScript・データの可視化 2013/7/29 3 4. CyberAgent, Inc. 弊社ゲーム部門の運用・分析体制 • 主要サービスに対してコンサルが1名 – コンサルはKGI/KPIの目標値の設計と達成の戦略立案 •

    Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介
    bob3
    bob3 2013/07/30
    決定木で離脱分析
  • ネットワーク分析をもうちょっと勉強 - でたぁっ 感動と失敗の備忘録

    マーケティング施策や商品開発の糸口を発見する為に購買履歴データでネットワーク分析を行っているのだが、今年に入りノードやエッジの数が多い隣接行列を取り扱うようになってきた。といってもまだまだビッグデータとはいいがたいが。。。cytoscapeにくわせOrganicレイアウトで表示するとこんな感じです。(他の設定はデフォルト) 今後はもっとデータ量が多くなりそうなので、ネットワーク分析をもうちょっと勉強。 これまで参考にしていたのはRで学ぶデータサイエンスの#8ネットワーク分析。R+igraphで中心性指標を計算したり、コミュニティの抽出などはさくさくできる。会社の先輩に話をすると、もっと勉強になる資料があるよと九州工業大学の竹先生の資料を教えてくれた。2013/3/8に開催された第2回 Rでつなぐ次世代オミックス情報統合解析研究会で発表された資料らしい。タイトルは「R+igraphではじめ

    ネットワーク分析をもうちょっと勉強 - でたぁっ 感動と失敗の備忘録
    bob3
    bob3 2013/05/01
  • TokyoR#30に参加してきた - でたぁっ 感動と失敗の備忘録

    以前から参加してみたかったTokyoRに参加してきたので個人的な感想をメモメモ。φ(..) ツートまとめはこちら 第30回R勉強会@東京 #TokyoR - Togetter @bob3bob3 さんがまとめてくれています。 1.はじめてのR(@aad34210さん) demo()関数でdemoが見れる。ex)demo(graphics) + enter R Cheet Sheet は、Rのカンニングペーパー CRAN Task View はパッケージを見つけるのに便利 2.分散分析(@aad34210さん) 2つ以上の平均値を比較するための統計的手法(2つの場合はt検定) 主効果と交互作用効果 rep関数は繰り返せ aov関数が分散分析 interactionm.plotで図示できる 3.MySQLではなくRでデータ操作しよう(@IT7Cさん) Rデータ自由自在 ※そういえばこのまだな

    TokyoR#30に参加してきた - でたぁっ 感動と失敗の備忘録
    bob3
    bob3 2013/04/23
    第30回R勉強会@東京のまとめ記事 #TokyoR
  • Rでコンジョイント分析

    4. 商品を要素に分解するとは? •格デジカメの構成要素 – レンズ 〔交換式/固定〕 – ミラー 〔一眼レフ/ミラーレス〕 – 体の色 〔黒/黄色〕 – センサーサイズ 〔APS-C/マイクロフォーサーズ〕 – HDR機能 〔有り/無し〕 – 電子水準器 〔有り/無し〕 – 動画撮影 〔有り/無し〕 – WiFi 〔有/無〕 •8属性、各2水準 6. そこで直交計画 • 実験計画法の世界で生まれた 実験の回数を少なくするテク ニック。 – 直交表と呼ばれる「どの属性 でも全ての要素が同じ数だけ 出現する、すべて異なる組み 合わせの表」を使う。 – 直交表は各列間の相関係数が ゼロになる。 – L8直交表なら全組み合わせで 128通りの実験が必要なとこ ろが8通りの実験で済む(交 互作用を考えない場合)。 – それでも実験数が減らせない 場合、直交性を妥協して実験 数を減らす場合もある

    Rでコンジョイント分析
    bob3
    bob3 2013/04/20
    第30回R勉強会@東京 #tokyor
  • R-3.0.0でGLM

    15. 2013/04/20 戦略 サイバー系 u R-3.0.0は2^31-1以上の要素数を持つmatrixを扱うことが できるようになったが、model.matrix関数でデザイン行列 を作成しようとすると(デカいmatrixの場合に)エラーになる u 仕方ないので以下のようにやってみた i) Year毎にmatrixを分割して ii) それぞれでmodel.matrixを適用させデザイン行列を 作成して iii) それぞれcsvファイルに出力して iv) 全csvファイルを結合して v) ↑この結合したcsvファイルをread.csvで読み込む 15 model.matrix後の要素数が2^31以上 16. 2013/04/20 仕方ない... サイバー系 16 #formula object <- Cancelled ~ Year + Month + DayOfWeek + C

    R-3.0.0でGLM
    bob3
    bob3 2013/04/20
    第30回 Tokyo.R #TokyoR
  • 第1回 「裏の仕事」は“系統樹ハンター”

    つくば市の一角に農林研究団地と呼ばれる一角がある。 農村工学研究所、品総合研究所、中央農業総合研究センター、動物衛生研究所……といった農業畜産関係の研究所が、昔、海軍航空隊の飛行場だったという敷地に集っている。ひとつのマンモス団地が丸々入るであろう広大さで、桜の名所でもある緑豊かな土地のそこここに、たがいに近接分野の研究所がある、という印象だ。 そんな中、今回訪ねたのは、独立行政法人・農業環境技術研究所。「研究団地」という表現に似つかわしく、20世紀の匂いがする団地風の建物だった。上席研究員であり、東京大学大学院農学生命科学研究科の教授なども兼任する、三中信宏(みなか のぶひろ)さんが、お目当ての人物だ。 テーマは……「農業環境技術」と聞いてすぐに連想できるようなものではないと、最初に断っておく。 ぼくは三中さんの『系統樹思考の世界』『文化系統学への招待:文化の進化パターンを探る』といっ

    bob3
    bob3 2013/04/15
    三中先生のインタビュー
  • RPubs - Re-installing the same packages in R 3.0.0

    Hide Comments (–) Share Hide Toolbars

    bob3
    bob3 2013/04/05
    バージョンアップ時のパッケージのアップデート方法が超楽チンになる方法。
  • はてなブログ | 無料ブログを作成しよう

    トルコ水紀行 -前編 イスタンブール- みなさんこんばんは、地図子です!8月は久しぶりに毎月更新にしようと思います。今までずっと名古屋について書いてきましたが、ワープして・・・ トルコについて書きたいと思います。 2024年6月に念願のトルコに行ってきました。いつからトルコに行きたかったかわから…

    はてなブログ | 無料ブログを作成しよう
    bob3
    bob3 2013/03/31
    これはMASS::correspでの話なんだけど、ca::caだとどうだったか確認。