[B! purrr][R] mahler-5のブックマーク

mahler-5 id:mahler-5

purrrとRに関するmahler-5のブックマーク (3)

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita
はじめにテキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。理論的な部分はこちらの本。先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。トピックモデルとはテキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす
mahler-5 2019/04/11
R

purrr

LDA

トピックモデル
リンク
dplyr & purrr を用いたデータハンドリング
dplyr & purrr を用いたデータハンドリング 1. dplyr & purrr を用いたデータハンドリング 2. About Me • 杣取恵太(そまとりけいた) • 専修大学大学院文学研究科心理学専攻博士2年 • 日本学術振興会特別研究員(DC1) • 研究テーマ: ⎻ 恐怖条件づけの個人差 ⎻ メタ認知の認知モデリング • 趣味: ⎻ 麻雀、ダーツ 3. 本資料の内容 dplyr と purrr(ちょこっとtidyr)を使ってデータを楽にハンドリングする！ 4. tidyverseワークフローにおける本資料の位置付けデータの読み込み可視化モデル化 dplyr purrr 整然化変形プログラミング 5. 本発表で使うパッケージ library(tidyverse) library(stringr) 6. まずはデータの読み込みデータの読み込み整然化
mahler-5 2018/02/03
R

purrr

tidyverse

dplyr
リンク
purrr: ループ処理やapply系関数の決定版
forループやlistの処理などをより簡潔に書けるようにしてくれるパッケージ。標準のapply系関数よりも覚えやすく読みやすい。 dplyr や tidyr と組み合わせて使う。いまのところ並列化する機能はないので、それに関してはforeach/parallelページを参照。 tidyverse に含まれているので、 install.packages("tidyverse") で一括インストール、 library(tidyverse) で一括ロード。 list, vector操作各要素に関数を適用するapply系関数 library(conflicted) library(tidyverse) v = list(1, 2L, "3") check_class = function(x) {paste0(x, " is ", class(x))} # 自分でfor文を書くと結構大変
mahler-5 2017/12/30
purrr

apply

R

dplyr
リンク
1