コミケとは関係ない別ネタです. 青空文庫からファイルを(半)自動ダウンロードでテキストマイニング(したい?) 日頃,いわゆる初心者相手にデータマイニングやテキストマイニングのやり方とか説明する仕事をしております. お相手はデータマイニングで食っていくとかではなく,まあ,とりあえず言われたのでやってみる,程度のモチベーションの方々です. モチベーションに関係なく,俺が使うのはRなので,彼らにも当然Rを使ってもらいます. それで最近はテキストマイニングねたなどを所望されるので,とりあえずどんなことができるのかを実演しています.参加者にも手を動かしてもらって,時間を稼いだりもします.まあ,だいたい理論的なことはすっ飛ばし,以下の作業をやってもらったりしているわけです. 青空文庫からファイルを zip でダウンロード 解凍 ルビを取り去る 形態素解析 頻度行列に変換 R と必要パッケージをインスト