前回はごくごく簡単なテキストマイニングの例を紹介したが、実は結果があまり正しく分析できていなかったりする。なぜなら、茶筌の辞書「IPA品詞体系辞書(ipadic)」に登録されていない単語は「未知語」として扱われてしまったり、アルファベットの1文字ずつに分割されてしまったりするため、単語としての集計の対象から漏れてしまうのだ。例えば、「MySQLもPostgreSQLもデータベースである。」という文を解析した結果は以下のようになる。 $ chasen -i w MySQLもPostgreSQLもデータベースである。 M エム M 記号-アルファベット y ワイ y 記号-アルファベット S エス S 記号-アルファベット Q キュー Q 記号-アルフ
3年目のubunteroが家庭医療の実践に無料のパソコンOS"ubuntu"をいかに応用しているかの日記。テーマは、ubuntu、家庭医療、統計環境R、外国語。 統計環境Rは、本来端末上でCUIで使用するソフトだが、いくつかのGUIがある。その中の一つ、JAVAベースの統計環境RのGUI、JGRの開発者のサイトにubuntuへのインストール方法が記述されていたので、それを参考に自分の環境にあわせて、多少改変、メモしておく。 まず、Rをインストールする。筑波大学ミラーのリポジトリを追加する。システム→システム管理→Synaptics パッケージマネージャを開き、設定→リポジトリで、「サードパーティのソフトウェア」のタブを選んで、「+Add」で出てくる画面の「APT line:」の所に、下記をcopy&pasteする。 deb http://cran.md.tsukuba.ac.jp/bin/
_ 石田基広近著 Pythonで学ぶ テキストマイニング入門 実践 Rによるテキストマイニング 女子高生乱子によるベイズ統計学講義 https://www.amazon.co.jp/dp/4320113454/ Rによるテキストマイニング入門 https://www.amazon.co.jp/dp/4627848420/ 新米探偵、データ分析に挑む https://www.amazon.co.jp/dp/4797382309/ Rで学ぶデータ・プログラミング入門 ―RStudioを活用する https://www.amazon.co.jp/dp/4320110293/ 『改訂3版 R言語逆引きハンドブック』シーアンドアール研究所) https://www.amazon.co.jp/dp/4863542011/ 『とある弁当屋の統計技師1 ー データ分析の始め方』共立出版 https://w
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く