[B! 機械学習] kizashi1122のブックマーク

【特別連載】さぁ、自然言語処理を始めよう！（最終回：機械学習によるテキストマイニング）

みなさまこんにちは。前回の連載【特別連載】さぁ、自然言語処理を始めよう！（第2回：単純集計によるテキストマイニング）では TF-IDF を用いて Twitter Streaming API 経由で取得した日本語 Tweet データから、ある日の特徴語を抽出する方法を紹介しました。今回は機械学習を用いたテキストマイニングを行いたいと思います。機械学習とは「経験により自動的に改善していく」コンピュータープログラムの構築方法に関わる分野です。具体的には Python の機械学習用ライブラリである scikit-learn を用いて、集めた Tweet データを「ポジティブ」、「ネガティブ」なものに自動で分類する方法を紹介します。処理の流れ今回行う処理は次のような流れになります。学習用データの作成データの前処理手法の選択モデルの学習未知要素の分類実行環境は前回、前々回で使用した A

kizashi1122 2016/11/07

リンク

第30回データマイニング+WEB＠東京( #TokyoWebmining 30th)−機械学習活用・マーケティング祭り− を開催しました - hamadakoichi blog

2013/10/19 "第30回データマイニング+WEB ＠東京　( #TokyoWebmining 30th) −機械学習活用・マーケティング祭り−"を開催しました。第30回データマイニング+WEB＠東京 ( #TokyoWebmining 30th) ー機械学習活用・マーケティング祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：参加者Twitter List: Twitter List TokyoWebmining 30th 参加者セキココ：第30回データマイニング+WEB ＠東京セキココ (作成してくれた [

kizashi1122 2013/10/20

リンク

Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ

kizashi1122 2013/06/18

リンク

pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て