タグ

2017年3月27日のブックマーク (3件)

  • 【特別連載】 さぁ、自然言語処理を始めよう!(最終回: 機械学習によるテキストマイニング)

    みなさまこんにちは。 前回の連載 【特別連載】 さぁ、自然言語処理を始めよう!(第2回: 単純集計によるテキストマイニング) では TF-IDF を用いて Twitter Streaming API 経由で取得した日語 Tweet データから、ある日の特徴語を抽出する方法を紹介しました。 今回は機械学習を用いたテキストマイニングを行いたいと思います。機械学習とは「経験により自動的に改善していく」コンピュータープログラムの構築方法に関わる分野です。 具体的には Python機械学習用ライブラリである scikit-learn を用いて、集めた Tweet データを「ポジティブ」、「ネガティブ」なものに自動で分類する方法を紹介します。 処理の流れ今回行う処理は次のような流れになります。学習用データの作成データの前処理手法の選択モデルの学習未知要素の分類実行環境は前回、前々回で使用した A

    【特別連載】 さぁ、自然言語処理を始めよう!(最終回: 機械学習によるテキストマイニング)
  • Pandasを用いた基礎分析 - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 こんにちは、アナリティクスサービス部の辻 陽行です。 今回は、データ分析を行う際のデータの前処理や集計を行う時に非常に役に立つ、PandasというPythonの便利なモジュールを紹介したいと思います。 モジュールを紹介する前に、分析作業の流れとPandasがどのあたりに関与してくるかを先に説明しておきます。 私たちの仕事は、さまざまなデータ分析をお客さまへ提供し、それを付加価値の核としているわけですが、 行き当たりばったりでデータを分析していくのでは、到底価値のある結果を導きだすことはできません。 大抵の場合、以下の手順に沿って分析を進めていくことになります。 データ分析のフロー ヒアリング・仮説形成 (お客さまからの)データ受領 データの前処理・整形 基礎集計 仮説の修正・分析方針の再検

    Pandasを用いた基礎分析 - Platinum Data Blog by BrainPad
  • PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind

    cc licensed ( BY ) flickr photo shared by Loco Steve 週末に試そうのコーナー。 ちょうど良いチュートリアルがあったので、データセットを用意してやってみました。 問題 How can I get a computer to tell me what an article is about (provided methods such as bribery and asking politely do not work)? ある記事が何について書かれているのか、コンピュータに理解させるにはどうすれば良いか? チュートリアルでは手動で作ったデータを使って犬もしくはサンドイッチの2クラス分類をしています。 ここでは、Google NewsでiPadのニュース、ソチ五輪のニュースとカテゴリ分けされている記事のタイトルを使って、 あるタイトルがiPa

    PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind