ブックマーク / qiita.com/ynakayama (2)

  • scikit-learn から学ぶ機械学習の手法の概要 - Qiita

    前回、株式の時系列データを分析する話で、後半にちょっとだけ機械学習の話をしました。今日は機械学習ライブラリ scikit-learn に触れます。 scikit-learn といえば以前にも簡単なクラスタリングの例をあげたり、サポートベクトルマシンやクラスタリングで問題を解く、 TF-IDF を計算する、回帰モデルの可視化、 DBSCAN によるクラスタリングといったことをしてきましたが、あらためてライブラリの機能を整理します。 機械学習と言うと難しい数学を駆使するイメージがつきまといますが、完成度の高いライブラリを使えば利用者が機械学習の手法そのものを実装しなくても利用することはできます。もちろん手法の内容に対する理解は必要ですが、せっかく scikit-learn という事実上デファクトとも言えるライブラリが存在するのですから、これを使うところから入門していくのが良いかと思います。 以

    scikit-learn から学ぶ機械学習の手法の概要 - Qiita
  • 特徴抽出と TF-IDF - Qiita

    今日は TF-IDF についてざっくりとまとめます。 特徴量と特徴抽出 TF-IDF は情報検索や文書推薦などで幅広く利用される特徴量の指標です。 特徴量 - 対象の特徴を表現する値 特徴抽出 - 対象から特徴量を取り出す 日語の特徴抽出 英語の場合はホワイトスペースで分割してから記号などを取り除くだけで特徴抽出できます。 日語の場合は形態素解析または N-Gram などの索引文字列抽出方法を利用します。 索引語頻度 TF (Term Frequency) ある文書 d の中に出現する索引語 t の頻度です。文書中にその単語が何回現れたかをあらわします。 単語 回数

    特徴抽出と TF-IDF - Qiita
  • 1