mahler-5のブックマーク / 2019年2月18日

mahler-5 id:mahler-5

2019年2月18日のブックマーク (4件)

Pythonを使って変数選択！ - 見習いデータサイエンティストの隠れ家
機械学習はデータが命です。データが精度を左右するので、精度を上げるためにデータを増やし、変数をどんどん追加してくという方向になりがちです。しかし、変数の数を多くすると、計算時間の増加をまねいたり、特定のクラスの一部のデータの影響で過学習したりなどの問題が起こります。意味のある変数だけを抽出できたり、次元を減らすように要約できたりすれば、重要な要因がわかりますし、計算時間も減らせます。見たい番組が多すぎて色々ザッピングした結果、何も記憶に残っていないみたいなことがなくなります。今回は、このような変数の削減方法において見ていきます。先に実装結果を示すと、各手法によって選択される変数が異なるため、同一の機械学習アルゴリズムで同一パラメータにおいてもテストデータの正答率が異なっています。今回は変数増加法の正答率が一番高く、もとの変数の1/2以下になっています。今回取り上げる手法（各種法をクリ
mahler-5 2019/02/18
python

自然言語処理

トピックモデル
リンク
Word2Vecを用いて蒙古タンメン中本の口コミ評価を予測してみる – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめに word2vecを用いた分類は以前からやってみたいと思っていたのですが、関心を持てるテキストデータがなかったのでなかなか手を出していませんでした。ある時、ふとしたことから某グルメ系口コミサイトから蒙古タンメン中本の口コミと評価点を抽出して、その評価をword2vecでやってみるのは面白いだろうと思いついたので、さっそくやってみます。こういう時にはじめて、データ分析だけでなくクローリング屋としても業務をやっていて良かったなと思うところですね。コードは以前
mahler-5 2019/02/18
word2vec

python

機械学習

自然言語処理
リンク
テキスト分類基礎（一）ー機械学習、特徴量エンジニアリング - Qiita
mahler-5 2019/02/18
Python

python

自然言語処理

LDA
リンク
【厳選】Python実務データ分析でよく使う手法（分析手法編） - Qiita
はじめにデータ分析実務において、前処理や集計・可視化後によく行う分析手法をまとめました前処理編とデータ集計・可視化編の続きですここでいう「実務」とは機械学習やソリューション開発ではなく、アドホックなデータ分析や機械学習の適用に向けた検証（いわゆるPoC）を指します領域によっては頻繁に使う手法は異なるかと思うので、自分と近しい領域のデータ分析をしている方の参考になればと思います今回紹介する分析手法パレート分析線形回帰時系列解析（季節成分分解）時系列解析（時系列データの相関）ランダムフォレストによる特徴量の重要度 1. パレート分析対象データ：カテゴリカルデータ用途：各カテゴリの全体に対する構成比率ケーススタディ：製品カテゴリ別の売上データ（A~H）に対して、各製品カテゴリの売上傾向を把握したいサンプルデータの生成 A = np.repeat('Cat_A', 15
mahler-5 2019/02/18
python

あとで読む

機械学習
リンク
- 2019年2月20日
- 2019年2月18日
- 2019年2月5日