タグ

scikit-learnとqiitaに関するnabinnoのブックマーク (118)

  • [Kaggle]いろいろとTitanicしてみる:過剰適合/過学習/交差検証 - Qiita

    目的 交差検証について調べたりコード化してみる そもそもの発端としては 前回の訓練データだと90ぐらいのスコアになったのをアップロードしてみたらちょこっとしかUPしてなかったということである。 以下のようなろくでもない検証にしかしてなかったのでダメだろうとは思っていたが ここまで差が出るとはちょっとびっくりであった。 なので、調べてみることにした。 [過剰適合] https://ja.wikipedia.org/wiki/%E9%81%8E%E5%89%B0%E9%81%A9%E5%90%88 [交差検証] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC ググってみた。 「モデルの説明変数は必要以上に増やせば増やすほど学習データのシグナルだけでなくノイズにまでフィットしてしまう」 訓練データに最適化しすぎ

    [Kaggle]いろいろとTitanicしてみる:過剰適合/過学習/交差検証 - Qiita
  • [Kaggle]いろいろとTitanicしてみる:グリッドサーチ - Qiita

    ハイパーパラメータのチューニング 前回の続き 交差検証を調べていたら以下の記事に遭遇 https://qiita.com/tomov3/items/039d4271ed30490edf7b これの後半にモデルに対するパラメータのチューニングの仕方が載っていたので、それを参考に今回は**「ハイパーパラメータのチューニング」**をやってみることにする。 ググる https://blog.amedama.jp/entry/2017/09/05/221037 いくつかググってみたのだが、ここが自分には一番わかりやすかった。 つまるところ、それぞれのモデル?を作成する際のパラメータについて、 いっぱい試したいからそれを設定できるようにしたぜってことの様子。 なので、これだけ理解しても無駄だった。 それぞれのモデルにわせたいパラメータを理解しないと意味がないと理解。 とりあえず決定木とSVMのパラメ

    [Kaggle]いろいろとTitanicしてみる:グリッドサーチ - Qiita
  • 機械学習PJで最低限やっておきたいこと - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 最近は機械学習関連の書籍やチュートリアルが充実してきており、モデルをとりあえず作ってみることはとても容易になっていますが、そうしてできたモデルと製品投入できる品質のものとの間の隔たりは小さくありません。そこを埋めるために最低限やっておきたいことのまとめです。 考慮すべき点のそれぞれについて深く掘り下げるというよりも、現状を俯瞰して足りない視点を補うために利用することを想定しました。 チェックすべきポイントはカテゴリに分けると以下のようになります。 テスト(検証) 交差検証 学習曲線 データセット 特徴量の選定 サンプリングバイアス デー

    機械学習PJで最低限やっておきたいこと - Qiita
  • 【SIGNATE】銀行の顧客ターゲティングをやってみる - Qiita

    目的変数の分布 学習データでは口座開設をしなかった人が口座開設者の約8倍であるため、キャンペーンの結果口座開設に至る人は10%程度とやはり低めです。そのためどのような条件の人が口座開設に踏み切っているのかを見極める必要がありそうです。 説明変数の分布 年齢(age) 顧客の年齢を10歳刻みで分割しました。ヒストグラムを見ると20~60歳の人の割合が高いことがわかります。一方で20歳以下と60歳以上の人達は顧客数は少ないものの口座開設率は高いことが読み取れます。 また、20歳以下の若者については大学生になりアルバイトを始める際に口座を開設するだろうと考えられるので、職種(job)も含めた分布を見てみます。 # 各年齢、職種に対する口座開設者の割合を求める # 10歳毎にビニング age_bining = pd.cut(trainX['age'],list(range(10,100,10)))

    【SIGNATE】銀行の顧客ターゲティングをやってみる - Qiita
  • [Kaggle]いろいろとTitanicしてみる - Qiita

    前回Kagglerになってみたが、それだとしっくりこなかったり、ほかのモデルを試してみてなかったりしたので 以下を参考にいろいろと試行錯誤してみた。 [Kaggle]0から当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ [part2]0から当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ [part3]0から当に機械学習を理解するために学ぶべきこと~0からscikit-learnを使いこなす~ といっても、なんとなく思考をトレースしただけなので項目の追加などは特にせずに 今後使いまわしやすそうなコード構成に修正したぐらいだが。 全体的にやらないといけないことの流れはなんとなくわかった気がするので、次回別のデータセットで試してみるのもいいかもしれない。 で、いろいろなモデルをまとめて試してみた結果が以下。 こんな感じになった

    [Kaggle]いろいろとTitanicしてみる - Qiita
  • [Kaggle]Kagglerになってみる - Qiita

    先日、とあるAI系の勉強会?説明会?でいくつか話を聞いてきたのだが、その中の一つとしてkaggleなるものを知った。 で、面白そうだったので早速試してみることにした。 ※ゼロから作るDeep Learningあたりを読み途中だったので読み切ってからのほうがいいかなとも思ったが、やる気になったときに初めてみるのがいいかなと思ったのと、わからなかったらに戻ってくればいいかなと。 kaggleって何? kaggleって何というのはこの辺を参照してみてください。 https://www.codexa.net/what-is-kaggle/ データサイエンス版のgit hubみたいなものというのが感覚的には一番わかりやすいかも。 カグってみる 何はなくともまずはアカウント作成 どれでも大差ないとは思うが、Facebookのアカウントを使ってサインアップすることにする。 IDを何にする?と聞かれる。

    [Kaggle]Kagglerになってみる - Qiita
  • Yet another 機械学習で株価を予測する (5) - Qiita

    1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) Yet another 機械学習で株価を予測する (3) Yet another 機械学習で株価を予測する (4) これまで3までで日経平均およびNYSE総合 (NYA)の日足データから翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作り、交差検証で検証を行いました。利益を期待できそうという結果が得られたので、3ではパラメーターを振ったり、検証期間を変えてみたりして様子を見ました。程度の差こそあれ比較的長期に渡ってそれなりに安定して動作しそうでした。そこで今回は3で作成し、4でパラメーターを調整したプログラムをおおよそ直近の1年間動作させていた場合、利益(あるいは損失)がどれだけ出たのか検討してみることにします。 2. プログ

    Yet another 機械学習で株価を予測する (5) - Qiita
  • 本当に巨乳顔なんてないのだろうか? - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Courseraの Machine Learning という講座を修了したので、自分で一から何か機械学習プロジェクトに取り組んでみようと思ったのが記事のきっかけです。 とは言ってもテーマが思いつかずQiitaを漁ってたところ、 ディープラーニングで顔写真から巨乳かどうかを判別してみる (うまくいったか微妙) という記事を見つけました。微妙に終わった理由の一つ「そもそも巨乳顔なんてものはない?」に、当にそうなのか?と思い、自分でトライしてみることにしました(勝手にすみません)。 おことわり 先行記事のコメントで巨乳/貧乳とい

    本当に巨乳顔なんてないのだろうか? - Qiita
  • sckit-learnのPiplineを使って、カスタム前処理をモデルの中に組み込む - Qiita

    はじめに Watson Studioの機能を使うと、sckit-learnのモデルを簡単にWebサービスにすることができます。 (参考リンク) Watson Studioでscikit-learn機械学習モデルをWebサービス化する 便利な機能なのですが、この機能を実業務で使うことを想定すると、前処理にあたる部分もモデル処理に含めてしまいたくなります。 sckit-learnのカスタムモデルクラスと、Pipelineを使って、これを実装してみたサンプルコードをメモとして残しておきます。 (2019-01-05 FunctionTransformerを使った方式に全面書き換え) 前提 元データは、Irisデータセットを使います。 このデータセットは、ご存じのとおり、4次元の入力データですが、このうち、1番目と3番目の列は、x に対して np.log(x + 1)に値を変更し、これを後段のモデ

    sckit-learnのPiplineを使って、カスタム前処理をモデルの中に組み込む - Qiita
  • Yet another 機械学習で株価を予測する (4) - Qiita

    1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) Yet another 機械学習で株価を予測する (3) これまで1、2では日経平均の日足データから、翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作り、簡単な交差検定で検証を行いました。いずれも予想される利益は0近辺で、利益を出すのは難しそうでした。そこで3ではニューヨーク証券取引所のNYSE総合 (NYA)の日足データも加えて予測の改善を試みました。 3では利益を期待できそうな結果になったので、今回はパラメーターを調整して性能を改善できないか試みることにします。 2. n_estimatorsの影響 まずは__RandomForestClassifier__の__n_estimators__の影響を見てみましょう。下図は

    Yet another 機械学習で株価を予測する (4) - Qiita
  • データサイエンス初心者のメモ[2日目] - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    データサイエンス初心者のメモ[2日目] - Qiita
  • Scikit-learnでオートエンコーダーっぽいものを実装してみる - Qiita

    はじめに 色々とセミナーをさせて頂くことが多くなり、特にAI関連技術のセミナーではあまり知らないで話をしていると、実は間違っていました...なんてことになりかねない。 ということで、勉強のためにAutoEncoderをScikit-learnで実装してみたので、その手順を以下にまとめます。 データセット 手書きの数字データがScikit-learnに用意されているのでこちらを利用します。 読み込んだら、いくつかの画像を表示して、どんな感じか確認します。 from sklearn.datasets import load_digits import numpy as np import matplotlib.pyplot as plt %matplotlib inline dig = load_digits() for i in [10, 230, 450]: npimg = np.arra

    Scikit-learnでオートエンコーダーっぽいものを実装してみる - Qiita
  • sklearnの交差検証の種類とその動作 - Qiita

    sklearnで交差検証をする時に使うKFold,StratifiedKFold,ShuffleSplitのそれぞれの動作について簡単にまとめ KFold(K-分割交差検証) 概要 データをk個に分け,n個を訓練用,k-n個をテスト用として使う. 分けられたn個のデータがテスト用として必ず1回使われるようにn回検定する. オプション(引数) n_split:データの分割数.つまりk.検定はここで指定した数値の回数おこなわれる. shuffle:Trueなら連続する数字でグループ分けせず,ランダムにデータを選択する. random_state:乱数のシードを指定できる. 例 import numpy as np from sklearn.model_selection import KFold x = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [3,

    sklearnの交差検証の種類とその動作 - Qiita
  • Yet another 機械学習で株価を予測する (3) - Qiita

    1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) 1では日経平均の日足データから、翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作りました。また2ではそのプログラムの検証を簡単な交差検定で行いました。いずれも予想される利益は0近辺で、利益を出すのは難しそうでした。 そこで今回は入力データの種類を増やし、予測の精度の改善を目指します。追加する指標としてはニューヨーク証券取引所のNYSE総合 (NYA)を使いましょう。また複数のテーブルを読み込みますので、共通な操作は関数としてまとめることにします。 2. 複数の入力データを使う場合の注意点 今回は複数の入力データを使います。それに伴い、入力データが1つだったときには気にする必要のなかった点に気を使う必要が出てきます。以下でそれ

    Yet another 機械学習で株価を予測する (3) - Qiita
  • Home Pricesの予測に挑戦①~量的変数に対して重回帰分析~ - Qiita

    kaggleの中古物件価格予測にチャレンジ 他の人のチュートリアルを見ながら理解したり、チューニングしたりは ある程度できるようになってきたので、自分なりのやり方でkaggleの中古物件価格予測をやってみる 課題のリンクはこちら 初見の感想・方針 変数が多い・・・ 説明変数・・・80! signateのお弁当の需要予測のように、yと各変数をプロットするのは難しい ちょっと変数が多すぎるのでまずは量的変数だけで重回帰分析をやってみようと思う。 チューニングとか質的変数、非線形モデルの利用はまた別の機会に 変数選択 方針:量的変数に絞り、相関係数のヒートマップで関係ありそうな値を算出 データフレームの相関係数算出の書き方は以下 train.corr() [相関係数のヒートマップの書き方] (https://qiita.com/tmp_llc/items/db626c9e331bfdc4857a

    Home Pricesの予測に挑戦①~量的変数に対して重回帰分析~ - Qiita
  • 決定木による分類基準を集計する - Qiita

    決定木で分類できるのはいいんだけど、どういう基準で分類していることが多いのか整理したい。そこで、決定木による分類基準を概観する方法を検討しました。 参考にさせていただいたのは scikit-learnの決定木系モデルを視覚化する方法 決定木の詳細を見るのは Graphviz (Graph Visualization Software) で視覚化するといいらしいですが、そこに出力された木を一個一個眺めるのってしんどいじゃないですか。なのでその結果を集計して概観したいなと。 iris のデータをインポート %matplotlib inline import matplotlib.pyplot as plt import pandas as pd import numpy as np import re from sklearn.datasets import load_iris from sk

    決定木による分類基準を集計する - Qiita
  • Jerome H. Friedman の情報ゲイン - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Jerome H. Friedman の情報ゲイン - Qiita
  • auto-sklearnのインストールではまった話 - Qiita

    モデル選定まで自動でやってくれるならもうこれでいいじゃん・・・ というわけでauto-sklearnなるものを使ってみようとしたら意外とはまった話 auto-sklearnの公式はこちら 元々の環境:以下のコマンドで作ったdocker上に構築したjupyter環境 $ docker pull jupyter/tensorflow-notebook 上記環境ではデフォルトでauto-sklearnが入っていないが以下のcommandでpython環境にauto-sklearnが導入できる $ pip install auto-sklearn 早速実行してみたが、pip installerのバージョンが古くて対応していないとのことなので、以下のコマンドを打つこと要求された $ pip install upgrade pip コマンドを実施してみるとpipのアップグレードに成功。 改めてauto

    auto-sklearnのインストールではまった話 - Qiita
  • Yet another 機械学習で株価を予測する (2) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Yet another 機械学習で株価を予測する (2) - Qiita
  • 機械学習でサザエさんとじゃんけん勝負(回帰分析編) - Qiita

    はじめに 先日、「サザエさんじゃんけん研究所」1様の「サザエさんじゃんけん白書」が話題になりました。 過去のサザエさんの手を分析し、傾向と対策を見出すという企画?です。 じゃんけんで何を出せば勝てるか人間が推測できるなら、コンピュータ(プログラム)でもできるに違いない、ということで勝手にシリーズ化してしまったネタです。 これまでのあらすじ 機械学習でサザエさんとじゃんけん勝負(ニューラルネットワーク編) - Qiita 機械学習でサザエさんとじゃんけん勝負(SVM編) - Qiita 問題設定 くどいからもういいか。。。 あらすじのどちらかの記事をご覧ください。 今回は回帰分析 今までの2回はサザエさんの手を直接予想するプログラムだったのですが、今回は「ある手を自分が出したときの利益」を考えてみます。言ってみれば、サッカーの試合などでいう「勝ち点」のようなものですね。 もちろん同じ状況と戦

    機械学習でサザエさんとじゃんけん勝負(回帰分析編) - Qiita