[B! scikit-learn][python][analytics] [4ページ] nabinnoのブックマーク

nabinno id:nabinno

scikit-learnとpythonとanalyticsに関するnabinnoのブックマーク (315)

機械学習PJで最低限やっておきたいこと - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 最近は機械学習関連の書籍やチュートリアルが充実してきており、モデルをとりあえず作ってみることはとても容易になっていますが、そうしてできたモデルと製品投入できる品質のものとの間の隔たりは小さくありません。そこを埋めるために最低限やっておきたいことのまとめです。考慮すべき点のそれぞれについて深く掘り下げるというよりも、現状を俯瞰して足りない視点を補うために利用することを想定しました。チェックすべきポイントはカテゴリに分けると以下のようになります。テスト(検証) 交差検証学習曲線データセット特徴量の選定サンプリングバイアスデー
nabinno 2018/09/25
qiita

scikit-learn

python

analytics
リンク
「scikit-learnとTensorFlowによる実践機械学習」でハマった時の解決策
2.3.2 データをダウンロードする 2.3.3 データの構造をざっと見てみる　の話です「p.44」コードそのままそっくり書いたはずなのに・・・エラーでる問題問題１：ダウンロードのURLが違う DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" この部分、たたいて見ると404が出ます。下記のようにすると繋がるようになりました。 DOWNLOAD_ROOT = "https://cdn.rawgit.com/killakalle/ageron_handson-ml/3201b89b/" 他の部分は、?raw=trueとつけてあげると、良いようです。 HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz" HOUSING
nabinno 2018/09/25
scikit-learn

python

analytics
リンク
【SIGNATE】銀行の顧客ターゲティングをやってみる - Qiita
目的変数の分布学習データでは口座開設をしなかった人が口座開設者の約8倍であるため、キャンペーンの結果口座開設に至る人は10%程度とやはり低めです。そのためどのような条件の人が口座開設に踏み切っているのかを見極める必要がありそうです。説明変数の分布年齢(age) 顧客の年齢を10歳刻みで分割しました。ヒストグラムを見ると20~60歳の人の割合が高いことがわかります。一方で20歳以下と60歳以上の人達は顧客数は少ないものの口座開設率は高いことが読み取れます。また、20歳以下の若者については大学生になりアルバイトを始める際に口座を開設するだろうと考えられるので、職種(job)も含めた分布を見てみます。 # 各年齢、職種に対する口座開設者の割合を求める # 10歳毎にビニング age_bining = pd.cut(trainX['age'],list(range(10,100,10)))
nabinno 2018/09/22
qiita

scikit-learn

python

analytics
リンク
sklearn.lda.LDA — scikit-learn 0.16.1 documentation
This documentation is for scikit-learn version 0.16.1 — Other versions If you use the software, please consider citing scikit-learn. sklearn.lda.LDA Examples using sklearn.lda.LDA sklearn.lda.LDA¶ class sklearn.lda.LDA(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)[source]¶ Linear Discriminant Analysis (LDA). A classifier with a linear decision bo
nabinno 2018/09/19
scikit-learn

python

analytics
リンク
[Kaggle]いろいろとTitanicしてみる - Qiita
前回Kagglerになってみたが、それだとしっくりこなかったり、ほかのモデルを試してみてなかったりしたので以下を参考にいろいろと試行錯誤してみた。 [Kaggle]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～ [part2]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～ [part3]0から本当に機械学習を理解するために学ぶべきこと～0からscikit-learnを使いこなす～といっても、なんとなく思考をトレースしただけなので項目の追加などは特にせずに今後使いまわしやすそうなコード構成に修正したぐらいだが。全体的にやらないといけないことの流れはなんとなくわかった気がするので、次回別のデータセットで試してみるのもいいかもしれない。で、いろいろなモデルをまとめて試してみた結果が以下。こんな感じになった
nabinno 2018/09/19
qiita

scikit-learn

python

analytics
リンク
[Kaggle]Kagglerになってみる - Qiita
先日、とあるAI系の勉強会？説明会？でいくつか話を聞いてきたのだが、その中の一つとしてkaggleなるものを知った。で、面白そうだったので早速試してみることにした。 ※ゼロから作るDeep Learningあたりを読み途中だったので読み切ってからのほうがいいかなとも思ったが、やる気になったときに初めてみるのがいいかなと思ったのと、わからなかったら本に戻ってくればいいかなと。 kaggleって何？ kaggleって何というのはこの辺を参照してみてください。 https://www.codexa.net/what-is-kaggle/ データサイエンス版のgit hubみたいなものというのが感覚的には一番わかりやすいかも。カグってみる何はなくともまずはアカウント作成どれでも大差ないとは思うが、Facebookのアカウントを使ってサインアップすることにする。 IDを何にする？と聞かれる。
nabinno 2018/09/18
qiita

scikit-learn

python

analytics
リンク
Yet another 機械学習で株価を予測する (5) - Qiita
1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) Yet another 機械学習で株価を予測する (3) Yet another 機械学習で株価を予測する (4) これまで3までで日経平均およびNYSE総合 (NYA)の日足データから翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作り、交差検証で検証を行いました。利益を期待できそうという結果が得られたので、3ではパラメーターを振ったり、検証期間を変えてみたりして様子を見ました。程度の差こそあれ比較的長期に渡ってそれなりに安定して動作しそうでした。そこで今回は3で作成し、4でパラメーターを調整したプログラムをおおよそ直近の1年間動作させていた場合、利益(あるいは損失)がどれだけ出たのか検討してみることにします。 2. プログ
nabinno 2018/09/18
qiita

scikit-learn

python

analytics
リンク
本当に巨乳顔なんてないのだろうか？ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Courseraの Machine Learning という講座を修了したので、自分で一から何か機械学習プロジェクトに取り組んでみようと思ったのが本記事のきっかけです。とは言ってもテーマが思いつかずQiitaを漁ってたところ、ディープラーニングで顔写真から巨乳かどうかを判別してみる (うまくいったか微妙) という記事を見つけました。微妙に終わった理由の一つ「そもそも巨乳顔なんてものはない？」に、本当にそうなのか？と思い、自分でトライしてみることにしました（勝手にすみません）。おことわり先行記事のコメントで巨乳／貧乳とい
nabinno 2018/09/15
qiita

scikit-learn

python

analytics
リンク
sckit-learnのPiplineを使って、カスタム前処理をモデルの中に組み込む - Qiita
はじめに Watson Studioの機能を使うと、sckit-learnのモデルを簡単にWebサービスにすることができます。 (参考リンク) Watson Studioでscikit-learn機械学習モデルをWebサービス化する便利な機能なのですが、この機能を実業務で使うことを想定すると、前処理にあたる部分もモデル処理に含めてしまいたくなります。 sckit-learnのカスタムモデルクラスと、Pipelineを使って、これを実装してみたサンプルコードをメモとして残しておきます。 (2019-01-05 FunctionTransf ormerを使った方式に全面書き換え) 前提元データは、Irisデータセットを使います。このデータセットは、ご存じのとおり、4次元の入力データですが、このうち、1番目と3番目の列は、x に対して np.log(x + 1)に値を変更し、これを後段のモデ
nabinno 2018/09/14
qiita

scikit-learn

python

analytics
リンク
SelectFromModel
SelectFromModel# class sklearn.feature_selection.SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None, importance_getter='auto')[source]# Meta-transf ormer for selecting features based on importance weights. Read more in the User Guide. Parameters: estimatorobjectThe base estimator from which the transf ormer is built. This can be both a fitted (if prefit is se
nabinno 2018/09/13
scikit-learn

python

analytics
リンク
TimeSeriesSplit
TimeSeriesSplit# class sklearn.model_selection.TimeSeriesSplit(n_splits=5, *, max_train_size=None, test_size=None, gap=0)[source]# Time Series cross-validator. Provides train/test indices to split time series data samples that are observed at fixed time intervals, in train/test sets. In each split, test indices must be higher than before, and thus shuffling in cross validator is inappropriate. Thi
nabinno 2018/09/12
scikit-learn

python

analytics
リンク
Yet another 機械学習で株価を予測する (4) - Qiita
1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) Yet another 機械学習で株価を予測する (3) これまで1、2では日経平均の日足データから、翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作り、簡単な交差検定で検証を行いました。いずれも予想される利益は0近辺で、利益を出すのは難しそうでした。そこで3ではニューヨーク証券取引所のNYSE総合 (NYA)の日足データも加えて予測の改善を試みました。 3では利益を期待できそうな結果になったので、今回はパラメーターを調整して性能を改善できないか試みることにします。 2. n_estimatorsの影響まずは__RandomForestClassifier__の__n_estimators__の影響を見てみましょう。下図は
nabinno 2018/09/10
qiita

scikit-learn

python

analytics
リンク
データサイエンス初心者のメモ[2日目] - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/09/09
qiita

scikit-learn

python

analytics
リンク
Scikit-learnでオートエンコーダーっぽいものを実装してみる - Qiita
はじめに色々とセミナーをさせて頂くことが多くなり、特にAI関連技術のセミナーではあまり知らないで話をしていると、実は間違っていました...なんてことになりかねない。ということで、勉強のためにAutoEncoderをScikit-learnで実装してみたので、その手順を以下にまとめます。データセット手書きの数字データがScikit-learnに用意されているのでこちらを利用します。読み込んだら、いくつかの画像を表示して、どんな感じか確認します。 from sklearn.datasets import load_digits import numpy as np import matplotlib.pyplot as plt %matplotlib inline dig = load_digits() for i in [10, 230, 450]: npimg = np.arra
nabinno 2018/09/08
qiita

scikit-learn

python

analytics
リンク
sklearnの交差検証の種類とその動作 - Qiita
sklearnで交差検証をする時に使うKFold，StratifiedKFold，ShuffleSplitのそれぞれの動作について簡単にまとめ KFold（K-分割交差検証）概要データをk個に分け，n個を訓練用，k-n個をテスト用として使う．分けられたn個のデータがテスト用として必ず1回使われるようにn回検定する．オプション(引数) n_split：データの分割数．つまりk．検定はここで指定した数値の回数おこなわれる． shuffle：Trueなら連続する数字でグループ分けせず，ランダムにデータを選択する． random_state：乱数のシードを指定できる．例 import numpy as np from sklearn.model_selection import KFold x = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [3,
nabinno 2018/09/05
qiita

scikit-learn

python

analytics
リンク
機械学習で明日の株価を予測（Python） - Qiita
概要オンライン上からフリーで手に入る金融情報とscikit-learnを用いて、翌日の株価を予測するプログラムを作ります。データの取得今回は①株式銘柄の価格、②ドル円などの為替の情報、③NYダウなどのベンチマークの情報を取得します。以下に具体的な取得元を記します。株式銘柄の価格情報の取得株式銘柄の取得は、IEX APIというフリーのAPIを用います。こちらの記事やこちらの記事で具体的な情報の取得方法を記載しました。簡単にまとめると、https://api.iextrading.com/1.0/stock/aapl/chart/5yのような要求を出すと、 [ { "date":"2013-08-27", "open":65.1405, "high":65.7304, "low":63.6101, "close":63.9096, "volume":105930335, "unadj
nabinno 2018/09/05
scikit-learn

python

analytics
リンク
Yet another 機械学習で株価を予測する (3) - Qiita
1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) 1では日経平均の日足データから、翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作りました。また2ではそのプログラムの検証を簡単な交差検定で行いました。いずれも予想される利益は0近辺で、利益を出すのは難しそうでした。そこで今回は入力データの種類を増やし、予測の精度の改善を目指します。追加する指標としてはニューヨーク証券取引所のNYSE総合 (NYA)を使いましょう。また複数のテーブルを読み込みますので、共通な操作は関数としてまとめることにします。 2. 複数の入力データを使う場合の注意点今回は複数の入力データを使います。それに伴い、入力データが1つだったときには気にする必要のなかった点に気を使う必要が出てきます。以下でそれ
nabinno 2018/09/03
qiita

scikit-learn

python

analytics
リンク
[モデル作成編]0から本当に機械学習を理解するために学ぶべきこと～0からscikit-learnを使いこなす～ - Qiita
[kaggle]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～ [データラングリング編]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～前回までのあらすじ上記の記事では、タイタニック号の水難事故である人が生き残るかどうかを正確に判別できるような機械学習モデルを作るべく、訓練データの傾向や歴史的な事実を用いて仮説を立て、それに基づいて特徴量の作成など、様々な操作を行ってきました。ここからはいよいよ実際にscikit-learnを使って機械学習モデルの作成に入ります。モデルを作って予測するついに長きに渡った前処理を終えて、結果を予測させることができるようになりました。ここでは、その使いやすさで絶大な人気を誇る機械学習ライブラリのscikit-learnを使うことになります。この段階では、どんなアルゴリズムを
nabinno 2018/09/03
scikit-learn

python

analytics
リンク
Home Pricesの予測に挑戦①～量的変数に対して重回帰分析～ - Qiita
kaggleの中古物件価格予測にチャレンジ他の人のチュートリアルを見ながら理解したり、チューニングしたりはある程度できるようになってきたので、自分なりのやり方でkaggleの中古物件価格予測をやってみる課題のリンクはこちら初見の感想・方針変数が多い・・・説明変数・・・80! signateのお弁当の需要予測のように、yと各変数をプロットするのは難しいちょっと変数が多すぎるのでまずは量的変数だけで重回帰分析をやってみようと思う。チューニングとか質的変数、非線形モデルの利用はまた別の機会に変数選択方針：量的変数に絞り、相関係数のヒートマップで関係ありそうな値を算出データフレームの相関係数算出の書き方は以下 train.corr() [相関係数のヒートマップの書き方] (https://qiita.com/tmp_llc/it ems/db626c9e331bfdc4857a
nabinno 2018/08/31
qiita

scikit-learn

python

analytics
リンク
決定木による分類基準を集計する - Qiita
決定木で分類できるのはいいんだけど、どういう基準で分類していることが多いのか整理したい。そこで、決定木による分類基準を概観する方法を検討しました。参考にさせていただいたのは scikit-learnの決定木系モデルを視覚化する方法決定木の詳細を見るのは Graphviz (Graph Visualization Software) で視覚化するといいらしいですが、そこに出力された木を一個一個眺めるのってしんどいじゃないですか。なのでその結果を集計して概観したいなと。 iris のデータをインポート %matplotlib inline import matplotlib.pyplot as plt import pandas as pd import numpy as np import re from sklearn.datasets import load_iris from sk
nabinno 2018/08/30
qiita

scikit-learn

python

analytics
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ