[B! qiita][scikit-learn] [3ページ] nabinnoのブックマーク

nabinno id:nabinno

qiitaとscikit-learnに関するnabinnoのブックマーク (118)

sklearnをpandasから使う場合の便利ツール - Qiita
sklearn-pandas とは？ pandasのDataFlameからsklearnのモデルやpiplineを使う際に若干の煩わしさが残っていたが、最近はsklearn-pandasというパッケージが開発されており扱い易くなっているようだ。このパッケージを使うと、例えば次のようなことができるようだ。 pandasのDataFlameをそのまま入力できて、なおかつ、出力もDataFlameで取り出せる。特定のコラム（特徴量）のみへの処理をsklearnのmodelと同様の形式で定義できる。従来より柔軟なpipelineを作成できる。従来、pandasのDataFlameをsklearnの適当なmodelで学習する場合、DataFlameの特定のコラムのみを抽出し、エンコーディング、欠損補完、スケーリング等を行った後、np.arrayとして、sklearnのmodel(piplin
nabinno 2018/08/27
qiita

scikit-learn

python

analytics
リンク
class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)のメモ - Qiita
alpha:float, optional -> スムージングparameter(defaultは1.0) fit_prior:boolean -> class prior probabilitiesを使うかどうか class_prior:array-like, size=[n_classes] -> Prior probabilities of the classes import numpy as np # 0~5の間の乱数、サイズは6*100のarray([[1番目の100こ],…,[6番目の100こ]]) X = np.random.randint(5, size=(6, 100)) # 教師データ Y = np.array([1,2,3,4,5,6]) # クラス -> X[0]はクラス1, X[2]がクラス3のような from sklearn.naive_bayes impor
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
機械学習〜線形モデル（回帰）〜 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
TF-IDFとword2vecを結合する - Qiita
fnc-1の優勝モデルでは、TF-IDFやword2vecをはじめ、5種類の特徴量が結合されています（さらに、deep learningとのアンサンブルモデルを構築している)。これを参考に、TF-IDFとword2vecを結合したら文書分類の精度が上がるのかを検証します。(ただし、ここではword2vecというより、nnlm-ja-dim128を使います) 事前準備データはスクレイピングによって取得しましたが、著作権などもあるので、ここでは公開しません。しかし、手順だけ示しておきます: 二値分類モデルとして定義し、カテゴリー1とカテゴリー2を定義する。カテゴリー1を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。カテゴリー2を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 Jupyter notebookで実行データのロード。 In
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
なんだかよくわからないCSVファイルで機械学習（回帰）を試すまでにしたことまとめ - Qiita
はじめにデータの分析を依頼されたのですが、秘匿情報が含まれるということから全然情報を頂けないままファイルを受け取り、初期診断をすることとなったので、その手順をまとめてみました。前提条件として、これからこのような依頼が継続しそうなので、他のツールを使って確認するというのではなく、初期診断用のスクリプトを作成することを目的とします。ファイルのエンコーディングを確認まずはファイルを開くためにエンコーディングを確認します。ここでは、日本語圏を対象としているので、日本語を扱うエンコーディングのみを試します。 f = lambda d, e: d.decode(e) and e encs = ["utf-8", "shift-jis", "euc-jp", "iso2022-jp"] datfile = open("sample.csv", "br") data = datfile.read
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
文系人間が機械学習をざっくりと説明してみる - Qiita
イントロ文系・初心者の私が機械学習について少し学んだのでざっくりとまとめてみました。初心者向けにざっくりとイメージだけ掴む感じで書いたのと独学なのとで間違っていることがあればご指摘ください。この記事では下記について書きます。・機械学習ができるライブラリ・scikit-learnでできること・scilit-learnの使い方そもそも機械学習とは機械学習については下記のサイトが参考になりました。 https://qiita.com/taki_tflare/it ems/42a40119d3d8e622edd2 人工知能を形成している一部分という感じでしょうか。機械学習の一部にニューラルネットワークというものがあります。ニューラルネットワークはざっくりいうと「人間の脳の機能を真似して作られた計算処理」という感じらしいです。ニューラルネットワークには入ってきたデータの特徴を絞り込ん
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
ベイズ最適化シリーズ（2）　－アンサンブル学習（Voting）の最適化－ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
pythonで、不均衡データを識別が難しいサンプルを残してundersamplingしたいときは、imbalanced-learnのNearMissを使う - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? intro 分類タスクなどで、クラスごとのサンプル数が極端に偏っていることがあります。そういった場合、一つの方法としてresamplingを行うことがあります。どちらかといえばoversamplingを使うことのケースが多いかと思うのですが、以下のようにundersamplingを使いたいケースがありました。全部を使ってトレーニングするには、データが多すぎる。偏りが非常に大きいため、Majority classを大幅に減らしたい線形で分けにくいケースがある Majority classのうち明らかに識別できそうなものを除いて
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
散布図・重回帰分析の自分的まとめ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
機械学習〜データセット生成〜 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
機械学習〜線形モデル（分類）〜 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
scikit-learn入門 - Qiita
公式サイト一般的な評価下記の記事にもある通り、機械学習のライブラリの中ではやはり随一の知名度を誇り、アルゴリズムのバラエティにも富んでいます。また、使い方も非常に簡単で、理論を勉強しながら実際にそれを現実的な問題に適用してみるということを簡単に行えるようにしてくれるライブラリです。 https://www.quora.com/What-are-the-best-open-source-machine-learning-libraries-written-in-Python 機械学習のモデル構築プロセス画像引用：https://www.cloudpulsestrat.com/posts/googles-new-cloud-automl-broader-role-automated-machine-learning-ai データ・課題の整理をするちょっと長くなってしまいますが、一番大
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
Yet another 機械学習で株価を予測する (1) - Qiita
1. はじめにこれまでもQiitaには株価を機械学習/ディープラーニングで予想する、という記事が投稿されてきました (例えば参考文献の1)。果たしてそれに付け加えることがあるのか、という気もしますが考え方の整理も兼ねて投稿したいと思います。主な方針としては日経平均(N225)がその日上がるか、下がるかを予測する N225を含む指標の、始値 (Open)、高値 (High)、安値 (Low)、終値 (Close)のみを使う機械学習のライブラリとしてはscikit-learnを使うです。1については今日の終値が昨日の終値より安いか高いか正確に予測できたとしても、それで利益を出すのは難しそうだからです。ただし予測の難易度は上がります(70%の精度は夢のまた夢です)。2はデータの入手性によります。3はディープラーニング系のライブラリ(tensorflowなど)は使わないということです。これ
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
機械学習でサザエさんとじゃんけん勝負（SVM編） - Qiita
# !/usr/bin/env python2.7 # -*- coding: utf-8 -*- import numpy as np from sklearn.svm import LinearSVC from sklearn.model_selection import GridSearchCV import mydata idx_features = np.r_[1:5] ## read data data_orig = mydata.read() win_total = 0 draw_total = 0 lose_total = 0 for year in xrange(1996, 2019): # 前年までのデータで学習 data_train = data_orig[data_orig[:, 0] < year] X_train = data_train[:, idx_feat
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
digdag on docker による機械学習モデルの継続的学習 - Qiita
こんにちは、CET というチームに所属している @kojisuganuma です。普段は機械学習エンジニアリングと Splatoon2 をメインでやってます。本記事では、個人的に勉強中の OSS ワークフローエンジン digdag を使って、機械学習モデルの継続的学習を実現してみたいと思います。ポイントは以下の通り。 digdag server, PosgreSQL を docker コンテナで動かす digdag のタスクを digdag server とは別コンテナの上で動かす scikit-learn を使って機械学習モデリング scikit-learn の学習済みモデルを cloudpickle でシリアライズ対象読者 docker を使って digdag server を構築したい方機械学習モデルの継続的学習を実現したい方 scikit-learn を使って機械学習モデリ
nabinno 2018/08/26
qiita

scikit-learn

python

analytics
リンク
scikit-learnのParallelで並列処理 - Qiita
2019/1016 追記: Joblibのキャッシュ機能について書きました。 [Python] Joblibのキャッシュを使って同じ計算を省略する scikit-learnのチュートリアルといえば@Scaled_Wurmマンの紹介がとても分かりやすい。今回はたまたまソースコードを読んでいて、かつそのブログエントリでは紹介さていなかったニッチなところをメモする。結論としては特に理由が無いならmultiprocessingで書いている部分はParallelで置き換えても良さそう、ということ。 Parallel 並列処理をおこなうクラス基本的にはmultiprocessingで並列処理をおこなうんだけど、あったらいいな〜というヘルプ機能を提供してくれる。 multiprocessingじゃダメなの？ Parallelは (原文はソースコード中のNotes) 関数の引数をリストで作らなくもて
nabinno 2018/07/10
qiita

scikit-learn

python

analytics
リンク
【翻訳】scikit-learn 0.18 チュートリアルテキストデータの操作 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/05/19
qiita

scikit-learn

python

analytics
リンク
scikit-learnで機械学習を試す SVM - Qiita
こんにちは。初心者です。あるサービス（念写できる人と何か念写してほしい人のマッチングサービスです）で機械学習ためそうと思っていて、調べている最中です。問題試しに、これの1問目を解くよー。教師あり学習の問題です。上記ページの回答例のように、SVMを使ってみます。ライブラリは、scikit-learnを使ってみた。 SVM使いたいだけならほかにもライブラリあるみたいだけど、scikit-learnいいよ~的なことを言う人が多いので使ってみました。とりあえずやってみる # -*- coding: utf-8 -*- from sklearn.svm import LinearSVC import numpy as np # 学習データ data_training_tmp = np.loadtxt('CodeIQ_auth.txt', delimiter=' ') data_train
nabinno 2018/05/16
qiita

scikit-learn

python

analytics
リンク
scikit-learnとgensimでニュース記事を分類する - Qiita
こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が
nabinno 2018/05/16
qiita

scikit-learn

python

analytics
リンク
scikit-learn によるナイーブベイズ分類器 - Qiita
ナイーブベイズの概要ナイーブベイズ分類器は特徴ベクトル間に条件付き独立性を仮定したベイズ定理に基づく分類器です。現実の問題では特徴を表す素性同士に何らかの相関が見られるケースが多々ありますが、独立性仮定によって計算量を簡素化・削減し、高速でそこそこの精度を誇る分類器を実装することができます。ベイジアンとヒューリスティクスこれらを鑑みるとそもそも元より高精度を期待できる分類器ではないですし、諸々の論文等では比較対象として負けるための分類器とまで言う声も聞かれるほどです。多くは独立性を仮定するべきではない問題に適用しているからで当たり前なのですが、筆者の私見としてはナイーブベイズはヒューリスティックな問題に高い実用性を発揮すると思います。例えばテキストマイニングといった完全性を追い求めるのがなかなか難しい分野において、高速である程度の正解率を叩きだす分類器として実用性能が高いでしょう。
nabinno 2018/05/16
qiita

scikit-learn

python

analytics
リンク
前のページ 1 2 3 4 5 6 次のページ