[B! scikit-learn] mahler-5のブックマーク

mahler-5 id:mahler-5

scikit-learnに関するmahler-5のブックマーク (16)

Notebook
mahler-5 2017/04/27
python3

python

scikit-learn

判別分析
リンク
keisukeのブログ
はてなの TeX がぶっ壊れているので Qiita に移行します。 ==新ブログはこちら== 2015-06-01追記：はてなの TeX のレンダリングに難があるため Qiita に移行しました追記ここまで How to intuitively explain what a kernel is?に対する回答がわかりやすかったので和訳まずは質問の意図から。質問者は、「カーネルとは直感的に説明するとなんなのか？」を聞いています。それに対する回答のひとつが、上記のリンク先です。和訳カーネルとはふたつのベクトルとの内積を(たいていはとても高次元の)特徴空間で計算する方法であり、これがカーネル関数が時々「一般化内積」と呼ばれる理由です。上にあるベクトルをなんらかの特徴空間へ写す写像があるとします。すると、その空間でのとの内積はです。カーネルとはこの内積に対応する関数で、つ
mahler-5 2015/06/15
sqlite

python

R

scikit-learn

pandas
リンク
Python for R Users
A side by side comparison of using Python for R users using a standard data science/ analytics workflow
mahler-5 2015/05/17
R

python

scikit-learn
リンク
PyCon Montreal 2015 tutorials - Hands-on way to learn Data Science in Python
PyCon Montreal 2015 tutorials – Hands-on way to learn Data Science in Python Introduction PyCon(s) carry a benevolent motive of helping the Python community worldwide by providing extensive knowledge resources. I started following PyCon conferences from 2013. My first learning experience from PyCon tutorials & workshops inspired me to follow it back in the year 2014 and this craze continued in 201
mahler-5 2015/05/05
ubuntu

python

scikit-learn

hadoop
リンク
PCAとkmeansを組み合わせた分析 - 新kensuke-miの日記
いままで知らなかったのだが、常套手段らしい。どういう時に役にたつか？大目的あるデータがあって、そのデータをクラスタリングしたい。（つまり、データをkmeasnで分離したい。）問題どころデータの状況によっては、実数空間のままではうまく分離ができないことがある。つまり、データの性質から望ましくない分離がなされてしまう（であろうとすでにわかっている）どう解決するか？あらかじめ、別の空間に射影しておき、その空間でクラスターに分離してしまえばよい。つまり、PCAで新しい軸ではられる空間に射影しておき、その空間上でkmeansクラスタリングを行うのだ。ちょっとした言い訳自分はいままでPCAと言えば、「次元圧縮をするもの」と理解していたので、この使い方がはじめは理解できなかった。でも、このページの主成分分析でも解説されているように、PCAには「データの特徴を表す新しい指標を見つけ
mahler-5 2015/04/30
python

scikit-learn
リンク
ロジスティック回帰 (勾配降下法 / 確率的勾配降下法) を可視化する - StatsFragments
いつの間にかシリーズ化して、今回はロジスティック回帰をやる。自分は行列計算ができないクラスタ所属なので、入力が3次元以上 / 出力が多クラスになるとちょっときつい。教科書を読んでいるときはなんかわかった感じになるんだが、式とか字面を追ってるだけだからな、、、やっぱり自分で手を動かさないとダメだ。また、ちょっとした事情により今回は Python でやりたい。Python のわかりやすい実装ないんかな？と探していたら以下の ipyton notebook を見つけた。 http://nbviewer.ipython.org/gist/mitmul/9283713 こちらのリンク先に2クラス/多クラスのロジスティック回帰 (確率的勾配降下法) のサンプルがある。ありがたいことです。理論的な説明も書いてあるのでロジスティック回帰って何？という方は上を読んでください (放り投げ)。この記事で
mahler-5 2015/04/30
scikit-learn

python

機械学習
リンク
kaggleにpythonを使ってみる(2) 〜sklearn - 忘れないようにメモっとく
機械学習ライブラリのsklearn(scikit-learn) 前回の続き予測モデルをつくるときに、機械学習のライブラリを使ってみようということで、sklearnを試してみる。というかpandasに機械学習入ってると思ってた。。まずはインストール。 $ pip install scikit-learn 機械学習はいろんなモジュールに分割されているので、必要なものを以下のように、importする。 # 決定木 from sklearn import tree # 線形モデル from sklearn import linear_model # ニューラルネットワーク from sklearn import neural_network # サポートベクターマシン from sklearn import svm 今回は、ロジスティック回帰を使う。 import pandas as pd
mahler-5 2015/04/30
scikit-learn

python

機械学習
リンク
SSSSLIDE
mahler-5 2015/04/30
scikit-learn

機械学習

python
リンク
スゲェ面白い！「scikit-learn」で機械学習入門 - アゲハマンの日記
自己紹介サンライズコーポレーションの@uedaです普段は渋谷系大手広告代理店でアプリ製作をお手伝いしています。激アツの機械学習にチャレンジしてチートシートを作ってみます。自分の備忘録として書いているのでツッコミは一切受け付けておりません（キリッ）機械学習って何ができんの昔から人工知能の開発は行われており、パターンから次を予測するようなモノは実現していたんですが、人間のように画像を見て何を意味するかを読み取ったり、違うパターンが来た時も自分で規則性を見出したりする事はできなかった、しかし深層学習（DeepLeaning）って云う脳と同じ構造をもたせる事でそれらが可能になってきたっつー発展途上中だけど確実に次世代に花咲くテクノロジー確定なのです（キリッ）東大の教授曰く言語分野における深層学習ブームは2014年11月頃に終息したみたいですが... まだまだ激アツなのは間違いない。
mahler-5 2015/04/30
scikit-learn

機械学習

python

クラスター分析
リンク
Pythonで主成分分析 - old school magic
概要主成分分析(Principal Component Analysis, PCA)とは、データの無相関化データの次元の削減を行う手法です。簡単に言うと、データを分析しやすいように再構成し、可能なら次元を下げることです。なぜ次元を削減する必要があるかと言うと、機械学習や統計において、データの次元が大きすぎると認識精度が悪くなる、次元の呪いという現象を回避するためです。 (2次元や3次元に変換できると可視化できる、というメリットもあります。) 今回は、Pythonを使って主成分分析を試してみようと思います。主成分分析の例ライブラリとしてscikit-learn、テストデータとしてiris datasetを用います。 scikit-learnはPythonの機械学習ライブラリです。主成分分析も実装されています。導入等については、次の記事をご参照ください。 MacでPython
mahler-5 2015/04/29
python

主成分分析

scikit-learn

機械学習
リンク
scikit-learnとgensimでニュース記事を分類する - Qiita
こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が
mahler-5 2015/04/29
python

scikit-learn

機械学習

あとで読む
リンク
PythonでHadoopを実行するラッパー - Qiita
Hadoopの機械学習をPythonでやりたい Java以外でもHadoopのJobを書くことが出来るので、機械学習に強いPythonをHadoopで実装できるようなSkipJackというラッパーをPythonもくもく会と正月で作りました。 GitHubは以下においています。(pipは無し) GitHub-SkipJack 以下、詳細 HadoopStreaming Scikit-learn SkipJack HadoopStreaming Hadoopでは、スレーブ部分でJavaを実行する(Haoop MR Tutorial) スレーブ部分で標準入出力を介してファイルを実行する(Hadoop Streaming Tutorial) という２つの実行方法があり、標準入出力を扱える全ての言語でHadoopが使えます。(Hadoop Streaming) なので、Hadoopで機械学習を
mahler-5 2015/04/29
hadoop

scikit-learn

python
リンク
入門機械学習の線形回帰をscikit-learnでやってみる
> lm.fit <- lm(log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) > summary(lm.fit) Call: lm(formula = log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) Residuals: Min 1Q Median 3Q Max -2.1825 -0.7986 -0.0741 0.6467 5.1549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.83441 0.75201 -3.769 0.000173 *** log(UniqueVisitors) 1.33628 0.04568 29.251 < 2e-16 *** -
mahler-5 2015/01/12
scikit-learn

Python

重回帰分析
リンク
pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て
mahler-5 2015/01/12
scikit-learn

python
リンク
scikit-learnでよく利用する関数の紹介
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめにこんにちは。ヤフーで広告プロダクトのデータ分析をしている田中と申します。今回のAdvent Calendar 2014では、データサイエンスのプロセスの中の「分析・モデリング」で私がよく利用しているツールについて書いています。どうぞよろしくお願い致します。データサイエンスのプロセスについては、いろいろと定義があると思いますが基本的に以下の5つのプロセスからなると自分は考えています。・問題設定・データ抽出・加工・分析・モデリング・評価・ビジネス提案/プロダクト実装どのプロセスもとても大事で、例えば「問題設定」では、ビジネス的な課題（売上低迷・KPI低下）を分析課題に落とすのですが、ここを間違えてしまうと
mahler-5 2015/01/03
scikit-learn

python
リンク
scikit-learn: machine learning in Python
Simple and efficient tools for predictive data analysis Accessible to everybody, and reusa ble in various contexts Built on NumPy, SciPy, and matplotlib Open source, commercially usa ble - BSD license Classification Identifying which category an object belongs to. Applications: Spam detection, image recognition. Algorithms: Gradient boosting, nearest neighbors, random forest, logistic regression, an
mahler-5 2015/01/03
scikit-learn

python

機械学習
リンク
1