はてなの TeX がぶっ壊れているので Qiita に移行します。 ==新ブログはこちら== 2015-06-01追記:はてなの TeX のレンダリングに難があるため Qiita に移行しました 追記ここまで How to intuitively explain what a kernel is?に対する回答がわかりやすかったので和訳 まずは質問の意図から。 質問者は、「カーネルとは直感的に説明するとなんなのか?」を聞いています。それに対する回答のひとつが、上記のリンク先です。 和訳 カーネルとはふたつのベクトル と の内積を(たいていはとても高次元の)特徴空間で計算する方法であり、これがカーネル関数が時々「一般化内積」と呼ばれる理由です。 上にあるベクトルをなんらかの特徴空間 へ写す写像 があるとします。すると、その空間での と の内積は です。カーネルとはこの内積に対応する関数 で、つ
PyCon Montreal 2015 tutorials – Hands-on way to learn Data Science in Python Introduction PyCon(s) carry a benevolent motive of helping the Python community worldwide by providing extensive knowledge resources. I started following PyCon conferences from 2013. My first learning experience from PyCon tutorials & workshops inspired me to follow it back in the year 2014 and this craze continued in 201
いままで知らなかったのだが、常套手段らしい。 どういう時に役にたつか? 大目的 あるデータがあって、そのデータをクラスタリングしたい。(つまり、データをkmeasnで分離したい。) 問題どころ データの状況によっては、実数空間のままではうまく分離ができないことがある。 つまり、データの性質から望ましくない分離がなされてしまう(であろうとすでにわかっている) どう解決するか? あらかじめ、別の空間に射影しておき、その空間でクラスターに分離してしまえばよい。 つまり、PCAで新しい軸ではられる空間に射影しておき、その空間上でkmeansクラスタリングを行うのだ。 ちょっとした言い訳 自分はいままでPCAと言えば、「次元圧縮をするもの」と理解していたので、この使い方がはじめは理解できなかった。 でも、このページの主成分分析でも解説されているように、PCAには「データの特徴を表す新しい指標を見つけ
いつの間にかシリーズ化して、今回はロジスティック回帰をやる。自分は行列計算ができないクラスタ所属なので、入力が3次元以上 / 出力が多クラスになるとちょっときつい。教科書を読んでいるときはなんかわかった感じになるんだが、式とか字面を追ってるだけだからな、、、やっぱり自分で手を動かさないとダメだ。 また、ちょっとした事情により今回は Python でやりたい。Python のわかりやすい実装ないんかな?と探していたら 以下の ipyton notebook を見つけた。 http://nbviewer.ipython.org/gist/mitmul/9283713 こちらのリンク先に2クラス/多クラスのロジスティック回帰 (確率的勾配降下法) のサンプルがある。ありがたいことです。理論的な説明も書いてあるので ロジスティック回帰って何?という方は上を読んでください (放り投げ)。 この記事で
機械学習ライブラリのsklearn(scikit-learn) 前回の続き 予測モデルをつくるときに、機械学習のライブラリを使ってみようということで、sklearnを試してみる。 というかpandasに機械学習入ってると思ってた。。 まずはインストール。 $ pip install scikit-learn 機械学習はいろんなモジュールに分割されているので、必要なものを以下のように、importする。 # 決定木 from sklearn import tree # 線形モデル from sklearn import linear_model # ニューラルネットワーク from sklearn import neural_network # サポートベクターマシン from sklearn import svm 今回は、ロジスティック回帰を使う。 import pandas as pd
自己紹介 サンライズコーポレーションの@uedaです 普段は渋谷系大手広告代理店でアプリ製作をお手伝いしています。 激アツの機械学習にチャレンジしてチートシートを作ってみます。 自分の備忘録として書いているのでツッコミは一切受け付けておりません(キリッ) 機械学習って何ができんの 昔から人工知能の開発は行われており、パターンから次を予測するようなモノは実現していたんですが、人間のように画像を見て何を意味するかを読み取ったり、違うパターンが来た時も自分で規則性を見出したりする事はできなかった、しかし深層学習(DeepLeaning)って云う脳と同じ構造をもたせる事でそれらが可能になってきたっつー発展途上中だけど確実に次世代に花咲くテクノロジー確定なのです(キリッ) 東大の教授曰く言語分野における深層学習ブームは2014年11月頃に終息したみたいですが... まだまだ激アツなのは間違いない。
概要 主成分分析(Principal Component Analysis, PCA)とは、 データの無相関化 データの次元の削減 を行う手法です。 簡単に言うと、データを分析しやすいように再構成し、可能なら次元を下げることです。 なぜ次元を削減する必要があるかと言うと、機械学習や統計において、データの次元が大きすぎると認識精度が悪くなる、次元の呪いという現象を回避するためです。 (2次元や3次元に変換できると可視化できる、というメリットもあります。) 今回は、Pythonを使って主成分分析を試してみようと思います。 主成分分析の例 ライブラリとしてscikit-learn、テストデータとしてiris datasetを用います。 scikit-learnはPythonの機械学習ライブラリです。主成分分析も実装されています。 導入等については、次の記事をご参照ください。 MacでPython
こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が
Hadoopの機械学習をPythonでやりたい Java以外でもHadoopのJobを書くことが出来るので、 機械学習に強いPythonをHadoopで実装できるようなSkipJackというラッパーをPythonもくもく会と正月で作りました。 GitHubは以下においています。(pipは無し) GitHub-SkipJack 以下、詳細 HadoopStreaming Scikit-learn SkipJack HadoopStreaming Hadoopでは、 スレーブ部分でJavaを実行する(Haoop MR Tutorial) スレーブ部分で標準入出力を介してファイルを実行する(Hadoop Streaming Tutorial) という2つの実行方法があり、 標準入出力を扱える全ての言語でHadoopが使えます。(Hadoop Streaming) なので、Hadoopで機械学習を
> lm.fit <- lm(log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) > summary(lm.fit) Call: lm(formula = log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) Residuals: Min 1Q Median 3Q Max -2.1825 -0.7986 -0.0741 0.6467 5.1549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.83441 0.75201 -3.769 0.000173 *** log(UniqueVisitors) 1.33628 0.04568 29.251 < 2e-16 *** -
scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。ヤフーで広告プロダクトのデータ分析をしている田中と申します。 今回のAdvent Calendar 2014では、データサイエンスのプロセスの中の「分析・モデリング」で私がよく利用しているツールについて書いています。 どうぞよろしくお願い致します。 データサイエンスのプロセスについては、いろいろと定義があると思いますが 基本的に以下の5つのプロセスからなると自分は考えています。 ・問題設定 ・データ抽出・加工 ・分析・モデリング ・評価 ・ビジネス提案/プロダクト実装 どのプロセスもとても大事で、例えば「問題設定」では、ビジネス的な課題(売上低迷・KPI低下)を分析課題に落とすのですが、ここを間違えてしまうと
Simple and efficient tools for predictive data analysis Accessible to everybody, and reusable in various contexts Built on NumPy, SciPy, and matplotlib Open source, commercially usable - BSD license Classification Identifying which category an object belongs to. Applications: Spam detection, image recognition. Algorithms: Gradient boosting, nearest neighbors, random forest, logistic regression, an
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く