Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
 
      
  
 
  
  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 事業会社でデータサイエンティストをしているu++です。普段ははてなブログ1で、Kaggleや自然言語処理などデータ分析に関する記事を定期的に書いています。 Kaggleでは2019年に「PetFinder.my Adoption Prediction」2というコンペで優勝(チーム)し、「Santander Value Prediction Challenge」3というコンペで銀メダルを獲得(個人)しました。「Kaggle Master」と呼ばれる称号4を得ており、Kaggle内ランクは、約16万人中最高229位です5。 本記事では「Ka
 
      
  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 初投稿です 追記(20171031) HTMLを出力する際のエンコードがasciiだったため日本語が文字化けしていましたが、UTF-8をサポートするようになったようです! 下記に文字化け対策の文章がありますが、読み飛ばしていただければ幸いです。 導入 セクシーなデータサイエンティストの皆様におかれましては、日々の業務で様々な機械学習のモデルを構築しておられるかと思います。それは例えば、あるサービスのユーザ情報を用いてコンバージョンするかしないかを予測していたり、またある時は年収を回帰で予測していたり、またあるときはユーザが投稿した画像情
 
      
  はじめに こちらの記事の内容を1枚絵にまとめたものになります。以下、文章で少しだけ補足します。 正解率系の各種指標について (参考)こちらの記事より引用させて頂きました。 クラス分類モデルの性能評価には様々な評価指標が存在しますが、上記の各種指標の計算で諸々算出されます。 用語を覚える際に混乱してしまいがちですが、以下の関係性さえ理解しておけば丸暗記しなくても思い出せます。 前一文字:正解か不正解かを示す -> T or F 後一文字:モデルからの予測分類を示す -> P or N 偽陽性は、FP(間違って陽性判定した数) / FP + TN(陰性全体の母数) 真陽性は、TP(正しく陽性判定した数) / TP + FN(陽性全体の母数) テキストでROC曲線とAUCをまとめる ①ROC曲線ってなんだ? クラス分類するためのスコア閾値を外部の変数として変化させ、偽陽性率を横軸に、真陽性率を縦
 
      
  はじめに 統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。 が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。 そこで、生データをダウンロードできるリンク集を作ってみました。 見つけ次第増やしていきます。 過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。 条件を色々入れると、CSVを生成してくれます。 データ容量制限がありますが、いろいろ使えそうです。 人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。 足のサイズとか、顔の大きさとかの
 
      
  昨日は統計のウソを見破る 5 つの視点として統計的誤りに関する注意点を説明しました。 本日はここであらためて、分析しようとしているデータそのものにスポットを当ててみたいと思います。 KPI (key performance indicator) とは目標を達成するために何が必要かを定量的に表す数値です。整形して美人になりたいというのは KPI ではありませんが、体重を 3 ヶ月後までに 10 キロ減らすとか鼻を 1.5 センチ高くするといったものは KPI です。 データにはどのような種類があり KPI として利用しようとしている指標はどんなデータなのか正しく理解していないとしばしば誤った KPI を導き、無意味なデータ分析へとつながる危険を孕みます。 変数とは 社会調査や医療統計など様々な分野で被調査対象者の状態を多方面から特定していきます。たとえばアンケートやカルテを想定してみましょう
 
      
  線形回帰における仮定 前々回、前回 と線形回帰について説明してきました。 線形回帰における最小二乗法では Y 軸の点と点の全体的な長さの差異 (= これを、それぞれの差の二乗を取ってから加算するので二乗誤差といいます) が最小になるように、まっすぐな線 (= 1 次式の直線となる関数) を求めました。すなわち、データの集合から直線に回帰する推定をおこなったわけです。 相関係数を求める どんな 2 次元データでも線形回帰で関数を導くことはできますが、それが妥当かどうか気になります。そこで両者の相関係数を求めます。相関係数はベクトル v1, v2 からそれぞれの要素 x, y の平均を求め、次に v1, v2 の分散と共分散を求めます。コードで表現してみましょう。 def correlation(data): n = len(data) # 二次元データの長さを n に求める xm = 0.0
 
      
  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Main Question can we teach computers to learn like humans do, by combining the power of memorization and generalization? Study Resources Tensorflow Tutorial Nice Qiita Post in Japanese Research Blog Visual Concept Case Study Let's say one day you wake up with an idea for
![[Review] Wide&Deep Learning - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/c5a065018045cb8935d9affbda0bcd09a5f0ab23/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fqiita-user-contents.imgix.net%252Fhttps%25253A%25252F%25252Fcdn.qiita.com%25252Fassets%25252Fpublic%25252Farticle-ogp-background-afbab5eb44e0b055cce1258705637a91.png%253Fixlib%253Drb-4.0.0%2526w%253D1200%2526blend64%253DaHR0cHM6Ly9xaWl0YS11c2VyLXByb2ZpbGUtaW1hZ2VzLmltZ2l4Lm5ldC9odHRwcyUzQSUyRiUyRmF2YXRhcnMzLmdpdGh1YnVzZXJjb250ZW50LmNvbSUyRnUlMkYyMDYyNjc5MiUzRnYlM0Q0P2l4bGliPXJiLTQuMC4wJmFyPTElM0ExJmZpdD1jcm9wJm1hc2s9ZWxsaXBzZSZiZz1GRkZGRkYmZm09cG5nMzImcz1lMTcxNzlmZDdkODRmMDAxMWY1YWZlNGI0YmNjMTZhOA%2526blend-x%253D120%2526blend-y%253D467%2526blend-w%253D82%2526blend-h%253D82%2526blend-mode%253Dnormal%2526s%253D252d3bb79a479c660485224722ed8572%3Fixlib%3Drb-4.0.0%26w%3D1200%26fm%3Djpg%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk2MCZoPTMyNCZ0eHQ9JTVCUmV2aWV3JTVEJTIwV2lkZSUyNkRlZXAlMjBMZWFybmluZyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMUUyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1wYWQ9MCZzPTdkZjBlMjhmYzE4ZTZhMDE4ZjM1ZGU5ZTczOTZmMjhj%26mark-x%3D120%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTgzOCZoPTU4JnR4dD0lNDBSb3dpbmcwOTE0JnR4dC1jb2xvcj0lMjMxRTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LXBhZD0wJnM9NGEwOTczZTZhZTVjN2ZiM2E0ZDkzMTU1MjRkZDdlZTc%26blend-x%3D242%26blend-y%3D480%26blend-w%3D838%26blend-h%3D46%26blend-fit%3Dcrop%26blend-crop%3Dleft%252Cbottom%26blend-mode%3Dnormal%26s%3D6de727fab18e05b3b15c118a08e2936c) 
      
  sklearn の LinearRegression クラスについての個人メモ。 LinearRegression とは 線形回帰モデルの一つ。説明変数の値から目的変数の値を予測する。 導入 import sklearn.linear_model.LinearRegression アトリビュート coef_ 回帰変数。 intercept_ 切片。 メソッド fit(x, y) 線形回帰モデルの当てはめを実行。訓練の開始。 xが対象データで、yが正解データ ※教師あり学習が前提 get_params() 推定に用いたパラメータを取得。 predict(x) モデルを使用して、xに対して予測を実行し予測値を算出する。 score(x, y) 決定係数を出力。予測値xと正解値yの相関を測る。 実践 import pandas as pd from sklearn.linear_model im
 
      
  機械学習で使用することを前提として、最小二乗法についてまとめます。 ど文系のメモなので、誤りなどあったら指摘していただければ嬉しいです。 最小二乗法とは 最小二乗法(さいしょうにじょうほう、さいしょうじじょうほう;最小自乗法とも書く、英: least squares method)は、測定で得られた数値の組を、適当なモデルから想定される1次関数、対数曲線など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法、あるいはそのような方法によって近似を行うことである。(Wikipedia) あるデータの分散について回帰を行いたいときなどに用いる考え方。 回帰直線をはじめとし、ロッソ回帰やリッジ回帰などの根底となる概念。 数式について 数式 モデル関数を f(x) とするとき
 
      
  こんにちは。 support vector machine (SVM) の計算は、 人工知能に関する断創録「ソフトマージンSVM」の手順(cvxopt を利用)にそっくり従うと、少し自分でも解を計算した気分になれます。下記1では、Lagrange乗数alphaの収束解、tabplot 等もプロットしています(class × prediction == 1 となるデータを強調表示。prediction == 0 が境界線)。 #!/usr/bin/env python # -*- coding: utf-8 -*- # support vector machine (SVM) の計算 # cvxopt.solvers.qp (Quadratic Programming) を利用 from __future__ import print_function import numpy as np
 
      
  TensorFlowが出てきたのでMNIST以外で学習をやらせてみました。 回帰を行って相関をだしていきます。 (追記)データ数に対して中間層の出力が多すぎたため中間層の値を修正しました。 ##概要 使うデータはdiabetes weightやbiaseはかなり適当に設定しています。 ##ソースコード import sklearn import tensorflow as tf from sklearn import datasets import numpy as np diabetes = datasets.load_diabetes() #データをロード print "load diabetes data" data = diabetes["data"].astype(np.float32) target = diabetes['target'].astype(np.float32)
 
      
  こんにちわ、昨日今日のデータエンジニア ひろぽん(hiroponius)です。 データ分析の部署でお仕事するようになって1年、 それまでのWeb(しかもフロント)系とはぜんぜん異なるノウハウが要求される中、 「このままでは円滑な業務遂行に差し支えが、統計の勉強せんと!」 「Rとかちゃんと使えるように!」 「ていうか、データともっと深い感じになりたい!」 ということで、まさに今年2014年がんばった軌跡、主に参考にした本について。 たぶん、以下のような状況でなおかつ統計学勉強したいなーと思ってる人に、 ちょっと役に立つ内容になってるはず、です。 (学習するにあたってのマイルストーンは統計検定2級合格レベルです。) いわゆる文系、ちゃんとした数学教育は高校まで 中学校課程の数学までは理解できる/具体的な数式で解ける 微分積分は「見たことあるし解いてたはずなんだけど忘れた...」 Σ... がん
 
      
   1
        1
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く