[B! 正規化] mahler-5のブックマーク

glmnetで正則化を試してみる - About connecting the dots.

タイトルの通り，よく考えたら今までL1/L2正則化を知識としては知ってるけど，実際に試したことはなかったことに気がついたので試してみましたよという話．L1/L2正則化にの理屈については，TJOさんのエントリとか，unnounnoさんのエントリとかをみてもらえれば良いのではと思います．それより詳しいことが知りたければ，PRMLでも読めば良いのではないでしょうか（適当*1）．まずはデータを眺める使用したデータは，caretパッケージのcarsパッケージです*2．中古車販売のデータっぽくて，価格と，走行距離とか気筒とかドア数とかの車に関するカラムが並んでます．データを読み込んで，可視化して，とりあえず lm() してみます． > library(glmnet) > library(caret) > library(psych) > > # load data > data(cars) > t

mahler-5 2018/07/07

リンク

SELECT INTO

mahler-5 2017/02/17

リンク

R言語scale()での正規化バリエーション - jnobuyukiのブログ

以前、データの正規化にはいろいろな方法があることを述べました。数量の正規化：方法の違いは何を意味するか？ - jnobuyukiのブログいろいろな正規化をやってくれるコマンドにR言語のscale（）があります。この関数は、何も考えずに使ってもそれなりに動きます。しかし、引数として含まれるパラメータを利用すると、もっと便利です。 scale()の引数 scaleには3つの引数があります。 1. 行列（matrix）オブジェクト: ここに当てはめた変数を正規化します。 2．center: パラメータの値として3種類あります。 TRUE: デフォルトの値です。行の平均値を全てのケースから引きます。 FALSE: 引き算をしません。数値ベクトル: 数値ベクトルの値をケースのそれぞれから引きます。 3. scale: centerと同様3種類の設定が可能です。 TRUE: デフォルトの値で

mahler-5 2016/06/27

リンク

standardプロシジャやstdizeプロシジャで色んな標準化の話

なんかスコアデータみたいのがあって、最低スコアを0にして最大スコアを100になるように値を変換してということがありました。 z得点だしたり、偏差値だしたり、はしょっちゅうするんで同じノリでproc standardでできるかなと思ったけど、よく考えてみると、あれ?ってなりました。 proc standardで行ういわゆる標準化は、平均と標準偏差が一定の値になるように変換するわけで今回みたいに無理やり最低値と最高値を決まった上限下限値にするのと全然違うよな～、平均も標準偏差も使わないし。もういいや～、面倒だからsummaryで各変数の最大、最小だして変換値 =（元の値 - 最小値） / (最大値　-　最小値)　* (設定上限値　-　設定下限値 )　+ 設定下限値でデータステップで片づけてしまいました。で後で、対応するプロシジャってなんになるんだろう、多分stdizeだろうなと

mahler-5 2016/04/08

リンク

非正規形から第一正規形へ- ＳＱＬ攻略 - Ｗｅｂ上でＳＱＬを実行しながらマスターするサイト

さていよいよ正規化の本題に突入します。ここでは過去に出題されたの問題を例に、正規化を解説します。（若干手を加えています）問題次のような繰返し構造をもったレコードからなるデータを，第３正規形に正規化せよ。ここで，下線部分は主キーを表す。また，単位と単価は商品コードごとに決まるものとする。またこの会社が取り扱っている商品は危険物であるため、購入先の市役所に電話連絡することが義務付けられている。非正規化状態の表伝票番号日付顧客コード顧客名住所市役所コード電話番号商品コード単位数量単価

mahler-5 2016/03/18

リンク

Google トレンドとデータ正規化のお話

SEMに携わっている方なら1度は利用したことのあるGoogle トレンド。入力した検索語句(検索クエリ)の検索トレンドを時系列で追うことができるツールです。前述したように、Google トレンドでは検索トレンドが視覚的に表示され、これまでの流行り廃りがグラフとなって一目で分かるため、とても利用度の高いツールであるのですが、「このデータは何を持って作られているのか？」という視点を持っていないと誤った判断をしてしまいかねません。備忘録的にGoogle トレンドの仕組みを簡単に紹介いたします。トレンドデータ≠検索ボリュームの絶対数Google トレンドにおけるデータは「実数から算出された相対値」から成り立ったデータになり、さらにその中では大きく3つの要素を反映した相対値をトレンドとして表示させています。検索ボリューム(実検索回数)の絶対値ととらわれがちなのですが、実際は検索ボリュームをシ

mahler-5 2016/03/05

正規化

リンク

数量の正規化：方法の違いは何を意味するか？ - jnobuyukiのブログ

大量のデータをまとめて、視覚的に表現すると、データが持つ特徴を直感的に理解できることがあります。今回は、データを視覚化する際に施される「正規化」について考えます。wikipediaの正規化の定義は以下のようになっています。正規化（せいきか、英: normalization）とは、データ等々を一定のルール（規則）に基づいて変形し、利用しやすくすること。この定義は非常に抽象度が高いですね。その理由についてwikipediaは以下のように述べています。非常に多くの分野で使われている言葉で、分野によって意味も大きく異なるため、頻度が高い分野についてそれぞれ個別に説明する。今回は、数量の正規化に話を限定します。しかし、数量の正規化に絞るだけでは、まだその意味がはっきりしません。正規化する方法が沢山あるからです。私の専門の心理学では、行動データとして得たものを多変量解析にかける前に正規化するこ

mahler-5 2015/12/25

正規化

リンク

正則化 - Wikipedia

数学・統計学・計算機科学において、特に機械学習と逆問題において、正則化（せいそくか、英: regularization）とは、不良設定問題を解いたり過学習を防いだりするために、情報を追加する手法である。モデルの複雑さに罰則を科すために導入され、なめらかでないことに罰則をかけたり、パラメータのノルムの大きさに罰則をかけたりする。正則化の理論的正当化はオッカムの剃刀にある。ベイジアンの観点では、多くの正則化の手法は、モデルのパラメータの事前情報にあたる。統計および機械学習における正則化[編集] 統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数の代わりに、を使用する。はパラメータのベクトルで、は L1 ノル

mahler-5 2015/12/25

リンク

[SQL]データの縦持ち、横持ちを入れ替える | DevelopersIO

はじめに弊社のデータ分析案件において、RedshiftにてSQLを実行してデータを抽出することが増えてまいりました。SQLはデータの抽出には強力なのですが、JavaやRubyなどのプログラミング言語と比べると独特であることも事実です。例えば(PL/SQLなどは除いてですが) ループがない変数に代入して次の処理に行くことができないメソッドやクラスに処理を分割できないなどです。これらの特徴からSQLでデータ抽出を行う為には、JavaやRubyなどとは異なった手法を取る必要があります。そこで「JavaやRubyとかでは・・・というやり方でやるのだけど、SQLではどうやるのだろう」というケースについて、シリーズ形式で何回かに分けて取り上げたいと思います。尚、SQLの基本的な構文(select、join、group byなど)については説明しません。またデータベースの種類に関わらず使用

mahler-5 2015/09/10

リンク

テーブルから取得したデータを別のテーブルに追加

テーブルにデータを追加する場合、 INSERT 文でデータを指定して追加する方法の他に、他のテーブルに格納されているデータを SELECT 文で取得し追加することもできます。ここでは SQLite でテーブルから取得したデータを別のテーブルに追加する方法について解説します。

mahler-5 2015/09/06

リンク

第4回　データベースの正規化｜OSS-DB入門｜OSS-DB道場｜受験対策｜DBスペシャリストを認定する資格 OSS-DB技術者認定試験

今回はデータベースの正規化について取り上げます。 PostgreSQL固有ではなく、RDBMS全般に関わる一般的なテーマですが、データベースを扱う上で重要な下地となる部分ですので、ぜひ基礎固めとしてご利用ください。「正規化」はOSS-DB Exam Silverの出題範囲にも含まれていますので、受験を考えている方も気を抜かずに取り組みましょう。正規化とはデータの重複をなくし整合的にデータを取り扱えるようにデータベースを設計することを、データベースの正規化と呼びます。正規化を行っておくと、データの追加・更新・削除などに伴うデータの不整合や喪失が起きるのを防ぎ、メンテナンスの効率を高めることができます。正規化の段階には、第1～第5正規形およびボイスコッド正規形がありますが、ここでは、データベースを設計する際に一般的に用いられる第1～第3正規形までを、前回登場したテーブルをもとにして説明し

mahler-5 2015/08/31

リンク

正規化を理解するための前提知識 - ＳＱＬ攻略 - Ｗｅｂ上でＳＱＬを実行しながらマスターするサイト

主キーは顧客コード、それ以外の項目は顧客名、住所、電話番号です。主キーとそれ以外の項目の関係を関数従属といいます。ちょっと小難しい言葉なので補足すると、y=xで（中学の数学に出てくる関数）xが例えば1だとyは1ですよね。y=2xならxが1でyは2。まぁ当たり前なのですが、xが決まればyが決まる。このような状態をyはxに関数従属しているといいます。同じように顧客コードが決まれば、顧客名、住所、電話番号は決まります。つまり、顧客名、住所、電話番号は顧客コードに関数従属しているんです。２．キーについてリレーショナルデータベースは、キーとそれ以外の項目からなっています。キーというのはそれがわかれば、他の値が決定するという、先ほど説明した関数従属させる側の項目のことです。キーにはいくつかの種類があって、テーブルの中から、レコードを特定できるキー項目のことを候補キーといいます。その中でも中心

mahler-5 2015/05/23

リンク