タグ

正規化に関するmahler-5のブックマーク (13)

  • glmnetで正則化を試してみる - About connecting the dots.

    タイトルの通り,よく考えたら今までL1/L2正則化を知識としては知ってるけど,実際に試したことはなかったことに気がついたので試してみましたよという話.L1/L2正則化にの理屈については,TJOさんのエントリとか,unnounnoさんのエントリとかをみてもらえれば良いのではと思います.それより詳しいことが知りたければ,PRMLでも読めば良いのではないでしょうか(適当*1). まずはデータを眺める 使用したデータは,caretパッケージのcarsパッケージです*2.中古車販売のデータっぽくて,価格と,走行距離とか気筒とかドア数とかの車に関するカラムが並んでます.データを読み込んで,可視化して,とりあえず lm() してみます. > library(glmnet) > library(caret) > library(psych) > > # load data > data(cars) > t

    glmnetで正則化を試してみる - About connecting the dots.
  • SELECT INTO

  • R言語scale()での正規化バリエーション - jnobuyukiのブログ

    以前、データの正規化にはいろいろな方法があることを述べました。 数量の正規化:方法の違いは何を意味するか? - jnobuyukiのブログ いろいろな正規化をやってくれるコマンドにR言語のscale()があります。 この関数は、何も考えずに使ってもそれなりに動きます。 しかし、引数として含まれるパラメータを利用すると、もっと便利です。 scale()の引数 scaleには3つの引数があります。 1. 行列(matrix)オブジェクト: ここに当てはめた変数を正規化します。 2.center: パラメータの値として3種類あります。 TRUE: デフォルトの値です。行の平均値を全てのケースから引きます。 FALSE: 引き算をしません。 数値ベクトル: 数値ベクトルの値をケースのそれぞれから引きます。 3. scale: centerと同様3種類の設定が可能です。 TRUE: デフォルトの値で

    R言語scale()での正規化バリエーション - jnobuyukiのブログ
  • standardプロシジャやstdizeプロシジャで色んな標準化の話

    なんかスコアデータみたいのがあって、最低スコアを0にして 最大スコアを100になるように値を変換してということがありました。 z得点だしたり、偏差値だしたり、はしょっちゅうするんで同じノリでproc standardでできるかなと 思ったけど、よく考えてみると、あれ?ってなりました。 proc standardで行ういわゆる標準化は、平均と標準偏差が一定の値になるように変換するわけで 今回みたいに無理やり最低値と最高値を決まった上限下限値にするのと全然違うよな~、平均も標準偏差も 使わないし。 もういいや~、面倒だからsummaryで各変数の最大、最小だして 変換値 =(元の値 - 最小値) / (最大値 - 最小値) * (設定上限値 - 設定下限値 ) + 設定下限値 でデータステップで片づけてしまいました。 で後で、対応するプロシジャってなんになるんだろう、多分stdizeだろうなと

  • 非正規形から第一正規形へ- SQL攻略 - Web上でSQLを実行しながらマスターするサイト

    さていよいよ正規化の題に突入します。ここでは過去に出題されたの問題を例に、正規化を解説します。(若干手を加えています) 問題 次のような繰返し構造をもったレコードからなるデータを,第3正規形に正規化せよ。ここで,下線部分は主キーを表す。また,単位と単価は商品コードごとに決まるものとする。またこの会社が取り扱っている商品は危険物であるため、購入先の市役所に電話連絡することが義務付けられている。 非正規化状態の表 伝票 番号日付顧客 コード顧客名住所市役所 コード電話 番号商品 コード単位数量単価

  • Google トレンドとデータ正規化のお話

    SEMに携わっている方なら1度は利用したことのあるGoogle トレンド。入力した検索語句(検索クエリ)の検索トレンドを時系列で追うことができるツールです。 前述したように、Google トレンドでは検索トレンドが視覚的に表示され、これまでの流行り廃りがグラフとなって一目で分かるため、とても利用度の高いツールであるのですが、「このデータは何を持って作られているのか?」という視点を持っていないと誤った判断をしてしまいかねません。 備忘録的にGoogle トレンドの仕組みを簡単に紹介いたします。 トレンドデータ≠検索ボリュームの絶対数Google トレンドにおけるデータは「実数から算出された相対値」から成り立ったデータになり、さらにその中では大きく3つの要素を反映した相対値をトレンドとして表示させています。 検索ボリューム(実検索回数)の絶対値ととらわれがちなのですが、実際は検索ボリュームをシ

    Google トレンドとデータ正規化のお話
  • 数量の正規化:方法の違いは何を意味するか? - jnobuyukiのブログ

    大量のデータをまとめて、視覚的に表現すると、データが持つ特徴を直感的に理解できることがあります。今回は、データを視覚化する際に施される「正規化」について考えます。wikipediaの正規化の定義は以下のようになっています。 正規化(せいきか、英: normalization)とは、データ等々を一定のルール(規則)に基づいて変形し、利用しやすくすること。 この定義は非常に抽象度が高いですね。その理由についてwikipediaは以下のように述べています。 非常に多くの分野で使われている言葉で、分野によって意味も大きく異なるため、頻度が高い分野についてそれぞれ個別に説明する。 今回は、数量の正規化に話を限定します。しかし、数量の正規化に絞るだけでは、まだその意味がはっきりしません。正規化する方法が沢山あるからです。私の専門の心理学では、行動データとして得たものを多変量解析にかける前に正規化するこ

  • 正則化 - Wikipedia

    数学・統計学・計算機科学において、特に機械学習と逆問題において、正則化(せいそくか、英: regularization)とは、不良設定問題を解いたり過学習を防いだりするために、情報を追加する手法である。モデルの複雑さに罰則を科すために導入され、なめらかでないことに罰則をかけたり、パラメータのノルムの大きさに罰則をかけたりする。 正則化の理論的正当化はオッカムの剃刀にある。ベイジアンの観点では、多くの正則化の手法は、モデルのパラメータの事前情報にあたる。 統計および機械学習における正則化[編集] 統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。 機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数 の代わりに、 を使用する。 はパラメータのベクトルで、 は L1 ノル

  • [SQL]データの縦持ち、横持ちを入れ替える | DevelopersIO

    はじめに 弊社のデータ分析案件において、RedshiftにてSQLを実行してデータを抽出することが増えてまいりました。SQLはデータの抽出には強力なのですが、JavaRubyなどのプログラミング言語と比べると独特であることも事実です。 例えば(PL/SQLなどは除いてですが) ループがない 変数に代入して次の処理に行くことができない メソッドやクラスに処理を分割できない などです。 これらの特徴からSQLでデータ抽出を行う為には、JavaRubyなどとは異なった手法を取る必要があります。そこで「JavaRubyとかでは・・・というやり方でやるのだけど、SQLではどうやるのだろう」というケースについて、シリーズ形式で何回かに分けて取り上げたいと思います。 尚、SQLの基的な構文(select、join、group byなど)については説明しません。またデータベースの種類に関わらず使用

    [SQL]データの縦持ち、横持ちを入れ替える | DevelopersIO
  • テーブルから取得したデータを別のテーブルに追加

    テーブルにデータを追加する場合、 INSERT 文でデータを指定して追加する方法の他に、他のテーブルに格納されているデータを SELECT 文で取得し追加することもできます。ここでは SQLite でテーブルから取得したデータを別のテーブルに追加する方法について解説します。

    テーブルから取得したデータを別のテーブルに追加
  • 第4回 データベースの正規化|OSS-DB入門|OSS-DB道場|受験対策|DBスペシャリストを認定する資格 OSS-DB技術者認定試験

    今回はデータベースの正規化について取り上げます。 PostgreSQL固有ではなく、RDBMS全般に関わる一般的なテーマですが、データベースを扱う上で重要な下地となる部分ですので、ぜひ基礎固めとしてご利用ください。「正規化」はOSS-DB Exam Silverの出題範囲にも含まれていますので、受験を考えている方も気を抜かずに取り組みましょう。 正規化とは データの重複をなくし整合的にデータを取り扱えるようにデータベースを設計することを、データベースの正規化と呼びます。正規化を行っておくと、データの追加・更新・削除などに伴うデータの不整合や喪失が起きるのを防ぎ、メンテナンスの効率を高めることができます。 正規化の段階には、第1~第5正規形およびボイスコッド正規形がありますが、ここでは、データベースを設計する際に一般的に用いられる第1~第3正規形までを、前回登場したテーブルをもとにして説明し

  • 正規化を理解するための前提知識 - SQL攻略 - Web上でSQLを実行しながらマスターするサイト

    主キーは顧客コード、それ以外の項目は顧客名、住所、電話番号です。主キーとそれ以外の項目の関係を関数従属といいます。 ちょっと小難しい言葉なので補足すると、y=xで(中学の数学に出てくる関数)xが例えば1だとyは1ですよね。y=2xならxが1でyは2。まぁ当たり前なのですが、xが決まればyが決まる。このような状態をyはxに関数従属しているといいます。 同じように顧客コードが決まれば、顧客名、住所、電話番号は決まります。つまり、顧客名、住所、電話番号は顧客コードに関数従属しているんです。 2.キーについて リレーショナルデータベースは、キーとそれ以外の項目からなっています。キーというのはそれがわかれば、他の値が決定するという、先ほど説明した関数従属させる側の項目のことです。 キーにはいくつかの種類があって、テーブルの中から、レコードを特定できるキー項目のことを候補キーといいます。その中でも中心

  • 機械学習によるデータ分析まわりのお話

    某所で機械学習の講習会(?)のようなものをしたときの資料です. 機械学習によるデータ分析について,アルゴリズムやツールの使い方*以外*の部分で 重要だと思うことを重点的にまとめたつもりです.Read less

    機械学習によるデータ分析まわりのお話
  • 1