タグ

2015年7月21日のブックマーク (7件)

  • 外部結合(OUTER JOIN句)

    2 つのテーブルを結合してデータを取得する方法の中で、指定したそれぞれのテーブルのカラムの値が一致するデータだけではなくどちらかのテーブルにだけデータがある場合も合わせて取得する方法が外部結合です。ここでは SQLite で外部結合を行うための LEFT OUTER JOIN 句の使い方について解説します。 外部結合とは 最初に外部結合について簡単に説明しておきます。外部結合とは2つのテーブルでそれぞれ結合の対象となるカラムを指定し、それぞれのカラムに同じ値が格納されているデータを結合して取得するものです。内部結合の場合は、一致しないデータは取得しませんでしたが、外部結合の場合は一致しない場合もデータとして取得します。 次の図を見て下さい。左側のテーブルと右側のテーブルを外部結合します。結合の対象となるカラムは左側のテーブルが「部署ID」、右側のテーブルが「ID」です。この2つのカラムの値

    外部結合(OUTER JOIN句)
  • ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders

    IT Leaders トップ > テクノロジー一覧 > ビッグデータ > 河原潤のITストリーム > ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 ビッグデータ ビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 2015年7月8日(水)河原 潤(IT Leaders編集部) リスト ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する

    ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders
  • UCI機械学習リポジトリのデータ(など)で遊ぶ(3):クレジットカードの加入審査データ - 渋谷駅前で働くデータサイエンティストのブログ

    このシリーズ、前回はUCIリポジトリではないデータセットを使ってしまって義に悖る内容になってしまったので(笑)、今回はUCIのデータセットを使ってみることにします。そのデータがこちら。 Credit Approval Data Set Data set descriptionを見ると、こんなことが書いてあります。重要そうなところだけ抜粋。 4. Relevant Information: This file concerns credit card applications. All attribute names and values have been changed to meaningless symbols to protect confidentiality of the data. This dataset is interesting because there is a

    UCI機械学習リポジトリのデータ(など)で遊ぶ(3):クレジットカードの加入審査データ - 渋谷駅前で働くデータサイエンティストのブログ
  • dplyr の select() の引数に指定可能なバリエーションまとめ #rstatsj - Qiita

    福島真太朗『データ分析プロセス』を読んでいると、dplyr の select() の使い方で知らないものが載っていた。 調べてみると、select() は引数に様々なバリエーションを受け付けることができることを知ったので、ここにまとめておく。 これらのカラム選択方法は summarise_each(), mutate_each() においても全く同様である。 さらに、tidyr パッケージの各種関数(gather()など)に対しても同じようにして使える。 1. 全コード 一覧性のために、最初に全コードを載せておく。以降のセクションでは一つずつ実行結果を含めて解説する。 # データの準備 ------------------------------------------------------------------ library(dplyr) library(nycflights13)

    dplyr の select() の引数に指定可能なバリエーションまとめ #rstatsj - Qiita
  • RPubs - A Review of Meta-Analysis Packages in R

    Hide Comments (–) Share Hide Toolbars

    mahler-5
    mahler-5 2015/07/21
  • 第49回R勉強会@東京に参加してきた - INPUTしたらOUTPUT!

    以下メモ 第49回R勉強会@東京(#TokyoR) : ATND TokyoR#49の座席表 - セキココ 第49回R勉強会@東京まとめ - Togetterまとめ 初心者セッション はじめてのR 今日発表した内容になります。 はじめてのR http://t.co/NgN5DA7Oug #TokyoR— Minoda Takashi (@aad34210) 2015, 7月 18 R歴半年以上が約半分 『みんなのR』、重版決定 & 電子版配信予定(7月) 紙版買って一瞬後悔したけど、電子書籍だとサインもらえない データハンドリング transform() 一度に複数の列を追加できる 2年間、R使ってて初めて知った orz... dplyrに慣れるとreshape2よりtidyrの方が使いやすいかと Rで確認しながら解く統計検定2級 統計ファンダメンタリスト = 統計原理主義者 参加者の統計

    第49回R勉強会@東京に参加してきた - INPUTしたらOUTPUT!
  • 肥満の評価:身長と体重から(BMIで)

    1.分散分析 実験、観測、調査などでは同じの条件であっても、計測の誤差やノイズなどが混入され、得られているデータにはずれが多かれ少なかれ生じる。また同様な実験、観測、調査を、条件を変えて行ったとき、計測の誤差やノイズなど以外に条件の影響で違いが生み出される可能性がある。実験、観測、調査の結果に影響をおよぼすと考えられる要因はいろいろあるが、その実験、観測、調査で取り上げている要因を因子(factor)と呼び、因子を細分類したグループ(群)を水準(levels)と呼ぶ。 分散分析(analysis of variance; ANOVA)は、得られた各水準の平均値が因子の影響により変化されていると言えるかどうかに関するデータ分析の方法である。稿では、一元(one-way )分散分析と二元(two-way)分散分析の簡単な例を用いてRによる分散分析について説明する。 2.一元分散分析

    mahler-5
    mahler-5 2015/07/21