タグ

SQLに関するp_tanのブックマーク (7)

  • SQLAlchemy + PostgreSQL で Upsert を行う(ユニークキーに重複があるデータのバルクインサート) - luggage baggage

    こんにちは。吉田弁二郎です。 タイトルにある Upsert とは、Update or Insert のことです。あるテーブルにデータを insert しようとするとき、ユニーク制約が効いているキーが過去データのものと重複して insert できない場合、update に切り替える処理のことですね。データ量が多くキー重複の懸念がある状況で multiple insert したい場合などに有効な手段の一つです。 私はよく PostgreSQL を使うのですが、Python 経由で操作したい時には psycopg2 とか SQLAlchemy を選ぶことが多いです。特に SQLAlchemy はオブジェクト的にデータベースを操作できるため、web アプリを開発する時に使っています。 今回は、PostgreSQL 9.5 以上で利用可能な upsert 構文 ON CONFLICT ... DO

    SQLAlchemy + PostgreSQL で Upsert を行う(ユニークキーに重複があるデータのバルクインサート) - luggage baggage
  • データをなるはやで前処理したい#1 - Qiita

    MLSE(機械学習工学研究会) Advent Calendar 2018 の1日目の投稿です こんにちは!BULBのデータサイエンティスト 足立です。 一般的に「分析作業の7〜8割はデータの前処理である」と言われます。前処理では具体的に、データセットの列(変数)選択や行(レコード)選択、欠損値の補間や外れ値の除去などの作業を行います。 なぜこのような作業が必要なのでしょうか? それは、課題解決につながる結果を得るために、例えば精度の高いモデルを作成するためです。精度の高いモデルを作成するために、どのようにデータを前処理して特徴量を作り出すかが腕の見せどころですね 特徴量とは何か ご存知の方も多いと思うので、サラッとした説明にとどめておきます。特徴量とは、他のデータとは異なる「そのデータ自身が持つ特徴」です。例えば、画像の被写体が犬かかによって、画像のピクセル値は異なります。また、メールが

    データをなるはやで前処理したい#1 - Qiita
  • 人工知能や機械学習を利用しなくても「SQLの使い方」次第で収益アップは可能

    流行の技術である「人工知能」や「機械学習」を使わなくても、適切なSQL文さえ書くことができれば顧客のライフタイムバリューを上げることができるという意見がソフトウェアエンジニアから出ています。 Thread by @cyberomin: "It's always fun when I speak to founders and potential founders and they are quick to tell me how they want to use AI/ML to improve customer […]" https://threadreaderapp.com/thread/987602838594445312.html SQLの有効活用を提案しているのは、ソフトウェアエンジニアのCelestine Ominさん。 以下のツイートに一連のスレッドがぶら下がっています。 I

    人工知能や機械学習を利用しなくても「SQLの使い方」次第で収益アップは可能
  • SQLトランザクション分離 実践ガイド | POSTD

    (注:2017/10/16、いただいたフィードバックを元に翻訳を修正いたしました。) (注:2017/10/11、いただいたフィードバックを元に翻訳を修正いたしました。) データベースのドキュメントで分離レベルを目にして、軽く不安を感じつつ、あまり考えないようにしたことはないでしょうか。トランザクションの日常の使用例できちんと分離について言及しているものはほとんどありません。多くはデータベースの初期設定の分離レベルを利用しており、後は運頼みです。しかし、来、理解しておくべき基的なトピックであり、いくらか時間を投入してこのガイドの内容を学習すれば、もっと快適に作業できるようになるでしょう。 私はこの記事の情報を学術論文、PostgreSQLドキュメンテーションから集めました。分離レベルの 何たる かだけでなく、適用の正確さを保持しつつ最大速度で使うにはいつ使うべきか、という疑問に答えるべ

    SQLトランザクション分離 実践ガイド | POSTD
  • 2.7 Other language engines | R Markdown: The Definitive Guide

    A less well-known fact about R Markdown is that many other languages are also supported, such as Python, Julia, C++, and SQL. The support comes from the knitr package, which has provided a large number of language engines. Language engines are essentially functions registered in the object knitr::knit_engine. You can list the names of all available engines via: ## [1] "awk" "bash" "coffee" ## [4]

    2.7 Other language engines | R Markdown: The Definitive Guide
    p_tan
    p_tan 2016/10/11
    Rから他言語を呼ぶのはknitrがやるのか。bash, python, SQL, C++, Stan, javascript, CSS
  • 【RDB / JSON / S3】R でデータを読み込む方法を整理してみた |

    R で以下のデータソースからデータを読み込む方法を簡単に整理してみました。各パッケージの詳細については触れません。 CSV TSV JSON XLSX MySQL Amazon S3 R Object CSV ファイルサイズの小さい CSV (Comma-Separated Values) であれば, utils::read.csv でも良いと思うが, サイズが大きい場合は {data.table} の fread() や {readr} の read_csv() が高速。 data.table は data.frame の多くを継承したデータ型で, バイナリサーチを用いた高速検索が特徴のひとつ。 library(data.table) baseball <- fread("data/baseball.csv", header = TRUE) data.table::fread の引数 に

  • リレーショナルデータベースの仕組み (1/3) | POSTD

    リレーショナルデータベースが話題に挙がるとき、私は何かが足りないと思わずにはいられません。データベースはあらゆるところで使われており、その種類も、小規模で便利なSQLiteからパワフルなTeradataまで様々です。しかし、それがどういう仕組みで機能しているかを説明したものとなると、その数はごくわずかではないでしょうか。例えば「リレーショナルデータベース 仕組み」などで検索してみてください。ヒット数の少なさを実感できると思います。さらにそれらの記事は短いものがほとんどです。逆に、近年流行している技術(ビッグデータ、NoSQLJavaScriptなど)を検索した場合、それらの機能を詳しく説明した記事はたくさん見つかると思います。 リレーショナルデータベースは、もはや大学の授業や研究論文、専門書などでしか扱われないような古くて退屈な技術なのでしょうか? 私は開発者として、理解していないものを

    リレーショナルデータベースの仕組み (1/3) | POSTD
  • 1