タグ

qiitaとcolumn-oriented-dbmsに関するnabinnoのブックマーク (9)

  • Glueでcsvファイルをparquet形式に変換してみた - Qiita

    AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

    Glueでcsvファイルをparquet形式に変換してみた - Qiita
  • ORC について最初に知っておきたかったこと - Qiita

    数テラバイト越えあたり or パーティション数大量になったあたりで、ORC ファイルについて詳しくなったけど最初から知っておきたかった事。 がまとまったので書いておくけど、もう一桁増えると更に知っておきたかった事が増える気がする。随時更新。 BigData を扱うデータフォーマット ORC とは Hive / Spark / Presto 等と言った(以下 Hive 等)のビッグデータ基盤で使えるカラムナデータフォーマットだ。 MySQL では、実際のデータファイルは .idb ファイル等の形式で保存されるが、Hive 等ではフォーマットを複数選ぶことができ、ORC はデファクトスタンダートだ。次点に Perquet1 等がある。 HDFS に収納されて Hive 等 Query 対象となることが多い。 Reference Primary 公式サイト - https://orc.apach

    ORC について最初に知っておきたかったこと - Qiita
  • データベース事始め - Qiita

    TensorFlowのような機械学習にはデータベースは必要不可欠です。ただ、このデータベースについての知識がゼロでしたので、まずはRDBMSからNewSQLまでの初心者向けの知識を簡単にまとめてみました。データベースに関わっている人からすれば当たり前の内容です RDBMS RDBMS(リレーショナルデータベース管理システム)は、下記のMySQLなどに代表されるRDB管理のための専用ソフトウェアです。RDBは、データを「行」と「列」からなる2次元の表(テーブル)形式で表し、複数の表と表の間でデータ同士を関連付け(リレーションシップ)を行うことができます。 MySQL PostgreSQL MariaDB Oracle Databasr SQL Server DB2 また、汎用的かつ高機能なSQLと呼ばれる言語が使用でき、ACIDなトランザクションが行えることが特徴です。ACIDとは、次の4つ

    データベース事始め - Qiita
  • (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 翻訳元: Native Hadoop file system (HDFS) connectivity in Python 2017/1/3 これまで、Hadoop File SystemことHDFSとのやりとりするためのPythonライブラリが数多く開発されてきました。HDFSのWebHDFSゲートウェイ経由のものもあれば、ネイティブのProtocol BufferベースのRPCインターフェースもあります。このポストでは、既存のライブラリの概要をお伝えし、Arrowのエコシステム開発の中で高パフォーマン

    (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita
  • (翻訳)オープンソースデータサイエンスのためのイノベーションラボ:Ursa Labs設立のお知らせ - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2018/4/19(木) オープンソースソフトウェアへの投資は複雑なことです。私は、データサイエンスのツールにおけるイノベーションをミッションとする独立の開発ラボとしてUrsa Labs( https://ursalabs.org )を設立しました。このことをお伝えできるのをとても嬉しく思っています。 私は、まずRStudio及びTwo Sigmaとパートナーとなっていただきました。これは、Ursa Labの運営の成長と管理を支援していただくこと、そして相互利用可能で複数言語にわたるデータサイエンスのた

    (翻訳)オープンソースデータサイエンスのためのイノベーションラボ:Ursa Labs設立のお知らせ - Qiita
  • ISO 8601 string to datetime without arrow - Qiita

    背景・動機 Pythonで時刻を扱うにはArrowが便利だが、依存しすぎると戻り値がarrowオブジェクトなのかdatetimeオブジェクトなのか統一が取れない事態に陥る可能性がある(あった)。 混ぜ過ぎ注意。 「よし、arrowから脱却しよう」と意気込んでみても、arrow.get()の壁が立ちはだかる。何でも引数に投げとけば、よしなに時刻オブジェクトに変換してくれる人をダメにする関数である。しかも副作用として、arrowオブジェクトを返す。arrow.get()を求めてarrowを使い、arrow.get()に依存しすぎて破滅する。 arrow.get(string)は、ISO 8601拡張形式1の文字列をarrowオブジェクトに変換してくれる。 これに習ってdatetimeオブジェクトへ変換する実装を行い、arrow.get()脱却のための代替関数を実装してみる。 ISO(Inter

    ISO 8601 string to datetime without arrow - Qiita
  • (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2017/9/21(木) Apache Arrow、pandas、pandas2、そして最近の私の作業の大まかな方向性と視界が開けてきている未来に関して、これから一連のポストを書いていきます。このポストはその第一弾です。少々量があり、全体に技術的な色合いが濃くなっていますが、興味を持たれたなら読み進めていってください。 このポストでは、pandasの内部構造に関する主要な問題のいくつかと、それらに対して私が着実に進めてきた現実的な解決策の計画と構築について、できる限り簡潔に説明しようと思います。外から見

    (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita
    nabinno
    nabinno 2017/09/24
    "pandasのルール:データセットの5倍から10倍のRAMを用意しよう"
  • (翻訳)毎秒10GBでArrowからpandasへ - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文:http://wesmckinney.com/blog/high-perf-arrow-to-pandas/ ) 2016/12/27 このポストでは、汎用的なArrowの列指向のメモリを、pandasのオブジェクトに高速に変換できるようにするための最近のApache Arrowでの作業について述べます。 pandasのDataFrameオブジェクトを高速に構築する際の課題 pandasのDataFrameオブジェクトを高速に構築する際に困難なことの1つは、「ネイティブの」内部メモリ構造が辞書や

    (翻訳)毎秒10GBでArrowからpandasへ - Qiita
  • (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文:http://wesmckinney.com/blog/outlook-for-2017/ ) 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

    (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita
  • 1