Sorry, but the page you were trying to view does not exist — perhaps you can try searching for it below.
皆さんはビッグデータを扱うときどのような形式で保存していますか?ここでいうビッグデータとは数GB~数十GB(笑)のJSONです。MongoDBのようなNoSQLなデータベース使う?素晴らしいと思います。PostgreSQLでJSONを使う?とても良いと思います。 ここでは、データベースという枠組みから外れて、「ファイルシステム」を中心に手軽にお安く(ここポイント)ビッグデータを扱うことを考えます。なので、この方法は最速ではありませんし、個人がちょっと遊んでみようというときに気楽にできる”チープ”な物です1。企業でやるならちゃんとしたデータベースを使うべきです。その前提で読んでみてください(ちょっと長いです)。 ファイルシステムは、テキストファイルやZipアーカイブといったただのファイルです。ただのファイルなので、データベースが得意なインデックスも効きませんし、検索や結合も弱いですし、同時接
For compression, we put three lossless and widely accepted libraries to the test: Snappy zlib Bzip2 (BZ2) Snappy aims to provide high speeds and reasonable compression. BZ2 trades speed for better compression, and zlib falls somewhere between them. Testing Our goal was to find the combination of encoding protocol and compression algorithm with the most compact result at the highest speed. We teste
In this post I want to compare ClickHouse, Druid, and Pinot, the three open source data stores that run analytical queries over big volumes of data with interactive latencies. Warning: this post is pretty big, you may want to read just the “Summary” section in the end. Sources of InformationI learned the implementation details of ClickHouse from Alexey Zatelepin, one of the core developers. The be
Update: I developed Pipenv to solve these problems. Check it out. When developing Python applications today, it’s standard practice to have a requirements.txt file in the root of your repository. This file can be used in different ways, and typically takes one of these two forms: A list of top-level dependencies a project has, often without versions specified. A complete list of all dependencies a
はじめに 今年からVimからNeovimに移行してもうすぐ一年になろうとしています。 Neovimを使いだしたきっかけは、暗黒美夢王がリリースしている数々の良プラグインがNeovimでしか使えなかったからでした。 逆に言えばそれ以外具体的にNeovimがVimとどう違うのか、何がすぐれているのか全く知りませんでした。 VimConf2017で刺激を受けた私は、その膨大なインプットのなかでもっと私が使っているエディタについて知る必要があると考えました。 本稿ではNeovimとVimの違いを調べ、互いにどのような影響を与えているのかを述べます。 注意 私は中学生レベルの英語能力なので解釈に誤りがあることが多々あると思います。 もし誤りを見つけたのであれば教えていただければ幸いです。 Neovim Introduction そもそもNeovimとはなにかREADMEを読んでみてもピンと来なくて、
こんにちは。インフラエンジニアの永井(shnagai)です。 コネヒトでは、開発環境に続き、続々と本番サービスにもDockerを導入しています。 今回は、中々運用が大変なcronでスケジュール管理するような定期的なバッチ処理を、Amazon ECSのScheduledTaskを使ってDocker駆動な環境で構築した話です。 他の方法との比較やどのように実現しているのかについて紹介したいと思います。 今回対象とするバッチの種類 今回対象とするバッチ処理は、俗に言うスケジュール系のバッチ処理で、毎日00時00分や10分毎にサイクル起動等、事前に定義した時間に正確に動くことが期待されているものです。 ※ジョブキュー形式のバッチだと、AWS BatchやEBのWorkerもしくは、SQS + Cron on EC2で処理するほうがスマートかと思います。 実行方式の選定 上記要件のバッチを実現する基
経済産業省及び独立行政法人情報処理推進機構(IPA)では、今後我が国産業の成長にとって重要な役割を担うことが期待されるIT人材の給与等の実態について、IT関連企業とIT人材の双方に対してアンケート調査実施し、その内容について分析を行いました。本日、その内容を調査報告書として取りまとめました。 背景・問題意識 第四次産業革命と呼ばれる技術革新の進展の中、IT人材は、IT関連業界のみならず、あらゆる産業において必要とされてきており、人口減少とあいまって今後ますます不足することが見込まれています。優秀なIT人材の獲得競争は、業界・国境の垣根を越えて激化しつつありますが、こうした競争を制する為には、IT人材をどう評価し、処遇するかが重要な要素です。 上記の背景を踏まえて、経済産業省は、IT関連業界における給与制度や採用等に関する現状及び課題について把握し、今後の施策の検討材料とすることを目的として
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
昨年の12月頃らしいですが、GCEでもSubnetがサポートされました。最初、これを知った時 なんて無駄な機能をつけたんだ!Googleのパワーをこんなしょうもないことに使うな と思いましたが、調べてみるとGoogle流の考慮は入っていました。 ひとまず、このエントリに引っかかった人は、最後まで読んでください。tl;dr とかでは表せませんが、無理やり概要をまとめると、 GCEもsubnetという太古のダサい技術をサポートしてしまったが、他のパブリック・クラウドとは一味ちがうから安心して! となります。 今までのGCE:Network GCPドキュメント上では、Legacy mode と書いていますが、こちらのほうが よっぽど先鋭的 です。簡単にまとめると ローカルIPアドレスの CIDRだけ指定する そのCIDRは全リージョンにまたがる たったこれだけです。AWSで言い換えると 全リージ
Answer (1 of 8): For context, I’ve been using Luigi in a production environment for the last several years and am currently in the process of moving to Airflow. This decision came after ~2+ months of researching both, setting up a proof-of-concept Airflow cluster, and darkmoding a few pipelines o...
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く