showyouのブックマーク / 2018年10月10日

showyou id:showyou

2018年10月10日のブックマーク (6件)

Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER
Apache Hive のテーブルを構成するデータは、デフォルトでは無圧縮になっている。しかし、設定を変更することで圧縮形式のデータも扱うことができる。そこで、今回は Apache Hive で圧縮形式のデータを扱ってみることにする。データを圧縮することには、主に二つのメリットがある。まず一つ目は HDFS 上のサイズが小さくなるのでディスク容量の節約になること。そして二つ目こそ本命だけどサイズが小さくなるので読み出しにかかるディスク I/O の負荷も下げることができる。 Hadoop においてディスク I/O は最もボトルネックになりやすいところなので、これは重要となる。使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.11.1.el
showyou 2018/10/10
hive
リンク
AWSコスト削減をする前に読むスライド
AWS Startup Tech Meetup #013 で発表した資料です。 AWS コスト削減をする前におさえておきたい考え方を整理しました。 https://awsstartuptechmeetuptokyo13.splashthat.com/
showyou 2018/10/10
aws
リンク
tensorflow 2.0 の紹介（日本語訳）
Define-by-run である Eager Execution がデフォルトとなり、 API も大きく変わりそうな tensorflow 2.0。紹介の動画が詳しくそれらを説明してくれているので英語のリスニング練習のために大まかな内容を日本語に書き起こしました。スクリーンショットはすべて上記動画のもので文章は基本的にはそれらの要点を引用し訳したものとなります。訳は意訳で、細かい部分は書いていません。動画の意図と異なる部分などありましたらご連絡ください。最初に（このセクションは動画の翻訳ではありません）この動画では eager execution (eager-mode) の話が沢山出てきます。 eager execution を理解するには Define-and-run と Define-by-run の違いを理解しておく必要があります。 Define-and-run
showyou 2018/10/10
tensorflow
リンク
VSCodeのオススメ拡張機能 24選 (とTipsを少し)
言語やフレームワークによらない、オススメの汎用的な拡張機能をまとめました。 Tipsは**ここ**から。拡張機能 24 選 1. vscode-icons アイコンがついて見やすくなる。 2. GitLens とにかく強い。「コミット単位でのファイル比較」や「最新のコミット内容とそのコミッター表示」など色々してくれる。 git blameする手間なくなる。 3. Prettier コードのフォーマットは自動でやりましょう！複数人のこだわりをうんたらするよりも、Prettierに委ねるのが楽。関連のTipsはここ 4. Git History Git logが見やすい 5. Bracket Pair Colorizer カッコの対応を色付きで表示してくれる。ものすごく読みやすくなって最高&最高！！なおBeta版ですが、後継となるBracket Pair Colorizer 2も出
showyou 2018/10/10
VSCode
リンク
Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER
今回は Apache Hive の Partition 機能を使ってみる。 Partition 機能を用いない場合、クエリを発行するとテーブルを構成するファイル群にフルスキャンがかかる。それに対し、Partition 機能を用いるとクエリによってはスキャンするファイルの範囲を制限できる。結果としてパフォーマンスの向上が見込める場合がある。使った環境は次の通り。 Apache Hive や Hadoop のインストール部分については省略する。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.5.2.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion https://git-wip-us.apache.org/rep
showyou 2018/10/10
hive
リンク
チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight
[Download] を選択します。選択したデータフィールドを含む .ZIP ファイルがダウンロードされます。 HDInsight クラスターにデータをアップロードする HDInsight クラスターに関連付けられたストレージにデータをアップロードする方法はたくさんあります。このセクションでは、scp を使用してデータをアップロードします。データをアップロードする他の方法については、HDInsight へのデータのアップロードに関する記事をご覧ください。 .zip ファイルを HDInsight クラスターのヘッドノードにアップロードします。 FILENAME を .zip ファイルの名前に、CLUSTERNAME を HDInsight クラスターの名前に置き換えて、以下のコマンドを編集します。その後、コマンドプロンプトを開き、ファイルの場所に作業ディレクトリを設定してから
showyou 2018/10/10
hive
リンク
- 2018年10月11日
- 2018年10月10日
- 2018年10月9日