タグ

2018年10月10日のブックマーク (6件)

  • Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER

    Apache Hive のテーブルを構成するデータは、デフォルトでは無圧縮になっている。 しかし、設定を変更することで圧縮形式のデータも扱うことができる。 そこで、今回は Apache Hive で圧縮形式のデータを扱ってみることにする。 データを圧縮することには、主に二つのメリットがある。 まず一つ目は HDFS 上のサイズが小さくなるのでディスク容量の節約になること。 そして二つ目こそ命だけどサイズが小さくなるので読み出しにかかるディスク I/O の負荷も下げることができる。 Hadoop においてディスク I/O は最もボトルネックになりやすいところなので、これは重要となる。 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.11.1.el

    Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER
    showyou
    showyou 2018/10/10
  • AWSコスト削減をする前に読むスライド

    AWS Startup Tech Meetup #013 で発表した資料です。 AWS コスト削減をする前におさえておきたい考え方を整理しました。 https://awsstartuptechmeetuptokyo13.splashthat.com/

    AWSコスト削減をする前に読むスライド
    showyou
    showyou 2018/10/10
  • tensorflow 2.0 の紹介(日本語訳)

    Define-by-run である Eager Execution がデフォルトとなり、 API も大きく変わりそうな tensorflow 2.0。 紹介の動画が詳しくそれらを説明してくれているので 英語のリスニング練習のために 大まかな内容を日語に書き起こしました。 スクリーンショットはすべて上記動画のもので文章は基的にはそれらの要点を引用し訳したものとなります。 訳は意訳で、細かい部分は書いていません。 動画の意図と異なる部分などありましたらご連絡ください。 最初に (このセクションは動画の翻訳ではありません) この動画では eager execution (eager-mode) の話が沢山出てきます。 eager execution を理解するには Define-and-run と Define-by-run の違いを理解しておく必要があります。 Define-and-run

    tensorflow 2.0 の紹介(日本語訳)
  • VSCodeのオススメ拡張機能 24選 (とTipsを少し)

    言語やフレームワークによらない、オススメの汎用的な拡張機能をまとめました。 Tipsは**ここ**から。 拡張機能 24 選 1. vscode-icons アイコンがついて見やすくなる。 2. GitLens とにかく強い。 「コミット単位でのファイル比較」や「最新のコミット内容とそのコミッター表示」など色々してくれる。 git blameする手間なくなる。 3. Prettier コードのフォーマットは自動でやりましょう! 複数人のこだわりをうんたらするよりも、Prettierに委ねるのが楽。 関連のTipsはここ 4. Git History Git logが見やすい 5. Bracket Pair Colorizer カッコの対応を色付きで表示してくれる。 ものすごく読みやすくなって最高&最高!! なおBeta版ですが、後継となるBracket Pair Colorizer 2も出

    VSCodeのオススメ拡張機能 24選 (とTipsを少し)
  • Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER

    今回は Apache Hive の Partition 機能を使ってみる。 Partition 機能を用いない場合、クエリを発行するとテーブルを構成するファイル群にフルスキャンがかかる。 それに対し、Partition 機能を用いるとクエリによってはスキャンするファイルの範囲を制限できる。 結果としてパフォーマンスの向上が見込める場合がある。 使った環境は次の通り。 Apache Hive や Hadoop のインストール部分については省略する。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.5.2.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion https://git-wip-us.apache.org/rep

    Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER
    showyou
    showyou 2018/10/10
  • チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight

    [Download] を選択します。 選択したデータ フィールドを含む .ZIP ファイルがダウンロードされます。 HDInsight クラスターにデータをアップロードする HDInsight クラスターに関連付けられたストレージにデータをアップロードする方法はたくさんあります。 このセクションでは、scp を使用してデータをアップロードします。 データをアップロードする他の方法については、HDInsight へのデータのアップロードに関する記事をご覧ください。 .zip ファイルを HDInsight クラスターのヘッド ノードにアップロードします。 FILENAME を .zip ファイルの名前に、CLUSTERNAME を HDInsight クラスターの名前に置き換えて、以下のコマンドを編集します。 その後、コマンド プロンプトを開き、ファイルの場所に作業ディレクトリを設定してから

    チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight
    showyou
    showyou 2018/10/10