タグ

2015年6月21日のブックマーク (4件)

  • マナーの悪い JSON データを jq で整形する - nagix

    JSONデータの問題 色々なJSONデータを扱っていると、たまにマナーの悪いデータを目にします。例えば、政府統計情報e-Statでダウンロードできる次のようなJSONデータ(一部を切り出しています)。 {"CLASS_OBJ":[ {"@id":"tab","@name":"表章項目","CLASS":[{...},{...},...]}, ←このオブジェクト内の"CLASS"の値は配列 {"@id":"cat01","@name":"全域・人口集中地区2010","CLASS":[{...},{...},...]}, ←同じく配列 {"@id":"area","@name":"地域(2010)","CLASS":[{...},{...},...]}, ←同じく配列 {"@id":"time","@name":"時間軸(年次)","CLASS":{...}} ←このオブジェクト内の"CLA

    マナーの悪い JSON データを jq で整形する - nagix
    yass
    yass 2015/06/21
  • Apache Drill で日本語を扱うときの注意 - nagix

    言語の設定がUTF-8になっている環境であれば、データに日語が含まれていても基的に問題はありません。 $ echo $LANG ja_JP.UTF-8 次のようなCSVファイルを $ cat /tmp/test.csv 1,くまモン,熊 2,ふなっしー,船橋 3,せんとくん,奈良 次のSQLで取得すると、カラム名、データともきちんと表示されます。まあ、マルチバイト文字が入っていると水平の表示位置がずれるのですが。 $ apache-drill-1.0.0/bin/drill-embedded 0: jdbc:drill:zk=local> SELECT . . . . . . . . . . . > COLUMNS[0] 番号, . . . . . . . . . . . > COLUMNS[1] 名前, . . . . . . . . . . . > COLUMNS[2] 住所 .

    yass
    yass 2015/06/21
  • HTTP ベンチマークツール wrk についてメモ

    モダンな HTTP ベンチマークツール wkr の簡単な使い方についてメモ。 wrk の特徴は以下。 C で書かれている マルチコア CPU を 活かした高負荷をかけられる スレッドと epoll/kqueue のイベントドリブンを活用して負荷をスケールさせる(NOTICE ファイルを読むと Redis Event Library(ae event loop) を拝借しているようです) Lua スクリプトで HTTP クライアントの処理や実行結果のレポートをカスタマイズできる Installing wrk in CentOS 6 まずはビルドに必要なパッケージをインストールします。 $ sudo yum install git $ sudo yum groupinstall 'Development Tools' $ sudo yum install openssl-devel opens

    HTTP ベンチマークツール wrk についてメモ
    yass
    yass 2015/06/21
    " Lua スクリプトで HTTP クライアントの処理や実行結果のレポートをカスタマイズできる "
  • GitHub - apache/pinot: Apache Pinot - A realtime distributed OLAP datastore

    Apache Pinot is a real-time distributed OLAP datastore, built to deliver scalable real-time analytics with low latency. It can ingest from batch data sources (such as Hadoop HDFS, Amazon S3, Azure ADLS, Google Cloud Storage) as well as stream data sources (such as Apache Kafka). Pinot was built by engineers at LinkedIn and Uber and is designed to scale up and out with no upper bound. Performance a

    GitHub - apache/pinot: Apache Pinot - A realtime distributed OLAP datastore
    yass
    yass 2015/06/21
    " Pinot is well suited for analytical use cases on immutable append-only data that require low latency between an event being ingested and it being available to be queried. "