タグ

ブックマーク / blog.amedama.jp (3)

  • PySpark のスクリプトファイルで引数を扱う - CUBE SUGAR CONTAINER

    今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。 その際に、動作に必要な引数をさばく方法について。 結論から先に書いてしまうと spark-submit コマンドでスクリプトファイルの後ろにアプリケーション用の引数を渡せば良いだけ。 使った環境は次の通り。 Apache Spark は YARN を使って分散環境を構築してある。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.17.1.el7.x86_64 $ pyspark --version Welcome to __

    PySpark のスクリプトファイルで引数を扱う - CUBE SUGAR CONTAINER
    kontonb
    kontonb 2018/03/18
  • split コマンドでファイルを分割する - CUBE SUGAR CONTAINER

    巨大なファイルを扱おうとすると、環境によってはクォータなどの影響を受けて取り回しが悪いことがある。 今回は、そんなときに split コマンドで一つのファイルを複数にばらして扱う方法について。 ここでは macOS を使ったけど GNU/Linux でも同じやり方ができる。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.6 BuildVersion: 16G1212 $ python --version Python 3.6.4 バイナリファイルを分割する まずは分割するために大きなバイナリファイルを用意する。 ゼロフィルされたものだと連結したとき壊れていないか確かめにくいのでランダムな値で構成した。 具体的には dd コマンドで入力を /dev/random デバイスにする。 $ dd if=/dev/

    split コマンドでファイルを分割する - CUBE SUGAR CONTAINER
    kontonb
    kontonb 2018/02/11
  • RCS (Revision Control System) を使ってファイルをバージョン管理する - CUBE SUGAR CONTAINER

    RCS (Revision Control System) は大昔に使われていたバージョン管理システムだ。 21 世紀にもなって何で RCS なんかとも思うんだけど、恐竜が生きていた頃に作られたシステムの中には今でもファイルを RCS で管理しているものももしかすると残っていたりするかもしれない。 今回はその使い方を振り返っておく。 検証環境には CentOS7 を使った。 $ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) $ uname -r 3.10.0-229.11.1.el7.x86_64 RCS をインストールする RCS は yum を使ってインストールできる。 $ sudo yum -y install rcs RCS を使ってみる RCS を使うには、作業する場所に RCS という名前のディレクトリ

    RCS (Revision Control System) を使ってファイルをバージョン管理する - CUBE SUGAR CONTAINER
    kontonb
    kontonb 2016/08/18
  • 1