タグ

2016年5月4日のブックマーク (4件)

  • 大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC

    大量の実験データがあるが、馬鹿正直に全部プロット等すると時間がかかりすぎる。実験の初期段階とかで試行錯誤しながら素早く作業をしたい時には、一定個数のデータをランダムに抜き出してプロット等したい事が多い。 そのとき、全体の個数の見当がついていれば、大体の見当で割合を設定して確率的に取得すればよい。例えば、データの全数が約100万個で、とりあえず1000個取り出したいなら、乱数を用いて0.1%の割合でデータを採取すれば良い(ぴったり1000個にはならないだろうがそれは問題ではない)。 全体の個数が不明の場合はそうはいかない。最初に全体の個数を数えてから割合を設定しようとすると、全データを2回走査、つまり2パスの操作が必要になるし、標準入力からデータが流れてくる場合(いわゆるストリーム処理)の場合は、個数を取得するためには全体を保存しておかなければならない。これらの操作は、大規模なデータにおいて

    大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC
    taro-maru
    taro-maru 2016/05/04
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
    taro-maru
    taro-maru 2016/05/04
  • DockerfileのONBUILD| SOTA

    DockerfileのONBUILD Docker 0.8においてONBUILDというDockerfile用のコマンドが導入された.0.8ではOSXdocker clientが脚光を浴びたが,このONBUILDはかなり強力な機能.リリースノートはこちら.ONBUILDの公式ドキュメントはこちら. ONBUILDを使うと,次のビルドで実行するコマンドをイメージに仕込むことができるようになる.つまり,ベースイメージにONBUILDによるコマンドを仕込み,別のDockerfileでそのベースイメージを読み込みビルドした際に,そのコマンドを実行させるということが可能になる.要するに,親DockerfileのDockerfileコマンドを子Dockerfileのビルド時に実行させることができる機能. これは,アプリケーション用のイメージを作るときや,ユーザ特有の設定を組み込んだデーモン用のイメージ

  • サブコマンドのないコマンドをthorで管理する方法 : sonots:blog

    サブコマンドのないコマンドをthorで管理する方法 : sonots:blog