タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmと*programと*infraに関するsh19910711のブックマーク (4)

  • DataflowとTFRecordでシームレスなMLパイプライン構築

    最近では、機械学習を用いた事例が徐々に聞かれるようになってきました。しかし、MLエンジニアの方々からは「モデルを作ったはいいが、プロダクションに持っていくのは難しい」という声をよくいただきます。この要因は様々ですが、システムとして考慮しなければならない構成が多いというのが主だった要因になっています。 モデルはシステム全体のごく一部(黒い四角部分)中でも特にMLエンジニアを悩ませるのは、データの前処理ではないでしょうか?機械学習では学習と推論時にデータを入力する必要がありますが、プロダクション時のデータは取得してそのままモデルに入力することはできません。なぜなら、データには欠損があるかもしれないし、画像ならモデルに合わせてサイズや階調を変える必要があるからです。さらに、これらのデータが大量にある場合は、1台のマシンでは処理しきれなくなるため、分散環境を構築する必要があります。そして、将来どこ

    DataflowとTFRecordでシームレスなMLパイプライン構築
    sh19910711
    sh19910711 2018/11/27
    Apache Beamでtfrecords出力できる
  • PostgreSQLとcupyを繋ぐ~機械学習基盤としてのPG-Stromその①~ - KaiGaiの俺メモ

    世間の機械学習屋さんは、機械学習・統計解析のライブラリにデータをわせる時に、どうやってデータを入力しているのだろうか? 話を聞くに、データを一度CSV形式に落とし込んで、それをPythonスクリプトで読み込むというパターンが多いようではある。 ただ、ある程度大量のデータセットをCSVファイルで扱うようになると、いくつか問題点が露わになってくる。 解析すべきデータセットを切り替えるたびに異なるCSVファイルを用意する事になり、ファイルの取り回しが煩雑である。 前処理をかけた後のCSVファイルがまたできてしまい、ファイルの取り回しが更に煩雑になってくる。 最終的にCSVファイルの所在が誰にも分からなくなってしまい、機械学習・統計解析の元になったファイルが散逸してしまう。 そもそも、GB単位のフラットファイルをシェル上でコピーしたり読み込ませたりするのはそれなりに時間を要する処理である。 デー

    PostgreSQLとcupyを繋ぐ~機械学習基盤としてのPG-Stromその①~ - KaiGaiの俺メモ
    sh19910711
    sh19910711 2018/09/05
    おぉ / "GPUへのデータロードはGstore_fdwを用いてSQLで行った上で、その後のデータ操作、データ解析はPythonスクリプトで実行するというワークフローが出来上がる"
  • TensorFlow Servingで機械学習モデルをプロダクション環境で運用する - freee Developers Hub

    こんにちは、freee株式会社でエンジニアをやっている米川(@yonekawa)です。最先端のテクノロジーを使って新しいソリューションを生み出していくことをミッションにした、CTW (Change The World) という役職で働いています。 この記事はfreee Developers Advent Calendar 2017の23日目です。 機械学習ではアルゴリズムや大規模データ処理が注目されがちですが、学習したモデルをどうやってサービスで運用するかも悩ましい問題です。実験やアルゴリズムの検証では強力なツールが揃っているPythonがよく使われるので、そのままPythonAPI作るケースが多いと思います。しかしプロダクション環境で運用するとなると開発しやすさ以外にも、大量リクエスト時のパフォーマンスやデプロイ、モデルの精度評価やA/Bテストなどさまざまな課題があります。 またfre

    TensorFlow Servingで機械学習モデルをプロダクション環境で運用する - freee Developers Hub
  • 遺伝的アルゴリズム(GA)によるサーバの自動チューニング - Qiita

    遺伝的アルゴリズム(GA)でサーバの自動チューニングをします。 GAを機械学習を一つと書いてしまいましたが違うようなのでタイトルを変更させて頂きました。 遺伝的アルゴリズムについては↓の動画が分かりやすいです http://www.youtube.com/watch?v=yZJ1V-zv_gU まずは通常の負荷テストができるところまで準備する必要があります。攻撃用のサーバをターゲットと(ネットワーク的に)近い場所に用意してください。負荷を掛ける側(Attacker)にも相応のスペックは必要です。 ストレスツールはコマンドラインから利用出来るものでしたらなんでもかまいません。ab(Apache Bench)などは最初から入っているので手軽ですが、今回は「グリーン破壊」というソフトを利用しました(グリーン破壊のインストール方法は家サイトに譲ります) 自動チューニングを行うにあたり、ターゲット

    遺伝的アルゴリズム(GA)によるサーバの自動チューニング - Qiita
  • 1