タグ

ブックマーク / tech.preferred.jp (11)

  • FUSE 向け汎用 CSI ドライバ meta-fuse-csi-plugin - Preferred Networks Research & Development

    記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている松直樹さんによる寄稿です。 はじめに 京都大学情報学研究科D1の松直樹です。インターンでは、「キャッシュを利⽤した機械学習・深層学習ワークロードの加速」のテーマで PFN が運用するオブジェクトストレージや分散キャッシュシステムの利便性向上に取り組みました。このブログでは、今年のインターンシップで開発した、あらゆる FUSE 実装を Kubernetes 上で利用できるようにする CSI ドライバ meta-fuse-csi-plugin について紹介します。また、その CSI ドライバを https://github.com/pfnet-research/meta-fuse-csi-plugin で公開しました。 PFNにおけるストレージ環境 PFN では、NFS サーバー [1] の他、 Apache Oz

    FUSE 向け汎用 CSI ドライバ meta-fuse-csi-plugin - Preferred Networks Research & Development
  • 分散キャッシュシステムにおける公平制御の実現 - Preferred Networks Research & Development

    記事は、2023年夏季インターンシッププログラムで勤務された石森大路さんによる寄稿です。 こんにちは。PFN2023 夏季国内インターンシップに参加していた大阪大学3年の石森大路です。私はPFNの機械学習基盤を開発、運用するCluster Servicesチームにおいて、「キャッシュを利⽤した機械学習・深層学習ワークロードの加速」というテーマで課題に取り組みました。 Cluster Servicesチームでは、機械学習データセットをはじめとする大容量データの読み込みを高速化する分散キャッシュシステムを開発しています。キャッシュシステムの細部については次の記事や発表において詳しく説明されていますが、この記事でも改めて簡単に説明します。 深層学習のための分散キャッシュシステム – Preferred Networks Research Development 分散キャッシュシステム on K

    分散キャッシュシステムにおける公平制御の実現 - Preferred Networks Research & Development
  • 計算基盤チームの仕事紹介 - Preferred Networks Research & Development

    Preferred Networks 計算基盤担当VPの土井です。 ちょっと最近ばたばたしていて、あまり何をやっているか紹介できていませんでした。その結果「PFNって何やってるの?」と聞かれてなかなかお答えできない。またPFNで計算機をやっているといってもピンとこない、というお話も増えてきました。先日のJANOGに行ったメンバーからも、PFNが何をしているのかイマイチ知られていないと聞いて、冷や汗を流しております。 なので、チーム的に露出に力を入れることにしました。今後blogを、あるいはネタによってはQiitaなども含めて、シリーズ的に書いていければと思います。まずは、土井が担当している計算基盤領域およびその周辺について概観する記事を書かせて頂こうと思います。 端的に言うと、PFNはあまりオンプレインフラのイメージがないかもしれませんが、上から下までかなりがっつりやっていますし、こんな場

    計算基盤チームの仕事紹介 - Preferred Networks Research & Development
  • 深層学習のための分散キャッシュシステム - Preferred Networks Research & Development

    エンジニアの上野です。Cluster Servicesチームという、PFNのKubernetesベースの機械学習基盤を開発・運用するチームに所属して、基盤の改善や新機能の開発に務めています。記事では、深層学習における学習データセット読み込み速度の改善を目指して開発し、現在もKubernetes上で運用中の分散キャッシュシステムを紹介します。 PFNの機械学習基盤については、ブログ「2022年のPFNの機械学習基盤」もご参照ください。 深層学習における学習データセット読み込み 深層学習を高速化するため、深層学習に向いたアクセラレータの開発が日々続けられています。PFNで開発しているMN-Coreシリーズや、NVIDIA社製GPUもそのひとつです。これらのアクセラレータは高速に行列演算を行うことができ、深層学習の1イテレーションにかかる時間を高速化、ひいては深層学習を活用する研究開発全体を加

    深層学習のための分散キャッシュシステム - Preferred Networks Research & Development
  • Optunaで始めるハイパーパラメータ最適化 - Preferred Networks Research & Development

    この記事は、電気情報通信学会会誌に寄稿した解説記事「Optunaで始めるハイパパラメータ最適化」の転載です。この記事のパワーアップ版ともいえる書籍「Optunaによるブラックボックス最適化」が2月21日に出版されます。Optuna開発チームのメンバーが、Optunaについてより詳しく、よりわかりやすく説明し、より豊富な事例を紹介していますので、ぜひ予約して発売日からお読みください! 出典 柳瀬利彦, Optunaで始めるハイパパラメータ最適化, 電子情報通信学会誌 Vol.104 No.7 pp.728-733 2021年7月 ©電子情報通信学会2021 Abstract 機械学習アルゴリズムの性能を引き出すためには,ハイパパラメータをデータやタスクに応じて適切に調整する必要がある.稿では,その自動的な調整のためのツールとして,オープンソースのハイパパラメータ最適化フレームワークであるO

    Optunaで始めるハイパーパラメータ最適化 - Preferred Networks Research & Development
  • PFNのKubernetesクラスタのCNI Plugin - Preferred Networks Research & Development

    エンジニアの清水です。PFNでは、計算アクセラレータとしてGPUを採用するMN-2と自社開発のMN-Coreを採用するMN-3をKubernetesクラスタとして運用しており、その中でCNI Pluginを内製開発して使っています。このブログでは、内製CNI Pluginの話を中心にこれまでPFNのKubernetesクラスタのネットワーク部分、特に、CNI Pluginの構成とその変遷について紹介し、また最後に今後の展望についても触れます。 目次 なぜCNI Pluginを内製したのか? 内製CNI Pluginの特徴 Kubernetesクラスタのネットワーク構成(第1世代) 運用中に見つかった課題 時間が経過すると割り当て可能なVFが無くなる Podの起動直後にCluster IPを使った通信ができない kube-proxyのリソース使用量が増加し続ける Kubernetesクラスタ

    PFNのKubernetesクラスタのCNI Plugin - Preferred Networks Research & Development
  • 2022年のPFNの機械学習基盤 - Preferred Networks Research & Development

    はじめに PFNエンジニアの上野です。Cluster Servicesチームという、PFNの機械学習基盤を開発・運用するチームに所属して、日々基盤の改善や新機能の開発を進めています。 記事は、以前にヤフー株式会社のAIプラットフォームチームと共催したイベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #1」のPFNパートをざっくりまとめて、2022年のPFNの機械学習基盤について紹介するものです。 イベントの第二回を 8/29 に開催して、さらに新しい取り組みについても紹介しますので、ぜひこちらから参加登録をお願いします。 PFNのオンプレML基盤の取り組み スライド全体はこちらからアクセスできます。 もくじ オンプレクラスタの概要 使いやすい環境 リソースの効率的かつフェアな利用 信頼性・運用省力化 クラスタに関わる組織 オンプレクラスタの概要 PFNエンジニア

    2022年のPFNの機械学習基盤 - Preferred Networks Research & Development
  • MN-Core上の高速化に向けた可視化プロファイラ - Preferred Networks Research & Development

    記事は、2021年度PFN夏季インターンシップで勤務した秀島宇音さんによる寄稿です。 はじめに 深層学習を軸とする研究開発には計算資源を多く要します。特に、Trainingと呼ばれる深層学習モデルのパラメータを調節するフェーズでは多大な計算が必要です。そこでPFNはこの計算を得意とするアクセラレータMN-Core™を神戸大学と共同開発し、実際にスーパーコンピュータMN-3に搭載して運用しています。MN-3は極めて高い省電力性能を持ち、スーパーコンピュータの省電力性能ランキングGreen500で世界1位を3度獲得しています。Green500での成果については「PFNの深層学習用スーパーコンピュータMN-3、39.38GFlops/Wの電力効率を記録しGreen500ランキングで3度目の世界1位を獲得」をご覧ください。また、MN-Core上で動作する深層学習アプリケーションの開発状況について

    MN-Core上の高速化に向けた可視化プロファイラ - Preferred Networks Research & Development
  • PFN の Kubernetes クラスタにおける Uninterruptible Sleep との付き合い方 - Preferred Networks Research & Development

    Preferred Networks エンジニアの坂田です。普段は社内向けの GPU サーバークラスタの運用管理の業務などをやっております。 先日、DevOpsDays Tokyo 2021 というイベントで、弊社 須田と一緒に PFN が Kubernetes を使って GPU クラスタを運用する中で経験してきた障害とその対応の自動化や、Kubernetes クラスタそのものの管理・アップグレードの自動化の取り組みについてご紹介しました。 SlideShare: PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021 エントリでは、その中でご紹介した障害の事例の中から、コーナーケースとして対応に悩まされた Uninterruptible Sleep という状態に入ったプロセスの扱いについてご紹介します。 はじめに PFN のクラ

    PFN の Kubernetes クラスタにおける Uninterruptible Sleep との付き合い方 - Preferred Networks Research & Development
  • Pythonのlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 - Preferred Networks Research & Development

    Home Blog Pythonlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 Python向けのlinter/formatter設定ツール「pysen」を pypi.org および github.com で一般公開しました。 このツールは主にPython向けのlinter/formatterの設定を一元管理し、Preferred Networks社内でよく使われているツール環境を誰でも簡単に設定できるように支援するツールです。チームごとに分散しうるようなツールに関するノウハウをコードとして集約し、PFN社内での共有を促進させることを目的として開発しています。pysenは実際にPFN社内で使われており、2020年4月に開発がスタートしてから、2021年3月現在でおよそ100を超える社内リポジトリに導入されています。 上図:

    Pythonのlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 - Preferred Networks Research & Development
  • エラー処理を書いてはいけない - Preferred Networks Research & Development

    昨日セミナーとして USTREAM させていただいた資料を公開いたします。 エラー処理を書いてはいけない USTREAMのビデオ タイトルは釣り気味ですが、内容はいたって真面目なのでご安心ください。 概要 やってはいけないシリーズ、の第三弾としての試みです。 リソース管理をしてはいけない ロック処理を書いてはいけない エラー処理を書いてはいけない ← New! タイトルに反して(あるいはタイトル通りに)、正しく長時間動作するプログラムを書くには きちんとエラー処理を行う必要がありますが、 それを何とか抽象化しようという(Haskell界隈での)試みについてのご紹介でございます。 あまり他の人がこういうことを言っているのを聞いたことが無いので、 自分の日々考えていることを世に問うた形になっております。 実際のところ、社内ではC++がメインに使われておりますので、 こういう手法が用いられている

    エラー処理を書いてはいけない - Preferred Networks Research & Development
  • 1