タグ

ブックマーク / tech.preferred.jp (22)

  • PFN の Kubernetes クラスタにおける Uninterruptible Sleep との付き合い方 - Preferred Networks Research & Development

    Preferred Networks エンジニアの坂田です。普段は社内向けの GPU サーバークラスタの運用管理の業務などをやっております。 先日、DevOpsDays Tokyo 2021 というイベントで、弊社 須田と一緒に PFN が Kubernetes を使って GPU クラスタを運用する中で経験してきた障害とその対応の自動化や、Kubernetes クラスタそのものの管理・アップグレードの自動化の取り組みについてご紹介しました。 SlideShare: PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021 エントリでは、その中でご紹介した障害の事例の中から、コーナーケースとして対応に悩まされた Uninterruptible Sleep という状態に入ったプロセスの扱いについてご紹介します。 はじめに PFN のクラ

    PFN の Kubernetes クラスタにおける Uninterruptible Sleep との付き合い方 - Preferred Networks Research & Development
    dowhile
    dowhile 2021/06/10
  • Pythonのlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 - Preferred Networks Research & Development

    Home Blog Pythonlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 Python向けのlinter/formatter設定ツール「pysen」を pypi.org および github.com で一般公開しました。 このツールは主にPython向けのlinter/formatterの設定を一元管理し、Preferred Networks社内でよく使われているツール環境を誰でも簡単に設定できるように支援するツールです。チームごとに分散しうるようなツールに関するノウハウをコードとして集約し、PFN社内での共有を促進させることを目的として開発しています。pysenは実際にPFN社内で使われており、2020年4月に開発がスタートしてから、2021年3月現在でおよそ100を超える社内リポジトリに導入されています。 上図:

    Pythonのlinter/formatterを誰でも手軽に設定できるようにするためのPFN社内ツール “pysen” の紹介 - Preferred Networks Research & Development
    dowhile
    dowhile 2021/04/04
  • TOP500とGreen500:コンピュータの性能指標をどう読むか - Preferred Networks Research & Development

    1. はじめに 2020年6月22日深夜(日時間)にリモート開催されたISC2020のTOP500セッションで、PFNが作った深層学習用スーパーコンピュータ、MN-3が21.11 GFlops/WのHPLベンチマークの実行性能をあげ、Green500ランキングで500システム中No.1になりました(写真1)。開発チームの一員として、ここに至るまでの苦労の連続を思うと、とても嬉しいです。 なお、同日発表されたTOP500, HPCG, Graph500, HPL-AIベンチマークでは、理研に設置された「富岳」システムが各々500システム中1位、68システム中1位、10システム中1位、2システム中1位と、1位を多数達成したことも、ポスト京プロジェクト(富岳と命名される前の名前)の前座プロジェクトや、システム評価にかかわったものとして嬉しく思います。 このBlogでは最近増えてきてちょっと混乱

    TOP500とGreen500:コンピュータの性能指標をどう読むか - Preferred Networks Research & Development
  • 化学反応におけるDeep learningの適用 - Preferred Networks Research & Development

    近年様々な分野に対してDeep learningの応用が研究されてきています。 化学の分野でも物性値の予測モデルや、化合物の生成モデルの研究などが盛んになってきています。最近では、有機化合物の合成を行う際に必要な化学反応の予測をDeep learningで行うという試みが行われてきているのでその先行研究サーベイをしました。 サーベイ資料はこちらのSlideshareにアップロードしています。 問題設定:反応予測および逆合成経路探索 化学反応で、反応物 (reactant) AとBを触媒 (reagent) Cの下で反応させたときに 生成物 (product) D ができたようなプロセスは Reaction SMILES を用いると “A.B.C>>D” というように表すことができます。 ここで、 AとBとC から何ができるか? (答えはD)を予測する問題を順方向の反応予測問題と呼び、Dを作

    化学反応におけるDeep learningの適用 - Preferred Networks Research & Development
    dowhile
    dowhile 2019/09/07
  • MN-2が動き出しました - Preferred Networks Research & Development

    先日リリースさせて頂いたとおり,MN-2の構築を行っています.MN-2は最新世代の,1024基のNVIDIA(R) V100 GPUが計算力の主力となります.現在利用しているMN-1およびMN-1bにおいて1024基のP100と512基のV100を稼動させていますが,MN-2の追加によりGPU数換算で合計2560基となり,保有計算力を大幅に強化しました.とはいえ,現時点ではKubernetesをはじめとしたソフトウェアサービススタックのセットアップ中であり,GPUは主にベンチマークを実施して状態確認を行っている段階です. PFNでリサーチャをやっている,土井裕介です.最近はリサーチ業務はあまりやっておらず,社内インフラ関係の全体の世話役のような業務が主担当になっています.今回,物理構築が一段落したのでBlogにてMN-2の概要やポイントを紹介させて頂きます. なぜMN-2を作るのか? よく

    MN-2が動き出しました - Preferred Networks Research & Development
    dowhile
    dowhile 2019/06/27
    > 全面的にEthernetとして,RoCEv2(RDMA over Converged Ethernet)を採用
  • KubernetesのSchedulerを評価するためのシミュレーター「k8s-cluster-simulator」公開 - Preferred Networks Research & Development

    概要 2018年夏のインターンおよびPEとして勤務した薮内さんとそのメンターである谷脇、大村で開発したKubernetesクラスターのシミュレーターであるk8s-cluster-simulatorのアルファ版をオープンソースとして公開しました。このシミュレーターはKubernetesクラスタに投入されるPodのワークロードを時間とともにシミュレートできるため、Kubernetesのスケジューラーを番環境に投入する前に評価することができます。 開発の動機 PFNでは巨大なオンプレのGPUクラスタを持っており、その上でKubernetesを使って様々な実行時間の機械学習ジョブを研究者が実行しています。我々クラスターサービスチームのミッションの一つとして、GPUの利用率を向上させ費用対効果をあげることが挙げられます。一方で、研究者間で使えるリソースの平等さも考慮しなければなりません。これを実現

    KubernetesのSchedulerを評価するためのシミュレーター「k8s-cluster-simulator」公開 - Preferred Networks Research & Development
    dowhile
    dowhile 2019/05/12
  • ハイパーパラメータ自動最適化ツール「Optuna」公開 - Preferred Networks Research & Development

    ハイパーパラメータ自動最適化フレームワーク「Optuna」のベータ版を OSS として公開しました。この記事では、Optuna の開発に至った動機や特徴を紹介します。 公式ページ 公式ドキュメント チュートリアル GitHub ハイパーパラメータとは? ハイパーパラメータとは、機械学習アルゴリズムの挙動を制御するパラメータのことです。特に深層学習では勾配法によって最適化できない・しないパラメータに相当します。例えば、学習率やバッチサイズ、学習イテレーション数といったようなものがハイパーパラメータとなります。また、ニューラルネットワークの層数やチャンネル数といったようなものもハイパーパラメータです。更に、そのような数値だけでなく、学習に Momentum SGD を用いるかそれとも Adam を用いるか、といったような選択もハイパーパラメータと言えます。 ハイパーパラメータの調整は機械学習

    ハイパーパラメータ自動最適化ツール「Optuna」公開 - Preferred Networks Research & Development
    dowhile
    dowhile 2018/12/04
  • DNN推論用ライブラリ「Menoh」リリースについて - Preferred Networks Research & Development

    Python以外も使いたくないですか?  特にDeepLearning界隈で. Menoh開発者の岡田です.この記事ではMenohの紹介と開発に至った動機について説明します. Menohのレポジトリ: https://github.com/pfnet-research/menoh Menoh(メノウ)は学習済みのDNNモデルをONNX形式から読み込んで動作させる推論専用のライブラリです.実装はC++で書きましたが,C言語のインターフェースを持たせて,他の言語用からもその機能を呼び出しやすくしてあります.リリース時点でC++版ラッパーとC#版ラッパー,Haskell版ラッパーがあり,Ruby版ラッパーとNodeJS版ラッパー,Java(JVM)版ラッパーが開発中です.バックエンドにはIntelの開発しているMKL-DNNを採用し,GPUが無くてもIntel CPUが使える環境で高速にモデルの

    DNN推論用ライブラリ「Menoh」リリースについて - Preferred Networks Research & Development
  • ChainerMNのクラウド環境向け新機能とAWSにおける性能評価 - Preferred Networks Research & Development

    ※この記事はChainer Blogの抄訳です Chainer にマルチノードでの分散学習機能を追加するパッケージであるChainerMN に、ネットワークスループットが低いシステム向けの以下の2つの機能をv1.2.0とv1.3.0で追加しました。 Double bufferingによる通信時間の隠ぺい機能 半精度浮動小数点数(FP16)によるAll-Reduce機能 ChainerMNは高速なネットワークを持つスーパーコンピュータやMicrosoft Azureのようなシステムを想定して開発してきたため、高速なネットワークのない環境では高い並列性能を達成するのが難しいという問題がありました。しかし、これらの機能を使うことで、GTC2018で発表したようにAmazon Web Services (AWS)のような一般的なシステムでもChainerMNによって高い並列性能を達成することができ

  • 「コンピューターサイエンスのすべての分野に精通していること」という応募資格に込めた想い | Preferred Research

    ※PFNの募集要項は、ブログの内容をふまえ、適切に意図が伝わるよう一部更新しました PFN代表の西川です。 今回は、SNS上でもたびたび話題(炎上?)になっているPFNの応募資格について、改めてご紹介したいと思います。 PFNの採用募集ページに書かれたリサーチャーの条件には、「コンピュータサイエンスのすべての分野に精通していること」という一文があります。この条件は、PFIの時から、リサーチャーの応募資格として常に掲げてきました。 その背景にある想いは、コンピュータサイエンスの研究をする上では、一つの分野だけでなく、幅広い分野について深い知見を有することが極めて重要である、ということです。たとえば、データベースの研究をする上では、トランザクション処理の理論や関係代数について詳しく知っているだけではなく、データベースを動かすコンピュータアーキテクチャ、ストレージ、また、今では分散データベース

    「コンピューターサイエンスのすべての分野に精通していること」という応募資格に込めた想い | Preferred Research
  • ニューラルネットの逆襲から5年後 | Preferred Research

    私が2012年にニューラルネットの逆襲(当時のコメント)というのをブログに書いてからちょうど5年が経ちました。当時はまだDeep Learningという言葉が広まっておらず、AIという言葉を使うのが憚られるような時代でした。私達が、Preferred Networks(PFN)を立ち上げIoT、AIにフォーカスするのはそれから1年半後のことです。 この5年を振り返る良いタイミングだと思うので考えてみたいと思います。 1. Deep Learning Tsunami 多くの分野がこの5年間でDeep Learningの大きな影響を受け、分野特化の手法がDeep Learningベースの手法に置き換わることになりました。NLP(自然言語処理)の重鎮であるChris Manning教授もNLPで起きた現象を「Deep Learning Tsunami」[link] とよびその衝撃の大きさを表して

    ニューラルネットの逆襲から5年後 | Preferred Research
  • 分散深層学習パッケージ ChainerMN 公開 - Preferred Networks Research & Development

    Chainer にマルチノードでの分散学習機能を追加するパッケージ ChainerMN のベータ版を公開しました。 GitHub ドキュメント ChainerMN とは ChainerMN は Chainer の追加パッケージで、Chainer を用いた学習を分散処理により高速化できます。柔軟で直感的に利用できる Chainer の利便性をそのままに、学習時間を大幅に短縮できます。1 ノード内の複数の GPU を活用することも、複数のノードを活用することもできます。既存の学習コードから数行の変更で ChainerMN を利用可能です。ChainerMN は既に社内の複数のプロジェクトで実証が行われています。 Chainer を用いた通常の学習における 1 イテレーションは下図のように Forward, Backward, Optimize の 3 つのステップからなります。 Chainer

    dowhile
    dowhile 2017/05/27
    MPIか。本家とマージしないのかな
  • 深層強化学習ライブラリChainerRL - Preferred Networks Research & Development

    Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています. Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar

    深層強化学習ライブラリChainerRL - Preferred Networks Research & Development
    dowhile
    dowhile 2017/02/27
  • Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

    Rapidly Realizing Practical Applications of Cutting-edge Technologies

    Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
    dowhile
    dowhile 2017/02/24
  • ChainerMN による分散深層学習の性能について - Preferred Networks Research & Development

    米サンフランシスコで開催された「Deep Learning Summit 2017」にて、PFN は Chainer のマルチノードでの分散学習対応への取り組みについて発表しました。記事では、その発表について詳しく説明していきます。 分散深層学習の重要性と現状 GPU の性能は継続的に向上していますが、より大きなデータを活用してより精度の高いモデルを実現するために、深層学習で使われるモデルのパラメータ数や計算量も増大しています。そのため、現在でも、Chainer を含む一般的なフレームワークを用いた標準的な学習では 1 週間以上かかってしまうようなユースケースが少なくありません。より大規模なデータを扱ったり、試行錯誤のイテレーションを効率化するために、複数の GPU を連携させ学習を高速化させることは重要な課題です。そこで、我々は Chainer にマルチノードでの分散学習の機能を追加す

    ChainerMN による分散深層学習の性能について - Preferred Networks Research & Development
  • 画風を変換するアルゴリズム - Preferred Networks Research & Development

    Deep Neural Networkを使って画像を好きな画風に変換できるプログラムをChainerで実装し、公開しました。 https://github.com/mattya/chainer-gogh こんにちは、PFNリサーチャーの松元です。ブログの1行目はbotに持って行かれやすいので、3行目で挨拶してみました。 今回実装したのは”A Neural Algorithm of Artistic Style”(元論文)というアルゴリズムです。生成される画像の美しさと、画像認識のタスクで予め訓練したニューラルネットをそのまま流用できるというお手軽さから、世界中で話題になっています。このアルゴリズムの仕組みなどを説明したいと思います。 概要 2枚の画像を入力します。片方を「コンテンツ画像」、もう片方を「スタイル画像」としましょう。 このプログラムは、コンテンツ画像に書かれた物体の配置をそのま

    画風を変換するアルゴリズム - Preferred Networks Research & Development
    dowhile
    dowhile 2015/09/11
  • 100倍で考える - Preferred Networks Research & Development

    私が最近強く印象に残った言葉が10倍で物事を考えるです[wired]。 これが私の記憶の中で拡大解釈され、今は100倍で物事を考えるようになっています。 「100倍」というのは一見すると不可能なことの例えのように思えますが、決してそんなことはありません。 どの程度現実的か例をあげて考えてみましょう。 DWH(DBと考えても良いです)という分野を考えてみます*1。 *1 この分野は専門家ではないのであくまで外から見ている素人の意見です。 2014年10月現在 Google BigQueryは1GBの保存に月あたり 約3円、クエリ時1TBスキャンあたり500円という価格設定です。基的なDBの操作は全部できて、その上でユーザーが自由に関数を定義できて、画面とつながって結果が数十秒で返ってきてです。これはこの分野を知る人にとっては衝撃的な価格です。 1昔前、DWHの世界では製品が数千万から数億円

    100倍で考える - Preferred Networks Research & Development
  • 第2回全脳アーキテクチャ勉強会でDeep Learningについて講演しました - Preferred Networks Research & Development

    得居です。1月30日にリクルートGINZA8ビルで開催された第2回全脳アーキテクチャ勉強会にて、Deep Learningについて講演しました。 全脳アーキテクチャ勉強会は「人間のように柔軟汎用な人工知能の実現に興味のある研究者、脳に興味のあるエンジニア,関連分野(神経科学、認知科学等)の研究者間での交流をはかりつつ、こうした取組へ関わるきっかけ」作りが目的の勉強会です。今回は主催者の一人である産総研の一杉裕志先生、筑波大学の酒井宏先生、そして私が講演を行いました。最終的な来場者数は把握しておりませんが、200名超の大規模な勉強会となりました。 私の発表は Deep Learning の最近の進展について、できるだけ幅広い学習手法やモデルを紹介する内容です。各手法の実際の成果がどうかというよりは、今後の研究の種になりそうな面白そうな話題を詰め込みました。発表後にも多数の質問を頂き、その後の

    第2回全脳アーキテクチャ勉強会でDeep Learningについて講演しました - Preferred Networks Research & Development
    dowhile
    dowhile 2014/02/02
  • データ解析作業の救世主! 超絶☆実験ビルドシステムmafをOSS公開しました - Preferred Networks Research & Development

    Photo by midiman under Creative Commons License (original) メリークリスマフ! 得居です。今日はクリスマスですね。皆様昨日はいかがお過ごしでしたでしょうか? クリスマスということで、今日は私たちから皆様に、特にデータ解析や論文執筆、手法の比較検証のために計算機上で様々な実験をしている方々に、プレゼントがあります! Github – pfi/maf 今日、実験結果を「ビルドする」ためのツールmafを公開しました! mafは、PFIでもよく使われているPythonベースのビルドツールwafを実験に使うための拡張です。大まかな使い方を学ぶために、ドキュメントとサンプルも公開しています。 maf — maf 0.1 documentation サンプル 実験手順をビルドだと思って宣言的に書くこと自体はwaf等既存のビルドツールで可能です。m

    データ解析作業の救世主! 超絶☆実験ビルドシステムmafをOSS公開しました - Preferred Networks Research & Development
    dowhile
    dowhile 2014/01/05
  • PFIセミナーでテンソルについて話しました - Preferred Networks Research & Development

    はじめに 大野です。先日PFIセミナーでテンソルについてお話をしたので、それの宣伝を行いたいと思います。当日の様子は以下のリンクから閲覧できます:PFIセミナー(ustream)。また、スライドはSlideShareで公開しています PFIセミナーとは毎週木曜日の19:10ごろから行なっている公開社内セミナーです。週替わりで社員が興味を持っている分野について30分から1時間程度でプレゼンを行なっています。内容は技術的な内容(入門からディープなものまで)もありますが、それだけに限らず、契約、組織論、マネジメントなどの話も過去に行ったことがあります。セミナーの様子は録画しており、ustream上でのPFIのページで公開しています。今回自分に順番が回ってきたので、数学の道具の一つであるテンソルをテーマにお話をしました。 セミナーの内容 話した内容は次の通りです テンソルはベクトルや行列を一般化し

    PFIセミナーでテンソルについて話しました - Preferred Networks Research & Development
    dowhile
    dowhile 2012/07/28