タグ

ブックマーク / tech.preferred.jp (7)

  • eBPFを用いてPod ごとのインターネットトラフィック量を計測するツールの開発 - Preferred Networks Tech Blog

    記事は、2024年夏季インターンシッププログラムで勤務された俵 遼太さんによる寄稿です。 こんにちは、京都大学 工学部 電気電子工学科3回生の 俵 遼太 (id:walnuts1018) です。 今回、PFN 2024 夏期国内インターンシップに参加し、社内機械学習基盤の開発・運用を行うCluster Servicesチームにて、「Podごとのインターネットトラフィック量を計測するツールの開発」というテーマに取り組みました。 この記事では、社内のKubernetesクラスタにおける課題と、Podごとのインターネットトラフィック量を計測するために作成したツールについて紹介します。 社内のKubernetesクラスタにおける課題 社内の Kubernetes クラスタでは、複数のユーザーが同じクラスタを利用して様々なワークロードを動かしています。このような構成をとることで、マシンリソースの利

    eBPFを用いてPod ごとのインターネットトラフィック量を計測するツールの開発 - Preferred Networks Tech Blog
    bootJP
    bootJP 2024/11/13
  • 深層学習のための分散キャッシュシステム - Preferred Networks Tech Blog

    エンジニアの上野です。Cluster Servicesチームという、PFNのKubernetesベースの機械学習基盤を開発・運用するチームに所属して、基盤の改善や新機能の開発に務めています。記事では、深層学習における学習データセット読み込み速度の改善を目指して開発し、現在もKubernetes上で運用中の分散キャッシュシステムを紹介します。 PFNの機械学習基盤については、ブログ「2022年のPFNの機械学習基盤」もご参照ください。 深層学習における学習データセット読み込み 深層学習を高速化するため、深層学習に向いたアクセラレータの開発が日々続けられています。PFNで開発しているMN-Coreシリーズや、NVIDIA社製GPUもそのひとつです。これらのアクセラレータは高速に行列演算を行うことができ、深層学習の1イテレーションにかかる時間を高速化、ひいては深層学習を活用する研究開発全体を加

    深層学習のための分散キャッシュシステム - Preferred Networks Tech Blog
    bootJP
    bootJP 2023/07/18
    ホットスポット問題どうしてるのかなと思ったらMAGLEVだといい感じになるのかー。MAGLEVってGoogleなロードバランサの論文で見たことあるけど関係あるのかな?/envoyの見たらGoogleのMAGLEVの実装とのこと
  • PFNのKubernetesクラスタのCNI Plugin - Preferred Networks Tech Blog

    エンジニアの清水です。PFNでは、計算アクセラレータとしてGPUを採用するMN-2と自社開発のMN-Coreを採用するMN-3をKubernetesクラスタとして運用しており、その中でCNI Pluginを内製開発して使っています。このブログでは、内製CNI Pluginの話を中心にこれまでPFNのKubernetesクラスタのネットワーク部分、特に、CNI Pluginの構成とその変遷について紹介し、また最後に今後の展望についても触れます。 目次 なぜCNI Pluginを内製したのか? 内製CNI Pluginの特徴 Kubernetesクラスタのネットワーク構成(第1世代) 運用中に見つかった課題 時間が経過すると割り当て可能なVFが無くなる Podの起動直後にCluster IPを使った通信ができない kube-proxyのリソース使用量が増加し続ける Kubernetesクラスタ

    PFNのKubernetesクラスタのCNI Plugin - Preferred Networks Tech Blog
    bootJP
    bootJP 2023/05/07
  • Kubernetesにおけるコンテナ起動時間高速化に向けた検討 - Preferred Networks Tech Blog

    投稿はPFN2022 夏季国内インターンシップに参加された江平智之さんによる寄稿です。 はじめに PFN2022 夏季国内インターンシップに参加していた江平智之です。現在修士1年で、大学では分散システムやクラウド技術について研究しています。 今回のインターンシップでは、「JP04. Kubernetesにおけるコンテナ実行環境の改善」というテーマでコンテナ起動時間の高速化に取り組みました。 背景 PFNでは機械学習基盤としてKubernetesクラスタを使用しており、リサーチャやエンジニアKubernetesクラスタ上のPod内で機械学習やシミュレーションなどの計算を行っています。スケジューラによってノードにアサインされた後にPod内にコンテナが起動されますが、ノード上にコンテナイメージのキャッシュがない場合にコンテナ起動が遅いという問題がありました。計算はPFNの研究開発における主要

    Kubernetesにおけるコンテナ起動時間高速化に向けた検討 - Preferred Networks Tech Blog
    bootJP
    bootJP 2022/09/30
  • Apache Ozoneをやっていた一年 - Preferred Networks Tech Blog

    Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー

    Apache Ozoneをやっていた一年 - Preferred Networks Tech Blog
    bootJP
    bootJP 2021/12/10
  • Preferred Networks におけるHadoop - Preferred Networks Research & Development

    Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

    Preferred Networks におけるHadoop - Preferred Networks Research & Development
    bootJP
    bootJP 2020/06/29
  • 人工知能技術の健全な発展のために - Preferred Networks Tech Blog

    4月10日の日経ITproの記事「 AIベンチャーの雄が総務省の開発指針に反対する理由」で、総務省主導で推進されているAIネットワーク社会推進会議とその開発原則分科会からPFNが離脱したことを、取り上げていただきました。私とのとりとめのないインタビューを適切にまとめてくださった日経ITpro浅川記者に深く感謝いたします。また、その記事に対して、はてなブックマーク、NewsPicks、FacebookなどのSNSを通して多くのコメントを下さった方にも感謝の意を表します。ありがとうございます。離脱の理由は記事にある通りですが、総務省の方々も私達の立場を真摯に受け止めてくださっていて、実りのある議論を続けてくださっています。その上で、今後の議論を深めるために、いくつかの点について補足したいと思います。 汎用人工知能と特化型人工知能 現在、人工知能という言葉は大雑把には、 汎用人工知能(「強い」人

    人工知能技術の健全な発展のために - Preferred Networks Tech Blog
    bootJP
    bootJP 2017/04/14
  • 1