タグ

関連タグで絞り込む (228)

タグの絞り込みを解除

*infraに関するsh19910711のブックマーク (2,126)

  • nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER

    自宅にあるオンプレマシンでグラフィックカードを GPGPU の用途に使用していると、消費電力や発熱は切実な問題になりうる。 特に昨今は電気代の値上がりも著しいし、発熱は製品寿命の短縮や夏だと室温の上昇につながる。 そこで、今回は Linux の環境で nvidia-smi(1) を使って NVIDIA の GPU にパワーリミットを設定することで消費電力や発熱の低減を目指してみる。 使った環境は次のとおり。 Ubuntu 20.04 LTS のマシンに、Docker と nvidia-container-toolkit がインストールしてある。 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.4 LTS Release: 20.04 Codenam

    nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER
    sh19910711
    sh19910711 2023/03/07
    2022 / "一般に半導体のワットパフォーマンスはリニアな関係ではなく入力する電力が大きくなるほどパフォーマンス向上の効率が悪くなると言われる / 電力量が減れば発熱も小さくなるため暖房器具としての性能も低下"
  • 【ABCI】産総研スパコンに圧倒的入門するためのページ〜VSCode・Anacondaによる計算環境整備 - Qiita

    こんにちは、@aya_seです。大学で自然言語処理の研究をしています。 今回は、産総研AI橋渡しクラウド(ABCI)で最低限のジョブが投げられるようにするまでの作業をまとめました。もともとは研究室内Wikiに書いていたものですが、せっかくなので公開してみます。また、ABCIの事例ではありますが、他のスパコンでも共通する部分があるかと思うので、参考になれば幸いです。 ちなみに、今回の記事の大部分の内容はABCIのユーザーガイドに書いてあったので、読むとよさそうです。 想定する読者層 研究室に配属されたばかりで、これからスパコン(ABCI)を使おうと考えている PythonPyTorchを利用したML系のジョブを投げたい スパコン(ABCI)におけるジョブの概念や投げ方について知りたい ABCIにRemote SSH接続する まずはABCIのアカウントIDを把握する。 ABCI利用者ポータル

    【ABCI】産総研スパコンに圧倒的入門するためのページ〜VSCode・Anacondaによる計算環境整備 - Qiita
    sh19910711
    sh19910711 2023/03/07
    2022 / "ABCI: 2種類のジョブの投げ方がある / インタラクティブジョブで実際に行う実験のプログラムがうまく動きそうかの様子を見て、うまくいきそうな雰囲気であればバッチジョブで再度実行するというのが経済的"
  • Slurm HPCクラスタとKubernetesを同居させてみた(前編) - Qiita

    はじめに こんにちは、(株)日立製作所 研究開発グループ サービスコンピューティング研究部の小林です。 DockerKubernetesに代表されるコンテナ技術がWebアプリ開発を始め様々な場面で使われるようになりました。最近ではHPC向けのコンテナランタイムとしてSingularityが開発され、より一層コンテナ活用の幅が広がりそうですね。 日のアドベントカレンダーでは、HPCジョブスケジューラの一つであるSlurmクラスタとコンテナオーケストレータのKubernetesクラスタを同居させSingularityベースのワークロードを双方から実行可能な環境を構築してみます。 アドベントカレンダーではHPCジョブスケジューラの一つであるPBSに関する記事もあるので興味がある方は要チェックです。 なぜ同居させるのか データ分析技術の多様化 従来のデータ分析に関するいくつかの主要な動向として

    Slurm HPCクラスタとKubernetesを同居させてみた(前編) - Qiita
    sh19910711
    sh19910711 2023/03/07
    2019 / "Singularity: HPC向けのコンテナランタイム + Kubernetes対応コンテナランタイムインターフェースとしてSingularity-CRIが開発 / Slurm: HPCジョブスケジューラの一つ + コンテナ化されたジョブの実行をサポート"
  • 機械学習手法を用いる研究向け基盤 on Kubernetes ~開発編~ - tenzenの生存日誌

    はじめに システムの構成 クライアントコマンド authenticator K8s Custom Controller cks-operator imperator 仕組み まとめ はじめに この記事では大学院修了にともなって、これまで構築してきた Kubernetes (K8s) を用いた ML 基盤のうち、開発したソフトウェアを中心に紹介していきます。 6 年間の振り返りは こちらの記事 を、運用に関する紹介は こちらの記事(執筆中)を参照してください。 システムの構成 構築・運用していたシステム構成は以下の図のようになっており、ユーザは専用のクライアントコマンド経由で Web IDE や Jupyter を起動してデータの分析ができるようになっています。 アーキテクチャ クライアントコマンド 前述のクライアントコマンド(以下 cmd)の機能などについて軽く説明します。 cmd のソー

    機械学習手法を用いる研究向け基盤 on Kubernetes ~開発編~ - tenzenの生存日誌
    sh19910711
    sh19910711 2023/03/07
    2022 / "何もしない Pod によって K8s 上のリソースをロックし、本物の Pod がスケジュールされた時に、偽物の Pod を削除して本物の Pod に計算機資源を譲る / GPU や FPGA などのデバイスをロックすることが主目的"
  • 弱小大学の研究室における計算機環境の理想と現実 - ぽよメモ

    はじめに 理想 現実 今までの環境 新しい環境への移行にあたって 新しい環境 監視 情報共有・記録 他にやりたいこと 使用中であることの明示 自動ジョブ実行システム 今後の課題 理想に近づくために 共用計算マシンの整備 大学側での提供サービスの拡充 クラウド利用は? まとめ はじめに これはあくあたん工房GWアドベントカレンダー1日目の記事です. しがないM2が悲惨なラボ計算機環境をどうにかしたいとあがいている様子です.過度な期待はしないでください. なおこれは,かなり恵まれた環境で,かなり恵まれた学生が,さらに高望みしているだけの記事です.未だにPCの起動ディスクがHDDだとか,メモリが4GBしかないとか,そういう世界の話はしません.タスクとしては主に軽い深層学習がメインで,MPIを使ってマルチノードで大規模演算!みたいなことはしていません. 理想 プログラムを書いたら, ワンクリックで

    弱小大学の研究室における計算機環境の理想と現実 - ぽよメモ
    sh19910711
    sh19910711 2023/03/07
    2019 / "初期構築以降の環境構築方法を誰も残していないので思い思いにインストールされているCUDAとNVIDIA Driver / CUDAのバージョンもNVIDIA DriverのバージョンもPythonのバージョンも違う"
  • 機械学習基盤をKubernetesで運用してきて - Qiita

    この記事について この記事はKubernertes Advent calender 2018の8日目の記事です。 普段からオンプレのKubernetesクラスタを使った研究開発に携わっており、LANケーブルの配線から新バージョンのKubernetesやエコシステムの検証、構築、運用保守、独自ツールの開発に加えてフロントエンドGUIをmaterial-uiで作ったりとほぼ全レイヤをやっています。 今回は機械学習の実行基盤としてKubernetesを運用してきたなかで得られた知見について書いていきます。 運用中のKubernetesクラスタについて 運用しているKubernetesクラスタはオンプレミスのCPUサーバとGPUサーバの混合構成で、さらにGPUサーバは複数の世代のGPUが混ざっています。 データサイエンティスト向けに内製した機能を持つことが大きな特徴ではありますが、用途は機械学習

    機械学習基盤をKubernetesで運用してきて - Qiita
    sh19910711
    sh19910711 2023/03/07
    2018 / "Kubernetesの運用者としてはJupyterの扱いは頭を悩ませる / GPUの空き状況をモニタリングして公開: 誰がどれだけGPUを使っているかをGrafanaで公開しており、ユーザが他のユーザの利用状況を確認できるようにしています"
  • ミニマムなCloudFormation運用の始めかた

    はじめに AWS CDKを活用したいが、実際はCloudFormationで運用しているチームはある。 もちろん意欲があれば積極的にCDKを勧めたいが、そうならない場合もある。(是非は触れない) そういったチームを一気にモダンな開発手法に移行させるのは難しいため、まずはある程度機能する環境を作り、ボトムアップ的に進めていくことが重要だと思うので、最低限で機能するツールを導入することが多い。 以下はそのサンプルである。 環境 今回はAWS CloudShellとする。 リポジトリの資源管理:git-remote-codecommit リポジトリがAWS CodeCommitで管理されている場合は、git-remote-codecommitを使用して簡単にクローンできる。AWS IAMだけで、SSHの設定を行わずに利用することができる点で、CloudShellとの相性が良い。 # Instal

    ミニマムなCloudFormation運用の始めかた
    sh19910711
    sh19910711 2023/03/06
    "リポジトリがAWS CodeCommitで管理されている場合は、git-remote-codecommitを使用して簡単にクローンできる。AWS IAMだけで、SSHの設定を行わずに利用することができる点で、CloudShellとの相性が良い / git clone codecommit::<region>://..."
  • 本番環境でのテスト: 難しい側面

    sh19910711
    sh19910711 2023/03/05
    2020 / "複雑なシステムは予期せぬ方法で故障する / AWSの振り返り資料として誤りの訂正というテンプレート / 「同様のイベントの爆風半径を半分にするためにはどうすればできたか?」という質問に答える"
  • Libvirt と Open vSwitch による仮想ネットワークの構築 - Qiita

    この記事は、Libvirt と Open vSwitch を使って仮想ネットワークを検証したメモである。 Libvirt は、製品名 Red Hat Enterprise Linux virtualization として、サブスクリプション契約で利用することができる。Open vSwitch は Red Hat OpenStack、Red Hat OpenShift、Red Hat Virtualization の実現要素として組み込まれている有用な技術であり、使用には同様の制約がある。 しかしながら、LibvirtとOpen vSwitchは、OSSライセンスで提供されるプロダクトのため、Ubuntu Linux でも利用できる。そこで、これらを利用して仮想ネットワークを構築して検証した。仮想ネットワークとは、ソフトウェアによって実現するネットワークであり、物理ネットワークの上に構築する

    Libvirt と Open vSwitch による仮想ネットワークの構築 - Qiita
    sh19910711
    sh19910711 2023/03/05
    "SDN: 物理的なケーブル接続の変更や追加を必要としないソフトウェア定義によるネットワーク / Open vSwitch: SDN を実現するための一つのソフトウェア + ハイパーバイザー横断で、仮想サーバーのネットワーク環境を提供"
  • 「監視の目的とは何か?」問いかけよう / Practical Monitoring

    グリー開発部 Meetup #3 モニタリング ( https://gree.connpass.com/event/119923/ )でお話しした、「入門 監視」を翻訳するに至った理由と、「監視の目的とは何か?」を問いかければ「入門 監視」の内容が当たり前に思えてくるという話 入門 監視 https://www.oreilly.co.jp/books/9784873118642/

    「監視の目的とは何か?」問いかけよう / Practical Monitoring
    sh19910711
    sh19910711 2023/03/04
    2019 / "バックアップと監視は目的を見失いがち / 目的から逆算して考える: 問題が起きるケースを想像する、テストする / 🙅‍♂️ツールでできることをやる + 🙆‍♀️必要な監視→ツールを選ぶ or 作る / 全員でやれ"
  • 最新のrundeckでsshレス環境ジョブマネージャを実現しよう - Qiita

    AWSをとりまくジョブマネージャ状況 AWSではインフラに必要な様々なリソースが提供、拡充され続けていますが、ことジョブマネージャに関して言うと、AWSで提供されている各リソースに付随したcron相当の機能しかなく充実した機能が提供されているとは言えません。ジョブマネージャは海外では熱い話題みたいなのでそのうち実装されるのかもしれませんが、現時点での対応のため、市販、フリーのジョブマネージャを選定する必要がありました。 今回はフリーであるにも関わらず市販のジョブマネージャにも負けない機能を有しているrundeckを取り上げ、その機能の紹介と拡充に至るまでの経緯を簡単に紹介します。 rundeckを採用した理由 ジョブフローを記述するならAzkabanAirflowといった選択肢もあるのですが、さわりということで直感的なコマンドライン記述が可能なrundeckを採用しました。 jenkin

    最新のrundeckでsshレス環境ジョブマネージャを実現しよう - Qiita
    sh19910711
    sh19910711 2023/02/28
    2019 / "これだけジョブマネージャが世の中に存在していながらもまだ新たなツールが誕生、更新され続けている / それだけ満足する機能を提供することができていないということだし、世のニーズも変わり続けている"
  • TerraformとSnowflakeで考えること - 作業メモ

    はじめに SnowflakeはクラウドをベースとしたSaaS型のデータプラットフォームです。主要なクラウド(AWS/GCP/Azure)に対応しており、企業/組織内の至る所に転がっているデータも「クラウド×Snowflake」で連携できるため、アジリティやスケーラビリティが求められるデータプラットフォームとして大きな強みがあります。 そんな注目を浴びているSnowflakeですが、これまたIaCとして人気のあるTerraformで構築できます。Snowflakeは大量のオブジェクトを組み合わせて管理するため、長くお世話になるならTerraformの利用をぜひとも考えたいところです。 稿では、Terraform×Snowflakeを検討していく上で自分が感じた検討ポイントや悩みどころを脳内整理を兼ねて記載します。内容がこれから検討する方の参考になれば幸いです。 SnowflakeとTer

    TerraformとSnowflakeで考えること - 作業メモ
    sh19910711
    sh19910711 2023/02/28
    "開発者全員がTerraformを扱えるなら困らないと思いますが、世の中そんなにうまくはいきません / 人材確保が困難な時代でSnowflakeもTerraformもできる人をアサインして、チームとして開発を継続していくのはとても難しい"
  • Cloud Profilerを導入してパフォーマンス改善をした話

    こんにちは! Magic Momentでテックリードをしている Miyake です。 弊社が開発するセールスエンゲージメントプラットフォームである Magic Moment Playbook では営業活動にかかせないツールとの連携を多数を行っており、私が所属するData IntegrationチームではSalesforceなどのCRMツールを中心とした外部連携機能の開発をしています。 ただいまエンタープライズ企業のお客様が続々と増えており、取り扱うデータ規模が増大中です。それに応じて負荷対策や取り込み速度の性能改善などといったパフォーマンス改善に注力しておりまして、その過程で Cloud Profiler を利用したパフォーマンス改善の取り組みを行ったので、その内容をシェアしたいと思います。 Cloud Profiler とは Google Cloudマネージドなプロファイリングツールです

    Cloud Profilerを導入してパフォーマンス改善をした話
    sh19910711
    sh19910711 2023/02/27
    "Cloud Profiler: さくっとプロファイリングをして性能分析をしたい場合に便利 / 公式ドキュメントにプロファイルの見方が説明されており、フレームグラフの見方やパフォーマンスデータの評価の仕方などが記載"
  • サーバ管理を理解するための10の心得 - Loud Minority

    「サーバ管理、お願い」「なにすればいいんですか?」 という質問に対しての答え文章です。具体的な作業は、その場その場で異なりますし、ネットに情報が繁茂しているので、ここでは心得的なものを示します。 1. 管理する状況を作ろう なんといっても、管理する必要に迫られる事が第1です。自分でWebで動くプログラムを作りたい、という積極的な目的があれば最高。会社や大学でサーバ管理してくれと言われた、という場合なら良い機会です。語学やプログラミング言語同様に、機会に恵まれた方が、サーバ管理は身につきます。 2. 管理対象を明確にしよう サーバと言っても色々な種類があります。Webサーバ、ファイルサーバ、メールサーバ、計算用クラスタなどなど。管理する対象がどれであるか明確にしましょう。一つの管理していくと、実は互いに密接に繋がっている事が分かると思いますが、はじめは何を管理するか目標があった方が分かりやす

    サーバ管理を理解するための10の心得 - Loud Minority
    sh19910711
    sh19910711 2023/02/23
    2009 / "管理する状況を作ろう: なんといっても管理する必要に迫られる事が第1 / 壊そう: どうしても復旧しない状況に置かれた時が最も色々調べる + サーバが壊れても命は取られません(たぶん)。臆せず壊しましょう"
  • AutoFM: 基盤モデルの学習・推論を自動化できるプラットフォーム

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog AutoFMという、基盤モデルの学習推論を自動化できるプラットフォームについて紹介します。 BERTの概略 近年、基盤モデル(Foundation Model)と呼ばれるモデルが注目を集めています。基盤モデルとは、テキストや画像などを含む大規模なデータから学習し、それを用いることによって質問応答や評判分析など、さまざまなタスクに利用できるモデルのことで、スタンフォードのグループが論文で提唱した言葉です。 基盤モデルには、言語処理のモデルである「BERT」や「GPT-3」、言語と画像のマルチモーダルモデルである「CLIP」などが含まれており、言語処理や画像処理の分野で大成功を収めています。今回はBERTにフォーカスして紹介します。

    AutoFM: 基盤モデルの学習・推論を自動化できるプラットフォーム
    sh19910711
    sh19910711 2023/02/21
    "基盤モデル: スタンフォードのグループが論文で提唱 / 機械学習を自動化する考えの「Auto」と、Foundation Model(基盤モデル)を略した「FM」をくっつけて、AutoFMという名前にしました"
  • Terraformのリファクタリング始めました - VisasQ Dev Blog

    こんにちは、プラットフォーム開発グループ SREチームの西川 (@taxin_tt) です。 皆さんTerraform使ってますか? 弊社では既存サービスのマイクロサービス化を進めており、GCPベースのインフラはTerraformを利用して整備するようにしています。 一方で、サービス数の増加などに比例してtfファイルのコード量も増えていき、ディレクトリ構成や個別のリソースの定義などマイクロサービスのインフラ整備において負担になる部分があり、昨年末からSREチーム主導でリファクタリングを行っています。 今回は、そのリファクタリングの背景や進め方についてお話しできればと思います。 (記事は、Terraform v1.3系を前提にしています。) リファクタリング後のTerraformのディレクトリ構成は下記をベースにしているので、下記の記事も合わせてどうぞ。 tech.visasq.com リ

    Terraformのリファクタリング始めました - VisasQ Dev Blog
    sh19910711
    sh19910711 2023/02/18
    "リソースの作成を変数と三項演算子の利用によって複雑に制御をしていて環境の複製が気軽にできない状況 / tfmigrate: plan を使ってmigrationのdry-runの結果を確認できるので、tfstateへの変更確認がしやすい"
  • チームに知見が残るEKSクラスタバージョンアップ運用

    LAPRAS株式会社でSREをしております yktakaha4 と申します 🐧 今回は、仕事のひとつとして1年くらい取り組んでいたEKSクラスタのバージョンアップの運用改善について一息つけたので、振り返りを兼ねて備忘録を遺したいと思います ✍ 先にお断りしておくと、この記事で話すのは 運用ノウハウが{ほぼ無い,失われてしまった}EKSクラスタに対して、手順改善やリファクタリングを通じて継続的なバージョンアップ運用を再開する方法 というあまり胸を張れない内容です ネットの記事やカンファレンスを見ていると、大規模環境や高トラフィック下における取り組みや、初期構築の段階で充分な運用設計を済ませている素晴らしい事例などが目に留まります 一方で、過去に選定したk8sを破棄して元の技術スタックに戻す意思決定をしたプロジェクトについて見かけることもあります 各社においても様々なコンテキストがあるものと

    チームに知見が残るEKSクラスタバージョンアップ運用
    sh19910711
    sh19910711 2023/02/16
    "Kubeconform によるマニフェストのバリデーション + Pluto による互換性チェック / k8sバージョンを指定できるものについては、現在と次バージョンでの実行をおこなうようにして、DeprecatedやRemovedになるものを早期に発見"
  • CloudWatch Alarm と Slack の連携は SNS + Lambda ではなく SNS + AWS Chatbot が簡単で管理も楽 - 技術とかボドゲとかそんな話をしたい

    CloudWatch AlarmはCloudWatchのメトリクスを監視し、それが事前に決めた条件を満たすと通知してくれる便利なサービスです。 例えば、CPU利用率が80%を超えたら通知するといったことができます。 CloudWatch Alarmでの通知にはSNS(Simple Notification Service)のトピックを指定することができ、そのトピックと連携することが様々な通知を実現できます。 通知の方法としてよくあるのはSlackへの通知です。 CloudWatch Alarmによる監視の結果をSlackへ通知するようにすることで、異常にすぐに気が付きます。 そんなSlackとの連携ですが、調べるとよく出てくるのが、サブスクライバーとしてLambdaを使い、LambdaからSlackにIncoming Webhookを用いて情報を送るというものです。 Lambdaの関数を作

    CloudWatch Alarm と Slack の連携は SNS + Lambda ではなく SNS + AWS Chatbot が簡単で管理も楽 - 技術とかボドゲとかそんな話をしたい
    sh19910711
    sh19910711 2023/02/16
    2020 / "Lambda自体の管理が必要になってくるので、少し煩わしい / Chatbotを使う場合は、コードを一切書く必要がなく、メンテナンスも基本的に不要なので、管理もとても楽"
  • BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog

    こんにちは、DMP(Data Management Platform)グループの平井です。毎日デコポンをべています。美味しい。 タイトルの通り、BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントがあったので共有します。 今回のケース Remote Functionsとは ハマりポイント再現 Cloud Functions 2nd genとは Cloud Functions 2nd genをデプロイ BigQuery Connections作成 Remote Funcitonを作成 権限付与 まとめ 今回のケース まずどのような場面でRemote Functionsを使用したのか説明します。 レアジョブグループには新旧2つのデータ基盤があります。 順次移行作業を進めており、その中でRを利用した集計処理を新しいデ

    BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog
    sh19910711
    sh19910711 2023/02/14
    むずい / "ここで先ほどCloud Functions 2nd genを説明したときの一文 / 「Cloud Functionsとしてデプロイされるのですが裏側がCloud Runになっているのが特徴」 / もしやと思い、Cloud Function Invoker roleの代わりにCloud Run Invoker roleを付与"
  • gRPCのベストプラクティス - 🐾 Nekonote

    https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEji0lBfkpff_HooaGceEKGqts0U70VR-Xp88TC5BLHfWrmKmQSnDwuw5WhFnwUvMKpcplesAtBTPLagZUqKckHP_fH1dPiKccq9hTsoCyWeiEguQfKuMJbWRPWLrFeT2Vl2D666KDmuW_XKGDjnBztSlX6VcUIQCF-i6AQPoAsl1m9wrSVv5Rx1Klz6Uw/s400/eto_usagi_head.png

    gRPCのベストプラクティス - 🐾 Nekonote
    sh19910711
    sh19910711 2023/02/14
    "Google Cloud のドキュメントに gRPC を使った APIの設計ガイドが存在する / gRPC のメソッド やリソース、サービスの単位など設計に関係する指標が具体的に言及 / ほとんどの命名や構造に関する悩みはこれで解決される"