並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 348 件 / 348件

新着順 人気順

OOMの検索結果321 - 348 件 / 348件

  • 【Redis】Redisを使う時に見積の二倍の容量が必要なのは何故か - 地方エンジニアの学習日記

    この記事は GMOペパボエンジニア Advent Calendar 2021 - Adventar の20日目の記事です。 概要 qiita.com 上記の記事でRedisを使う時に見積の二倍の容量が必要ということが述べられています。これについて細かく「なぜ?」を追求して深掘りしてみようと思って書いた記事です。結論としては記事でも述べられている下記になります。 redisのバックアップが走る際、おそらく現状使用している量と同じだけのallocateを要求しているために、redis自体はメモリ使用が50%強だとしても、バックアッププロセスが落ちてしまう模様。 Redisにはデータ永続化の機能が二つあって特定の時点のスナップショットを取るRDBとデータベースのWAL/REDOログのような機能のAOFというものがあります。今回はRDBの方を追っていきますがAOFのタイプでも起こりうる話となってい

      【Redis】Redisを使う時に見積の二倍の容量が必要なのは何故か - 地方エンジニアの学習日記
    • Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部

      こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary

        Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部
      • Deep PostgreSQL Thoughts: Resistance to... | Crunchy Data Blog

        Recently I ran across grand sweeping statements that suggest containers are not ready for prime time as a vehicle for deploying your databases. The definition of "futile" is something like "serving no useful purpose; completely ineffective". See why I say this below, but in short, you probably are already, for all intents and purposes, running your database in a "container". Therefore, your resist

          Deep PostgreSQL Thoughts: Resistance to... | Crunchy Data Blog
        • Tracking a Ruby memory leak in 2021

          We are going to find how you can track a memory leak using the most recent and performant tools. This article’s goal is to give an up-to-date and as-simple-as-it-can-be reference on the main steps towards tracking a memory leak. If you want to get the most out of it, I’ve added (IMHO) very useful links all along with the article. If you still want to enjoy the read and do not have a leak, you can

            Tracking a Ruby memory leak in 2021
          • Understanding Kubernetes Limits and Requests

            When working with containers in Kubernetes, it’s important to know what are the resources involved and how they are needed. Some processes will require more CPU or memory than others. Some are critical and should never be starved. Knowing that, we should configure our containers and Pods properly in order to get the best of both. In this article, we will see: Introduction to Kubernetes Limits and

              Understanding Kubernetes Limits and Requests
            • 【Terraform + ECS + RDS】Terraform で ECS環境構築してみた

              Terraform とは最近流行りの IaC です。 つまり、コードベースでインフラリソースを管理するためのツールです。 中でもTerraform はクラウドに特化した IaC ツールという立ち位置です。 AWSやGCP, Azure などの他に様々なクラウドプラットフォーム に対応しています。 (ちなみに、Vagrant 開発元の HashiCorp 社が開発しています) 今回やることTerraform で AWS 上に下記のような環境を自動構築します。 ECS でデプロイされるサービスは ECR から引っ張ってくるようにします。 そして、そのサービスは Aurora を使うシステムを想定しています。 【⚠注意⚠】上記構成はお金が発生します! まったくもって無料枠ではありません! 【⚠注意⚠】今回独自ドメインを使用していますが、ドメイン取得に関しては省略しています。 今回やる内容は…僕が

              • パインアメが段々小さくなっていく広告が話題に→一個ずつ舐めた?CG?と思いきや制作者さんの手間がかかった職人技だった

                シューユリ @mek_oom 1年半前に作ったやつがバズってる…😭嬉 舐めようかと思ったけど量が多すぎて断念して、お湯で溶かして、一個一個並べて写真撮ってつくりました🍍 twitter.com/kotobatoad/sta… pic.twitter.com/YgUSG8Ftus 2023-08-11 21:28:29

                  パインアメが段々小さくなっていく広告が話題に→一個ずつ舐めた?CG?と思いきや制作者さんの手間がかかった職人技だった
                • Incredibly Fast BLOOM Inference with DeepSpeed and Accelerate

                  To reproduce the benchmark results simply add --benchmark to any of these 3 scripts discussed below. Solutions First checkout the demo repository: git clone https://github.com/huggingface/transformers-bloom-inference cd transformers-bloom-inference In this article we are going to use 3 scripts located under bloom-inference-scripts/. The framework-specific solutions are presented in an alphabetical

                    Incredibly Fast BLOOM Inference with DeepSpeed and Accelerate
                  • OM SYSTEM OM-1がやってきた、初日から雨の中使ってのファーストインプレッションなど - I AM A DOG

                    2022年3月19日、OMデジタルソリューションズよりOM SYSTEMブランドでは初となるフラッグシップカメラ「OM-1」が発売となりました。 私もこのOM-1の発表直後に予約をし、発売日の午前中に無事届きました。早速使ってみたので、感想が新鮮なうちにファーストインプレッションを残しておきたいと思います。 OM SYSTEM OM-1 付属のバッテリーが完全に空 SBCX-1(BCX-1 + BLX-1) 雨の中、被写体認識と高感度を試す AI被写体認識AF「鳥」が凄い 高感度耐性 グリップの良さとダイヤル周りの違和感 EVFの見え方 メニュー画面が一新 新バッテリーBLX-1の電池持ち ゴムラバー箇所が増えてしまった…… こんな記事もあります OM SYSTEM OM-1 3月19日の午前中に我が家に届いたOM-1。オリンパスからOMDSへと分社化され、OM SYSTEMにリブランディ

                      OM SYSTEM OM-1がやってきた、初日から雨の中使ってのファーストインプレッションなど - I AM A DOG
                    • CAMPFIREとDatadogとオブザーバビリティの1年|CAMPFIRE 開発チーム

                      この記事は Datadog Advent Calendar 2021 15日目の記事です。 こんにちは。SREチームのオブザーバビリティチョットデキル加我です。 なんとこちらで記事を書くのは1年ぶりでした。 去年の10月にDatadogの導入に取り組んでから1年が経過しました。 今に至るまで起きた出来事をざっくりまとめておきたいなと思ったので、定例の資料を基に当時を振り返りつつ書き残しておきます。 過去の記事の繰り返しになる部分もあるので、適度に読み飛ばして頂けると幸いです。 2020年10月インフラだけじゃなくアプリケーションのモニタリングもやっていこうぜ!という目的からDatadogの検証がスタートした時期でした。 数あるDatadogの機能からどの機能をどうやって活用するのか、コストはどれくらいなのか、どうやってチーム内外に普及させていくかを重点的に考えていました。 この時期の主なタ

                        CAMPFIREとDatadogとオブザーバビリティの1年|CAMPFIRE 開発チーム
                      • k6 on k8sによる負荷テストでボトルネックを発見・改善!

                        はじめに 株式会社ispecのSREの丸山です。本記事では、サービスのリリースに向けて負荷テストを実施して,得た知見について紹介します。 ispecは、スタートアップのゼロイチ開発に特化した受託事業を行なっています。支援させていただいているサービスの中には、リリース初期から広告やキャンペーン等で多くのアクセスが見込まれる場合があります。その際、せっかくのユーザー獲得のチャンスを逃してしまう可能性があり、ビジネス的にクリティカルな問題となりかねません。負荷テストをリリース前に実施することで、QAでは見抜けないボトルネックを発見することができます。 また、受託事業という業態のため、クライアント様にシステムを完全にお渡しすることになったことも考慮し、将来のアクセス増加も考えた場合に現行のシステムが どれくらいの負荷に耐えられる構成なのか アクセスの増加した場合にインフラコストがどのように増加する

                          k6 on k8sによる負荷テストでボトルネックを発見・改善!
                        • Advanced tuning: finding and fixing slow Elasticsearch queries

                          Elasticsearch is a very flexible and feature-rich application that provides many different ways to query your data. But have you ever experienced query speeds that were less than you hoped for? With a distributed system like Elasticsearch, there can be various possible factors contributing to query performance, including external factors such as load-balancer settings, network latency (bandwidth,

                            Advanced tuning: finding and fixing slow Elasticsearch queries
                          • Kubernetes: kubectl 上の Pod のステータス表記について - Qiita

                            kubectl で Pod を表示した場合、Running や Terminating などのステータスが表示されます。しかし、このステータスは Pod オブジェクトの単一フィールドを表示しているわけではなく、いくつかのフィールドと条件によって表示が分けられています。 この記事ではよく見る Pod のステータス表記について整理してみます。 kubectl のステータスの出し分け ご存じの通りkubectl で Pod を表示したとき、下記のように STATUS カラムで Pod のステータスを見ることができます。 $ kubectl get pods -w NAME READY STATUS RESTARTS AGE myapp 0/1 Pending 0 0s myapp 0/1 ContainerCreating 0 0s myapp 1/1 Running 0 1s myapp 1/

                              Kubernetes: kubectl 上の Pod のステータス表記について - Qiita
                            • Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita

                              Sparkで機械学習をするとき、前処理もSparkでやりますよね。 前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。 無邪気に変数を定義するデータサイエンティストにイラっとします。 さて、ある程度の大きさのデータを処理すると、 タイムアウトとかOOMとか、処理が遅かったりしますね。 そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。 使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser

                                Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita
                              • OOM Killer発動時にサーバーを再起動する方法

                                VPSで管理してるWEBサイトの死活監視のアラートメールが届き、ブラウザでチェックしたらサイトが見れない。SSHでログをチェックしたら「httpd invoked oom-killer:」の文字が…。 OOM KillerさんにApache(httpd)のプロセスが強制終了させられたらしい。 Jan 12 11:37:53 ns1 kernel: httpd invoked oom-killer: gfp_mask=0x200da, order=0, oom_score_adj=0 Jan 12 11:37:53 ns1 kernel: httpd cpuset=/ mems_allowed=0 Jan 12 11:37:53 ns1 kernel: CPU: 0 PID: 18178 Comm: httpd Not tainted 3.10.0-957.1.3.el7.x86_64 #1

                                  OOM Killer発動時にサーバーを再起動する方法
                                • ISUCON 10の予選に参加しました - Sexually Knowing

                                  id:masawadaとid:side_tanaと一緒にはやいTシャツ屋さんで参加しました。初期スコアが最高スコアでした。察してください。 チームでやった主なこと: New Relicの導入 Web Transactions SQL Logs デプロイ自動化 デプロイするたびにNew Relicのdeploymentsを打つ *1 MySQL 8化n estateのlongitude/latitudeをgeometry型にする ☆searchEstates/searchChairsをやっつける もろもろインデックス貼る アプリ複数台構成へ コミュニケーション Slackで事務連絡、Scrapboxにメモ、Hangoutで会話という体制にした。Hangoutは繋ぎっぱ。 Scrapboxに予選ページを作ってそこで30分ごとのイテレーションで進捗確認と次のタスクを確認した。 1時間だとおよそ8

                                    ISUCON 10の予選に参加しました - Sexually Knowing
                                  • TIPS: 特定のプロセスをOOM Killerの対象から外す

                                    LinuxカーネルにはOOM(Out Of Memory) Killerという仕組みがあり、 メモリ(RAM)が枯渇しシステムが動作不能となる恐れがある場合、 メモリリソースを多く使用しているプロセスを強制的に停止させ、メモリを確保します。 運用上重要なプロセスである場合や負荷試験時など、 OOM Killerの対象として欲しくないプロセスがある場合には、 設定を行うことで、OOM Killerの対象から外すことができます。 設定方法は以下の通りです。 なお、"oom_score_adj"はOOM Killerが停止させるプロセスを選択する際の評価値(スコア)の補正値です。 "oom_score_adj"の値の範囲は-1000~1000で、低いほど停止されにくくなります(-1000でOOM Killerの対象から外れます)。 ※ Linuxカーネルバージョンが2.6.26の場合、設定するフ

                                      TIPS: 特定のプロセスをOOM Killerの対象から外す
                                    • gRPCで一時的なネットワーク断でのtransportエラーを回避する - Carpe Diem

                                      背景 gRPCを利用していると、デプロイを含む一時的なネットワーク断で以下のようなエラーが発生することがあります。 rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing: dial tcp xxx: connect: connection refused" rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing: dial tcp: lookup xxx: i/o timeout" これはgRPCがfail fastの思想になっており、ChannelがTRANSIENT_FAILUREの状態だとRPCを即座に失敗させるようにして

                                        gRPCで一時的なネットワーク断でのtransportエラーを回避する - Carpe Diem
                                      • 大容量データの音声認識(CNN)をCPU上でやった作業ログ【機械学習・ディープラーニング】 - アプリとサービスのすすめ

                                        今回は音声認識のデータセット「ESC-50」をCNNで分類した。 特にこだわったのが、GPUでも普通にやったらOOMエラーが出るくらいの大容量のデータセットを、kerasのfit_generatorメソッドを使ってCPU上でもできるようにしたこと。 あとは音声認識は触れたことなかったので、前処理から学習するまでの作業ログ。 目次 1.音声データセット(ESC-50) 2.音声データの水増し(Augmentation) 3.水増した音声データの保存と読み込み 4.データ前処理とCPU上で学習(CNN) 1.音声データセット(ESC-50) 今回は音声データセット「ESC-50」を使う。 ESC-50の音声は環境音・自然音からなる声を含まない音。 動物の鳴き声、雨の音、人間の咳、時計のアラーム、エンジン音など50クラス。それをCNNで分類してみる。 ファイル形式は拡張子が.wavの音声。サイト

                                          大容量データの音声認識(CNN)をCPU上でやった作業ログ【機械学習・ディープラーニング】 - アプリとサービスのすすめ
                                        • 機械学習用のLinuxインスタンスの環境構築(GCEやEC2などクラウド) – marketechlabo

                                          最近では機械学習の計算のためにLinuxマシンを構築しては消し、を繰り返すことが多い。サーバの構築と消去が柔軟に可能なことからもEC2やGCEなどクラウドのインスタンスをよく使うということも影響している。 この記事では一般的なサーバ構築の記事では紹介されていない、クラウドのインスタンスで意外と盲点になる点を中心に、機械学習の計算用サーバとして安定した運用をするために最低限必要な設定をまとめた。 Linuxで最初にやっておくべき設定 Amazon EC2やGoogle Compute Engingなどのクラウドインスタンスのデフォルトの設定では不都合があるため、設定を追加する必要がある。 スワップメモリの設定 クラウドのインスタンスではデフォルトでスワップメモリが設定されていないため、念のため設定しておく必要がある。以下は/swap.imgとして4GBのスワップファイルを設置する例。 sud

                                          • Amazon OpenSearch Service でノードのクラッシュをトラブルシューティングする

                                            Amazon OpenSearch Service クラスターのノードの 1 つがダウンしているので、これを防ぎたいと思っています。 簡単な説明 各 OpenSearch Service ノードは、別々の Amazon Elastic Compute Cloud (Amazon EC2) インスタンス上で実行されます。障害が発生したノードとは、他のノードからのハートビート信号に応答していないインスタンスのことです。ハートビート信号とは、クラスター内のデータノードの可用性をモニタリングする定期的な信号のことです。 クラスターノード障害の一般的な原因は次のようなものがあります。 Java 仮想マシン (JVM、Java Virtual Machine) の高いメモリ負荷 ハードウェア障害 解決方法 障害が発生したノードを確認する 1.    OpenSearch Service コンソールにサ

                                              Amazon OpenSearch Service でノードのクラッシュをトラブルシューティングする
                                            • Taming Tracepoints in the Linux Kernel

                                              Have you always wanted to learn how to implement tracepoints in the Linux Kernel? Then this blog is for you. Oracle Linux kernel engineer Alan Maguire explains how to implement a tracepoint in the Linux kernel. Here we are going to describe what tracepoints are, how they are defined and finally demonstrate the various ways they can be used. By fleshing out all of the steps, I'm hoping others may f

                                                Taming Tracepoints in the Linux Kernel
                                              • 【暇空支持者】暇アノンクリエイター ヲチスレ

                                                0001名無しさん@お腹いっぱい。 (ワッチョイ 0716-g8/S)垢版2023/03/12(日) 04:40:42.44ID:NTjKKjh70 !extend:checked:vvvvv:1000:512 !extend:checked:vvvvv:1000:512 暇空茜をフォロー・リプライ・RT・いいねをしているなど、暇空茜を支持(信奉)しているイラストレーター、漫画家、小説家、音楽家、アニメ関係者などのクリエイターをヲチするスレです 次スレは>>950踏んだ人が立ててください ※次スレを立てる際には本文の1行目に !extend:checked:vvvvv:1000:512 と入れて下さい ※スレ乱立・スレ違い・埋め立て荒らしが見られるためNG推奨 ・ワンミングク ・オッペケ ・ワントンキン ・アークセー 本スレ 【資産6億】暇な空白/暇空茜★130【暇アノン】 https

                                                • How to Run Stable Diffusion Locally to Generate Images

                                                  If you receive an ImportError, you may have to run sudo apt-get install libsm6 libxrender1 libfontconfig1 If execution suddenly stops and killed is printed to the terminal, you are likely running into an out-of-memory error. Run cat /var/log/kern.log to see useful logs. If you run into a RuntimeError: CUDA out of memory error, try cutting down the size of the image (and make sure you are only samp

                                                    How to Run Stable Diffusion Locally to Generate Images
                                                  • Rust no-stdのasync完全理解を目指そう! - 低レイヤ強くなりたい組込み屋さんのブログ

                                                    はじめに この記事はRust Advent Calendar 2019の17日目として書きました。 組込みRust界の神japaricさんがno-std環境でasyncを使うPoCレポジトリを公開しています。 github.com 理解できるかどうか非常に自信がありませんが、これは見てみるしかありません! 後日正式な記事が書かれるそうなので、それを待ったほうが得策かもしれません! 引用の領域超えている気がしますので、一応ライセンス表記します。 今回解説するレポジトリは、MIT license、もしくは、Apache License, Version 2.0、でライセンスされています。 目次 自分なりのまとめ README 実装を覗いてみよう 自分なりのまとめ 組込みのno-std環境で使えるasync-awaitのproof of conceptを紹介するよ (nightlyは必要だけどね

                                                      Rust no-stdのasync完全理解を目指そう! - 低レイヤ強くなりたい組込み屋さんのブログ
                                                    • GitLab-CI shared runner を用意してみんなに使ってもらおう! - Qiita

                                                      概要 社内で Git サーバを立てることになり、金銭面の都合やセキュリティ上の要求から、セルフホストする GitLab サーバを立てることがあると思います。 その場合、GitLab の利用者となる、社内の開発者は、GitLab に関係するサーバをどう管理するかいうことは考えずに開発に集中したいと考えます。 そうすると、自ずと、サーバ管理者がGitLab サーバに関係するインフラ面の管理を行い、開発者はサービスを利用するだけにするといった役割分担をしたくなります。 GitLab には GitLab-CI という機能があります。 これは GitHub Actions や CircleCI、CodeBuild などと同様に、リポジトリ内に yaml ファイルを定義しておくことで CICD を管理できる機能です。 この機能を利用すると、今までは Jenkins などで CI を回していたのを Gi

                                                        GitLab-CI shared runner を用意してみんなに使ってもらおう! - Qiita
                                                      • はじめての自然言語処理 MixCSE による教師なし文章ベクトル生成 | オブジェクトの広場

                                                        今回は教師なしの文章ベクトル化手法である MixCSE の検証です。教師なし学習ですから教師ありの手法よりは精度的に不利でしょうが、局面によっては役に立つケースもあるのでは?と試してみることに。公開されているコードは transformers ベースなのですが、今回は Colab の TPU で動かしてみたので、その方法も紹介しますね。 1. はじめに 今回は教師なしの文章ベクトル化手法である MixCSE1 の検証をしてみました。 本連載では文章ベクトル化のモデルとして、 Sentence BERT を取り上げたこと(第9回, 第18回)がありますが、品質の良いベクトルを生成する為には大量かつ良質の教師データが必要でした。 法律や特許のような特定領域に特化した文章を扱う局面では、対象領域の文書で学習したモデルを使いたいところですが、特定領域限定の都合良いデータはなかなか手に入りません。そ

                                                          はじめての自然言語処理 MixCSE による教師なし文章ベクトル生成 | オブジェクトの広場
                                                        • 最新RDB「Tsurugi」を試してみよう、まずは「Hello, World」から

                                                          オープンソースの高速な国産リレーショナルデータベース「Tsurugi」が登場した。Tsurugiの特徴やアーキテクチャ、導入方法などを解説する。 ここではまず、前回インストールしたTsurugiを使い、業界の慣行に従って、“Hello, World”をしてみましょう。また、Tsurugiを触る上で最も簡易な方法として、Command Line Interface(以下、CLI)であるTsurugi SQLコンソールについて解説していきます。 Tsurugiの基礎知識 Tsurugiのもともとの出自から、原則論として踏まえておくべき環境があります。もともとの狙い・前提とは異なる環境では、Tsurugiに限らずどのようなミドルウェアでも性能を発揮することは困難です。 ●インメモリDB Tsurugiの前提はインメモリDBです。インメモリといってもloggingの永続化は必ず行いますので、メモリ

                                                            最新RDB「Tsurugi」を試してみよう、まずは「Hello, World」から