並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1458件

新着順 人気順

CUDAの検索結果201 - 240 件 / 1458件

  • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

    前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

      はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
    • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

      2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

        OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
      • OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive

        ちょっと出遅れたけど、サイバーエージェントが出したGPT-NeoXベースのLLM、OpenCALM-7BをGoogle Colab上でLoRA使ってFine tuningをしてみました。 とりあえず対話を試したい人masuidrive/open-calm-instruct-lora-20230525-r4-alpha16-batch32-epoch1 に1 epoch回したLoRAを置いておきます。 Google Colabで試したい人はV100やA100のハイメモリで動かしてください。OpenCALM-7Bのshardが10GB単位なため、12GBの標準メモリでは動きません。transformersのloaderがもう少し賢ければ、T4の標準メモリでも動くと思うんだけど・・・ なぜFine tuningをするのかOpenCALM-7Bは基礎モデルなので日本語やWikiPediaの内容など

          OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive
        • AIブーム裏で〝ボロ儲け〟する意外な会社(GAFAMではありません) | AppBank

          未曾有の〝AIブーム〟に10年前から備えていたNvidia 現在、世界で最も価値のある企業のトップ10に入るNvidiaは、30年経った今でも創業者のジェンスン・フアンCEOが指揮を執る、シリコンバレーの数少ない大企業のひとつです。売上高の80%以上を占める同社の主要事業は、GPUです。GPUは通常、PCのマザーボードに差し込むカードとして販売され、AMDやインテルといった企業のCPUに計算能力を加えるものとなっています。 Nvidiaは1997年に最初の高性能グラフィックチップを設計し、ゲームとハリウッドの視覚効果の高速レンダリングに革命を起こしました。製造ではなく設計ですが、これはフアンCEOがNvidiaをファブレス・チップ企業にすることに注力し、チップ製造にかかる膨大な費用をTSMCに委託することで資本支出を大幅に抑えたからです。 いくつかの失敗はあったものの、現在のNvidiaは

            AIブーム裏で〝ボロ儲け〟する意外な会社(GAFAMではありません) | AppBank
          • Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka

            「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。 今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 GPTQを利用するため、「auto-gptq 」もインストールしています。 # パッケージのインストール !pip install t

              Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka
            • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

              AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

                PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
              • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

                1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

                  GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
                • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                  はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                    Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                  • Mac生誕40周年。人々を徐々に変えていった稀有なマシンのこと(CloseBox) | テクノエッジ TechnoEdge

                    Macが40年になったからなんか語れというお題をIttousai編集長からもらったので、Macとの関わりについてちょっと考えてみました。1990年代にMac雑誌を2つ創刊した経験があるので、まあ資格としてはあるかな、と。 ジェネラルなお話や、開発した人々のストーリーは語られ尽くしているし、オリジナル開発チームによる秘話(Commandキーを追加したのはダグラス・エンゲルバートからパワーユーザーにとっても使いやすくするようにというアドバイスでキーボードショートカットを思いついたビル・アトキンソンのアイデアであるとか、1984のCMを取締役会で上映したときにその中の一人が怒りのあまりデスクを叩き続けていたりとか、面白すぎエピソード満載)はComputer History Museumの40周年記念イベント動画を見てもらえばいいと思うので、今回はMacintoshとの関わりについて個人的な話をし

                      Mac生誕40周年。人々を徐々に変えていった稀有なマシンのこと(CloseBox) | テクノエッジ TechnoEdge
                    • 詳説 Deep Learning

                      エンタープライズ向けのディープラーニングの解説書。企業でディープラーニングアプリケーションを開発、運用するための実践的な手法を紹介します。対象読者はソフトウェア開発の現場で活躍する実務者。前半はディープラーニング初心者、後半はJavaエンジニア向けの構成です。機械学習、ニューラルネットワークの基礎から始め、ディープラーニングの基本的な概念、実際にチューニングを行う際のベストプラクティス、データのETL(抽出・変換・ロード)の方法、Apache Sparkを用いた並列化について、JavaライブラリDeep Learning4J(DL4J)の開発者でもある著者がわかりやすく丁寧に解説します。 日本のAIコミュニティの方々へ 監訳者まえがき まえがき 1章 機械学習の概要 1.1 学習する機械 1.1.1 機械が学習するには 1.1.2 生物学というヒント 1.1.3 ディープラーニングとは 1

                        詳説 Deep Learning
                      • 日本語CLIP 学習済みモデルと評価用データセットの公開

                        はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す

                          日本語CLIP 学習済みモデルと評価用データセットの公開
                        • Dain-App 1.0 [Nvidia Only] by GRisk

                          This application only work with NVIDIA graphic cards,  AMD graphics card DOES NOT work in this application. Also the NVIDIA Hardware need to support CUDA 5.0 or bigger to work. Rife-App is the interpolator I'm working right now. It support AMD and CPU, it also lighter on the CPU memory. Here the link if you want to check it out. Read this: This application is complete free, you can download the sa

                            Dain-App 1.0 [Nvidia Only] by GRisk
                          • GitHub - ggerganov/llama.cpp: LLM inference in C/C++

                            The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud. Plain C/C++ implementation without any dependencies Apple silicon is a first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks AVX, AVX2 and AVX512 support for x86 architectures 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit,

                              GitHub - ggerganov/llama.cpp: LLM inference in C/C++
                            • テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた

                              チャットAIのChatGPTや音声認識AIのWhisperを開発するOpenAIが2023年5月に3Dモデル作成AI「Shap-E」を発表しました。Shap-Eはオープンソースで開発されており、誰でも利用可能とのことなので実際にGoogle Colaboratory上で使ってみました。 shap-e/sample_text_to_3d.ipynb at main · openai/shap-e · GitHub https://github.com/openai/shap-e/blob/main/shap_e/examples/sample_text_to_3d.ipynb Shap-Eでどんなことができるのかについては下記の記事が詳しいです。 テキストや画像から3Dモデルを生成するオープンソースのAI「Shap-E」をOpenAIが発表 - GIGAZINE まずはGoogleドライブに

                                テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた
                              • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                  既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                • NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表

                                  NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表 ライター:米田 聡 2022年7月13日から14日まで,東京都内で行われる量子コンピュータ関連イベント「Q2B22 Tokyo」に合わせて,NVIDIAは,量子コンピュータ向けのプログラミングプラットフォーム「Quantum Optimized Device Architecture」(QODA,クォーダ)を発表した。QODAとは,NVIDIAが2013年から手がけてきたGPUコンピューティングプラットフォーム「CUDA」の量子コンピュータ版と理解していい。 NVIDIAは,2021年から量子コンピューティングに関する発表を行っており,今回のQODA発表は,その総仕上げ的な位置づけになるものだ。ゲーマーには直接関係のない話題ではあるが,NVIDIAが量子コンピューティングに取り組んでいる理由を含めて,簡単

                                    NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表
                                  • 職場の先輩をLLMで作ってみようとした話 - Qiita

                                    はじめに 皆さんはLLMで何かを作りたいという経験はありますか。 世の中にはアニメキャラクターの作成を指向したチャットハルヒや霧雨魔理沙を言語モデルで作成&ラインbot化した話など様々な実例があります。 今回私は勉強会でお話しするという温度感で、先輩をLLMで作ってみようとした話について述べます。参考になれば幸いです! def convert_symbols_to_fullwidth(text): half_symbols = '!?~' full_symbols = '!?〜' half_to_full = {half: full for half, full in zip(half_symbols, full_symbols)} return ''.join(half_to_full.get(char, char) for char in text) def convert_fullw

                                      職場の先輩をLLMで作ってみようとした話 - Qiita
                                    • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                      本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                        音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                      • 【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する

                                        はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推

                                          【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する
                                        • NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita

                                          import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re

                                            NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
                                          • 仮眠プログラマーのつぶやき : UnityでGPGPU応用編 バイトニックソートを高速化

                                            2020年07月13日12:44 カテゴリUnityGPGPU UnityでGPGPU応用編 バイトニックソートを高速化 バイトニックソート(Bitonic Sort)の概要バイトニックソート(Bitonic Sort)は主にGPU等の並列計算器でソートを実装しようとするときに使われるソートである。 計算量のオーダーはO(n log^2 n)であり、クイックソートのO(n log n)には負けるものの並列化による高速化が勝るという感じなのでいろんなところに使われている。 対象読者キーワード「GPU」「バイトニックソート」で検索してこの記事にたどり着いただろう方が対象。 この記事では ・バイトニックソートでなぜソートできるか ・どうやったら高速化できるか という点について重点的に書いている。 高速化については OpenCLでバイトニックソートを実装している海外サイト をパクリ参考にした。 こ

                                            • CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみた - Qiita

                                              CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみたCUDAGPGPUGPU機械学習OpenACC この記事は何? CUDA123 に代わる新しい GPU の 標準API 、OpenACC が最近 CUDA よりも高速化できたという結果4を出していて調子が良いので、現状のヘテロジニアス環境でのマルチデバイス実行(複数のデバイス:CPU、GPU、FPGA、メニーコアCPU、ASIC などを組み合わせた演算)の対応状況を調査してみました。 そもそもOpenACCとは? NVIDIAが中心となって本腰を入れているGPGPUなどのハードウェアアクセラレーションの標準APIです。その特徴として最も特筆すべき点はCUDAと比較してプログラミングが超簡単なことです。以前なら性能差がよりシビアでしたが、現在

                                                CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみた - Qiita
                                              • 物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG

                                                R&D チームの奥村(@izariuo440)です。EfficientDet がブラウザで動いているのを見たことがなかったので、やってみました。以下はブラウザで実行中の様子1です。 結果として、EfficientDet-D0 で 256x256 の解像度の画像を TensorFlow Lite で推論させると、ネイティブで 20 FPS、WebAssembly SIMD support ありの Chrome で 7 FPS 程度の速度性能を確認できました。 Case XNNPACK XNNPACK スレッド数 FPS A OFF N/A 4 B ON 1 15 C ON 4 20 測定環境は MacBook Pro (Retina, 15-inch, Mid 2015) の 2.5 GHz です。 背景と動機 周辺知識 EfficentDet EfficientDet の精度 Effici

                                                  物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG
                                                • AIソフト開発向け言語Mojo発表 ―Pythonの使いやすさとC言語のパフォーマンスの組み合わせ | gihyo.jp

                                                  2023年5月2日、Modular Inc.はAIソフトウェア開発向けに最適化されたプログラミング言語「Mojo」を開発中であることを発表した。 Mojo 🔥 — a new programming language for all AI developers. Two incredible new breakthroughs - the world’s fastest unified inference engine, and Mojo 🔥 a new programming language for all of AI. Visit https://t.co/3gVmUX5C4a now to sign up! Watch everything we just announced in 121 seconds!🚀 https://t.co/BC56xumEdl — Modular

                                                    AIソフト開発向け言語Mojo発表 ―Pythonの使いやすさとC言語のパフォーマンスの組み合わせ | gihyo.jp
                                                  • 中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに

                                                    中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま

                                                      中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
                                                    • "RWKV_CUDA_ON"を1に設定してRWKVを高速化する - Qiita

                                                      ローカル環境でも高速で動作するLLMとして話題のRWKVですが、ドキュメントを見ていると環境変数の"RWKV_CUDA_ON"を1に設定することでより高速で動くということなので試してみました。 設定を変更するときに1箇所エラーで躓いたところがあったのでそちらも記録しておきます。 RWKVとは RWKVとはTransformerレベルの性能を持つRNNです。他のLLMと同様に高性能でありつつ推論が高速でVRAMを節約しているのが特徴です。 RWKVをチャットで使えるようにしたものとしてChatRWKVがあります。 また、RWKVをAlpacaデータセットなどを使用してファインチューニングしたものとしてRavenがあります。 ChatRWKVの使い方は次の記事で分かりやすく解説されています。 またRWKVのファインチューニングの方法については以下の記事で解説されています。 RWKV_CUDA_

                                                        "RWKV_CUDA_ON"を1に設定してRWKVを高速化する - Qiita
                                                      • Kaggle用のGCP環境を手軽に構築 - Qiita

                                                        GCPでkaggle用の環境を作るのに苦労した こんにちは、Qiita初投稿のhiromuです。 最近、KaggleのJigsaw Unintended Bias in Toxicityc Classificationに参加し、3位入賞を果たすことができました。 その際に、必要に駆られてGCPを使ったのですが、意外とつまずくポイントが多かったです。 なので、自分へのメモ用もかねてこの記事を書いています。 Compute Engineのデプロイまで @lain21さんの記事の「GCEインスタンスの作成」がとても丁寧でわかりやすいです。 ただ、コメント欄で紹介されているように、事前にGPUの割り当てを行なっておく必要があります。 やり方は以下の通りです。 1.コンソールのIAMと管理->割り当てをクリック 2.指標のチェックボックスでGPUs(all regions)にチェックをつける 3.横

                                                          Kaggle用のGCP環境を手軽に構築 - Qiita
                                                        • KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG

                                                          はじめに こんにちは。SRE部フロントSREブロックの三品です。 3月19日から3月22日にかけてKubeCon + CloudNativeCon Europe 2024(以下、KubeCon EUと呼びます)が行われました。今回弊社からはZOZOTOWNのマイクロサービスや基盤に関わるエンジニア、推薦システムに関わるエンジニアの合わせて4人で参加しました。 本記事では現地の様子や弊社エンジニアが気になったセッションや現地の様子について紹介していきます。 目次 KubeConEU2024の概要 セッションの紹介 現地の様子 ブースについて 参加に向けてのTips 最後に KubeCon EU 2024の概要 昨年4月にオランダ アムステルダムで行われたKubeCon EUの様子については昨年の参加レポートをご覧ください。 techblog.zozo.com 今年のKubeCon EUはフラ

                                                            KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG
                                                          • Algorithms for Modern Hardware - Algorithmica

                                                            This is an upcoming high performance computing book titled “Algorithms for Modern Hardware” by Sergey Slotin. Its intended audience is everyone from performance engineers and practical algorithm researchers to undergraduate computer science students who have just finished an advanced algorithms course and want to learn more practical ways to speed up a program than by going from $O(n \log n)$ to $

                                                            • SDXLでコピー機学習法を試す|Kohya S.

                                                              はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し(コピー機と呼ばれる理由です)、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。 今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。 学習にはsd-scriptsを利用しています。 教師データとりにく氏の画像を利用させていただきます。 SDXLにおけるコピー機学習法考察(その1) ①まず生成AIから1枚の画像を出力(base_eyes)。手動で目をつぶった画像(closed_eyes)に加工(画像1枚目と2枚目) ②画像3枚目のレシピでまずbase_eyesを学習、CounterfeitXL-V1.0とマージする ③②のモデルをベースに4枚目でclosed_eyesを学習 pic.twitt

                                                                SDXLでコピー機学習法を試す|Kohya S.
                                                              • BERT系モデルで文章をEmbeddingする際のTips - Qiita

                                                                概要 BERT系のモデルを活用した文章のEmbedding取得について、検証を含めていくつかTipsを紹介します。 Paddingの最適化 tokenの平均化 Embeddingを取得するLayer 上記Tipsを複合した文章Embedding取得classの実装 はじめに 近年は、ChatGPTを始めとしたLLM活用が話題となっています(言語処理と言えば初手LLM(GPT系)の雰囲気も一部感じております)。対話型ChatBotにおいてはGPT系の生成AIが一線を画していますが、文章のEmbedding取得では旧来のBERT系のモデルが優れている例も報告されています。 SGPT: GPT Sentence Embeddings for Semantic Search ChatGPT vs BERT:どちらが日本語をより理解できるのか? 今回、社内で簡単な情報検索システムを構築する機会があり

                                                                  BERT系モデルで文章をEmbeddingする際のTips - Qiita
                                                                • 分散学習にはHorovodを使う 文献から学ぶクラウド機械学習のベストプラクティス

                                                                  Machine Learning Casual Talksは、機械学習を用いたシステムを実運用している話を中心に、実践的な機械学習に関して気軽に話す会です。実際に運用していく上での工夫や、知見を共有します。今回は、ABEJAの服部圭悟氏が、文献を紹介しながら、自社のABEJA Platformでの実践例も交え、AWS環境における機械学習プロジェクトのベストプラクティスを解説しました。後半は実際の機械学習の方法について。関連資料1、関連資料2 リソースとコストの最適化、そして、機械学習ジョブの実行方法 服部圭悟氏(以下、服部):では続いて、「リソースとコストをどう最適化するか?」と「機械学習ジョブをどう実行するか?」を同時に説明したいと思います。 やりたいこととしては、可能なかぎりコストを抑えて、でも安定した計算機クラスタを作りたい。安かろう悪かろうじゃダメってことですね。 それからスケーリ

                                                                    分散学習にはHorovodを使う 文献から学ぶクラウド機械学習のベストプラクティス
                                                                  • nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER

                                                                    自宅にあるオンプレマシンでグラフィックカードを GPGPU の用途に使用していると、消費電力や発熱は切実な問題になりうる。 特に昨今は電気代の値上がりも著しいし、発熱は製品寿命の短縮や夏だと室温の上昇につながる。 そこで、今回は Linux の環境で nvidia-smi(1) を使って NVIDIA の GPU にパワーリミットを設定することで消費電力や発熱の低減を目指してみる。 使った環境は次のとおり。 Ubuntu 20.04 LTS のマシンに、Docker と nvidia-container-toolkit がインストールしてある。 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.4 LTS Release: 20.04 Codenam

                                                                      nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER
                                                                    • GitHub - HigherOrderCO/HVM: A massively parallel, optimal functional runtime in Rust

                                                                      Higher-order Virtual Machine 2 (HVM2) is a massively parallel Interaction Combinator evaluator. By compiling programs from high-level languages (such as Python and Haskell) to HVM, one can run these languages directly on massively parallel hardware, like GPUs, with near-ideal speedup. HVM2 is the successor to HVM1, a 2022 prototype of this concept. Compared to its predecessor, HVM2 is simpler, fas

                                                                        GitHub - HigherOrderCO/HVM: A massively parallel, optimal functional runtime in Rust
                                                                      • 第641回 LXDとmicrok8sでシングルサーバーをKubernetesクラスターにする | gihyo.jp

                                                                        第560回の「microk8sでお手軽Kubernetes環境構築」では、「⁠シングルノードのみに対応したKubernetes環境構築ツール」としてmicrok8sを紹介しました。その後、このmicrok8sは大幅な進化を遂げて「特定のプロダクション用途でも使える」までになっています。今回はそのmicrok8sに最近追加された、高可用性クラスター機能について紹介しましょう。 密に開発されクラスターにも対応したmicrok8s 第560回の記事が公開されたのはmicrok8sのv1.13がリリースされ、Canonicalとしてもmicrok8sの利用をアピールしだした時期でした。当時はシングルノードにしか対応していないことに加えて、ARM64のサポートを拡充していったことからもわかるように、開発者によるKubernetesの学習用や組み込み用のシンプルなアプリケーションの実行用を主なユースケ

                                                                          第641回 LXDとmicrok8sでシングルサーバーをKubernetesクラスターにする | gihyo.jp
                                                                        • WSL2にCUDA on WSLをインストールする (1/2)

                                                                          前回は、WSL2からGPUが利用可能になったことを紹介したが(「Windows 10のWSL2からGPUが使えるようになった」)、今回はその続きとしてWSL2でGPUを使う設定を実際にしてみる。いくつか条件はあるものの、作業自体はそれほど難しくない。ただし、GPU利用といっても現時点では計算処理、特にNVIDIAのGPUを使った機械学習関係の処理が主な目的となるので、この分野に興味がないとせっかく設定しても使い道に困るかもしれない。 ここでは、NVIDIAのGPUを搭載したマシンに「CUDA on WSL」を、WSL2側にDockerなどをインストールして、NVIDIAが機械学習用に提供しているコンテナーを動かしている。いわゆるAI開発用の環境だが、これまで、Linuxをインストールしたマシンを用意するのが普通だった。しかし、CUDA on WSLを使えば、WindowsマシンのWSL2か

                                                                            WSL2にCUDA on WSLをインストールする (1/2)
                                                                          • グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine

                                                                            最近,因果推論や因果探索に興味を持ち,勉強している.というのも最近,ゆううきさん と一緒に分散システムの異常の原因を即時に診断するための研究を進めている.原因を診断するためのアプローチとして,サーバやコンテナ等から取得できる様々なメトリック(CPU使用率やメモリ使用率など)を(グラフ理論における)ノードとして,因果グラフを構築することを考えている.メトリック同士の単なる「相関」ではなく,結果と原因の関係である「因果」を捉えようとするアプローチである.例えば,システムの障害が発生した場合,相関だけでは,AとBが関連がありそうというところまでしか言えないが,因果を特定できると理想的には,Aの原因はBであるといった議論ができるため,有用だと考えている. 実際に,前述のような因果グラフを構築して障害の原因を特定しようというアプローチは,以下の例に挙げるようにここ数年で増えている印象がある. 「Mi

                                                                              グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine
                                                                            • VSCode+Docker+ROSで開発環境を構築する - Qiita

                                                                              こんにちは、@ryu_softwareです。普段は業務で自律移動ロボットのソフトウェアをいじってます。 以前のアドベントカレンダーでこんなの書きました。久しぶりの参加になります。 今回は僕が普段使ってる開発環境について、皆さんにとって参考になるかどうかは微妙かもしれませんが構築方法と使い方についてのメモを残そうと思います。 開発環境について 最近kineticやらmelodicやら、ROS2やらなんやらでいろんな開発環境を用意しなきゃいけなくてそうしてると自分のPCの環境を汚しかねない(最悪ぶち壊す)なぁと思っていて、色々テストしたりちょっと開発する時に必要な複数の開発環境をDockerを用いて使い分けていました。Dockerfileを分けておけばローカルの環境を汚さずに色々テストできるので結構便利でした。 僕は普段の開発において、最近Visual Studio Codeを使用していて、R

                                                                                VSCode+Docker+ROSで開発環境を構築する - Qiita
                                                                              • 実験用 GPU 環境をどう準備したらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足

                                                                                深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。 前々回は、それを裏付けるように非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えているという話、前回はいままで機械学習や深層学習に縁のなかった人が何から勉強したらいいかという話を書きました。 今回はその続き、研究に必要な実験用 PC 環境をどのように準備したらいいかというお話です。 深層学習の実験をするには、十分な性能の GPU を積んだ PC が必要です。 今どきの機械学習関連の研究室では、院生有志がメンテナンスしている GPU のクラスタがあって、それを使わせてもらえることが期待できます。自分用の PC を手配する場合も、研究テーマに適し

                                                                                  実験用 GPU 環境をどう準備したらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足
                                                                                • Introducing Triton: Open-source GPU programming for neural networks

                                                                                  Triton makes it possible to reach peak hardware performance with relatively little effort; for example, it can be used to write FP16 matrix multiplication kernels that match the performance of cuBLAS—something that many GPU programmers can’t do—in under 25 lines of code. Our researchers have already used it to produce kernels that are up to 2x more efficient than equivalent Torch implementations,

                                                                                    Introducing Triton: Open-source GPU programming for neural networks