並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1454件

新着順 人気順

CUDAの検索結果201 - 240 件 / 1454件

  • 3D Gaussian Splattingの使い方 (Windows環境構築)

    NeRFとは異なる、新たなRadiance Fieldの技術「3D Gaussian Splatting for Real-Time Radiance Field Rendering」の使い方、環境構築手順をまとめました。 手順は公式GitHubのREADMEにもありますが、こうした環境構築に慣れてない自分は結構てこづったので、必要な手順を細かくまとめました。 ・こちらはWindows用の手順です。 ・環境構築やコマンドラインでの使い方にハードルを感じる場合は、GUIでの操作が可能なJawsetのPostshotが便利です。 サンプルだけ触ってみたい人は 記事の最後にその手順をまとめました。 データをDLして専用ビューワーで開くのみです。 環境構築や自前のデータを用意せず3D Gaussian Splattingがどんなものか触ってみたい人向け。 環境構築参考サイト 環境構築手順はこちらの

      3D Gaussian Splattingの使い方 (Windows環境構築)
    • BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog

      概要 絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類(カテゴリー分類)について学習(ファインチューニング)から予測までを紹介したいと思います。本記事では実装ベースでお話しするので、「そもそもBERTって何?」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。 目次 事前準備 学習 評価 予測 参考文献 事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja 無料でTPU(Tensor Processing Unit)が使えるのでお得! googleさんありがとうございます TPUはIntelのHaswellと

        BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog
      • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

        2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

          OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
        • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

          本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

            音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
          • OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive

            ちょっと出遅れたけど、サイバーエージェントが出したGPT-NeoXベースのLLM、OpenCALM-7BをGoogle Colab上でLoRA使ってFine tuningをしてみました。 とりあえず対話を試したい人masuidrive/open-calm-instruct-lora-20230525-r4-alpha16-batch32-epoch1 に1 epoch回したLoRAを置いておきます。 Google Colabで試したい人はV100やA100のハイメモリで動かしてください。OpenCALM-7Bのshardが10GB単位なため、12GBの標準メモリでは動きません。transformersのloaderがもう少し賢ければ、T4の標準メモリでも動くと思うんだけど・・・ なぜFine tuningをするのかOpenCALM-7Bは基礎モデルなので日本語やWikiPediaの内容など

              OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive
            • AIブーム裏で〝ボロ儲け〟する意外な会社(GAFAMではありません) | AppBank

              未曾有の〝AIブーム〟に10年前から備えていたNvidia 現在、世界で最も価値のある企業のトップ10に入るNvidiaは、30年経った今でも創業者のジェンスン・フアンCEOが指揮を執る、シリコンバレーの数少ない大企業のひとつです。売上高の80%以上を占める同社の主要事業は、GPUです。GPUは通常、PCのマザーボードに差し込むカードとして販売され、AMDやインテルといった企業のCPUに計算能力を加えるものとなっています。 Nvidiaは1997年に最初の高性能グラフィックチップを設計し、ゲームとハリウッドの視覚効果の高速レンダリングに革命を起こしました。製造ではなく設計ですが、これはフアンCEOがNvidiaをファブレス・チップ企業にすることに注力し、チップ製造にかかる膨大な費用をTSMCに委託することで資本支出を大幅に抑えたからです。 いくつかの失敗はあったものの、現在のNvidiaは

                AIブーム裏で〝ボロ儲け〟する意外な会社(GAFAMではありません) | AppBank
              • Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka

                「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。 今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 GPTQを利用するため、「auto-gptq 」もインストールしています。 # パッケージのインストール !pip install t

                  Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka
                • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

                  AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

                    PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
                  • BERT系モデルで文章をEmbeddingする際のTips - Qiita

                    概要 BERT系のモデルを活用した文章のEmbedding取得について、検証を含めていくつかTipsを紹介します。 Paddingの最適化 tokenの平均化 Embeddingを取得するLayer 上記Tipsを複合した文章Embedding取得classの実装 はじめに 近年は、ChatGPTを始めとしたLLM活用が話題となっています(言語処理と言えば初手LLM(GPT系)の雰囲気も一部感じております)。対話型ChatBotにおいてはGPT系の生成AIが一線を画していますが、文章のEmbedding取得では旧来のBERT系のモデルが優れている例も報告されています。 SGPT: GPT Sentence Embeddings for Semantic Search ChatGPT vs BERT:どちらが日本語をより理解できるのか? 今回、社内で簡単な情報検索システムを構築する機会があり

                      BERT系モデルで文章をEmbeddingする際のTips - Qiita
                    • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

                      1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

                        GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
                      • Mac生誕40周年。人々を徐々に変えていった稀有なマシンのこと(CloseBox) | テクノエッジ TechnoEdge

                        Macが40年になったからなんか語れというお題をIttousai編集長からもらったので、Macとの関わりについてちょっと考えてみました。1990年代にMac雑誌を2つ創刊した経験があるので、まあ資格としてはあるかな、と。 ジェネラルなお話や、開発した人々のストーリーは語られ尽くしているし、オリジナル開発チームによる秘話(Commandキーを追加したのはダグラス・エンゲルバートからパワーユーザーにとっても使いやすくするようにというアドバイスでキーボードショートカットを思いついたビル・アトキンソンのアイデアであるとか、1984のCMを取締役会で上映したときにその中の一人が怒りのあまりデスクを叩き続けていたりとか、面白すぎエピソード満載)はComputer History Museumの40周年記念イベント動画を見てもらえばいいと思うので、今回はMacintoshとの関わりについて個人的な話をし

                          Mac生誕40周年。人々を徐々に変えていった稀有なマシンのこと(CloseBox) | テクノエッジ TechnoEdge
                        • 日本語CLIP 学習済みモデルと評価用データセットの公開

                          はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す

                            日本語CLIP 学習済みモデルと評価用データセットの公開
                          • Dain-App 1.0 [Nvidia Only] by GRisk

                            This application only work with NVIDIA graphic cards,  AMD graphics card DOES NOT work in this application. Also the NVIDIA Hardware need to support CUDA 5.0 or bigger to work. Rife-App is the interpolator I'm working right now. It support AMD and CPU, it also lighter on the CPU memory. Here the link if you want to check it out. Read this: This application is complete free, you can download the sa

                              Dain-App 1.0 [Nvidia Only] by GRisk
                            • テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた

                              チャットAIのChatGPTや音声認識AIのWhisperを開発するOpenAIが2023年5月に3Dモデル作成AI「Shap-E」を発表しました。Shap-Eはオープンソースで開発されており、誰でも利用可能とのことなので実際にGoogle Colaboratory上で使ってみました。 shap-e/sample_text_to_3d.ipynb at main · openai/shap-e · GitHub https://github.com/openai/shap-e/blob/main/shap_e/examples/sample_text_to_3d.ipynb Shap-Eでどんなことができるのかについては下記の記事が詳しいです。 テキストや画像から3Dモデルを生成するオープンソースのAI「Shap-E」をOpenAIが発表 - GIGAZINE まずはGoogleドライブに

                                テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた
                              • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                  既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                • NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表

                                  NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表 ライター:米田 聡 2022年7月13日から14日まで,東京都内で行われる量子コンピュータ関連イベント「Q2B22 Tokyo」に合わせて,NVIDIAは,量子コンピュータ向けのプログラミングプラットフォーム「Quantum Optimized Device Architecture」(QODA,クォーダ)を発表した。QODAとは,NVIDIAが2013年から手がけてきたGPUコンピューティングプラットフォーム「CUDA」の量子コンピュータ版と理解していい。 NVIDIAは,2021年から量子コンピューティングに関する発表を行っており,今回のQODA発表は,その総仕上げ的な位置づけになるものだ。ゲーマーには直接関係のない話題ではあるが,NVIDIAが量子コンピューティングに取り組んでいる理由を含めて,簡単

                                    NVIDIA,量子コンピュータ向けのプログラミングプラットフォーム「QODA」を発表
                                  • 【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する

                                    はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推

                                      【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する
                                    • NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita

                                      import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re

                                        NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
                                      • エヌビディアのGPUカーネルモジュールのオープンソース化--「Linux」への影響を考える

                                        Steven J. Vaughan-Nichols (Special to ZDNET.com) 翻訳校正: 川村インターナショナル 2024-07-24 07:30 いつからなのか思い出そうという気にならないほど長い間、「Linux」ユーザーは世界有数のグラフィックスプロセッシングユニット(GPU)企業であるNVIDIAを憎んできた。なぜかというと、他のすべての企業が自社のドライバーをオープンソース化した後も、NVIDIAは長年にわたりそれを拒否したからだ。また、Linuxカーネル開発者に対し、オープンソースドライバーの構築に必要なデータを提供しなかったため、Linuxユーザーは品質の劣るプロプライエタリーなドライバーを使い続けるしかなかった。そのNVIDIAがついに、自社のGPUドライバーコードをオープンソース化した。 「憎んできた」と書いたが、それほど強い言葉を使ったつもりはない。有

                                          エヌビディアのGPUカーネルモジュールのオープンソース化--「Linux」への影響を考える
                                        • 写真1枚で他人になりすましてライブ配信可能なAIアプリ「Deep-Live-Cam」が登場、ウェブカメラに映る顔をリアルタイムで上書き可能

                                          一般的に、ディープフェイク動画を作成するには大量のサンプル画像や長い処理時間が必要です。ところが、オープンソースで公開されている「Deep-Live-Cam」は画像を1枚用意するだけでフェイク動画をリアルタイム生成できてしまうそうです。 hacksider/Deep-Live-Cam: real time face swap and one-click video deepfake with only a single image https://github.com/hacksider/Deep-Live-Cam New AI tool enables real-time face swapping on webcams, raising fraud concerns | Ars Technica https://arstechnica.com/information-technolog

                                            写真1枚で他人になりすましてライブ配信可能なAIアプリ「Deep-Live-Cam」が登場、ウェブカメラに映る顔をリアルタイムで上書き可能
                                          • 仮眠プログラマーのつぶやき : UnityでGPGPU応用編 バイトニックソートを高速化

                                            2020年07月13日12:44 カテゴリUnityGPGPU UnityでGPGPU応用編 バイトニックソートを高速化 バイトニックソート(Bitonic Sort)の概要バイトニックソート(Bitonic Sort)は主にGPU等の並列計算器でソートを実装しようとするときに使われるソートである。 計算量のオーダーはO(n log^2 n)であり、クイックソートのO(n log n)には負けるものの並列化による高速化が勝るという感じなのでいろんなところに使われている。 対象読者キーワード「GPU」「バイトニックソート」で検索してこの記事にたどり着いただろう方が対象。 この記事では ・バイトニックソートでなぜソートできるか ・どうやったら高速化できるか という点について重点的に書いている。 高速化については OpenCLでバイトニックソートを実装している海外サイト をパクリ参考にした。 こ

                                            • 第641回 LXDとmicrok8sでシングルサーバーをKubernetesクラスターにする | gihyo.jp

                                              第560回の「microk8sでお手軽Kubernetes環境構築」では、「⁠シングルノードのみに対応したKubernetes環境構築ツール」としてmicrok8sを紹介しました。その後、このmicrok8sは大幅な進化を遂げて「特定のプロダクション用途でも使える」までになっています。今回はそのmicrok8sに最近追加された、高可用性クラスター機能について紹介しましょう。 密に開発されクラスターにも対応したmicrok8s 第560回の記事が公開されたのはmicrok8sのv1.13がリリースされ、Canonicalとしてもmicrok8sの利用をアピールしだした時期でした。当時はシングルノードにしか対応していないことに加えて、ARM64のサポートを拡充していったことからもわかるように、開発者によるKubernetesの学習用や組み込み用のシンプルなアプリケーションの実行用を主なユースケ

                                                第641回 LXDとmicrok8sでシングルサーバーをKubernetesクラスターにする | gihyo.jp
                                              • CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみた - Qiita

                                                CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみたCUDAGPGPUGPU機械学習OpenACC この記事は何? CUDA123 に代わる新しい GPU の 標準API 、OpenACC が最近 CUDA よりも高速化できたという結果4を出していて調子が良いので、現状のヘテロジニアス環境でのマルチデバイス実行(複数のデバイス:CPU、GPU、FPGA、メニーコアCPU、ASIC などを組み合わせた演算)の対応状況を調査してみました。 そもそもOpenACCとは? NVIDIAが中心となって本腰を入れているGPGPUなどのハードウェアアクセラレーションの標準APIです。その特徴として最も特筆すべき点はCUDAと比較してプログラミングが超簡単なことです。以前なら性能差がよりシビアでしたが、現在

                                                  CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみた - Qiita
                                                • 職場の先輩をLLMで作ってみようとした話 - Qiita

                                                  はじめに 皆さんはLLMで何かを作りたいという経験はありますか。 世の中にはアニメキャラクターの作成を指向したチャットハルヒや霧雨魔理沙を言語モデルで作成&ラインbot化した話など様々な実例があります。 今回私は勉強会でお話しするという温度感で、先輩をLLMで作ってみようとした話について述べます。参考になれば幸いです! def convert_symbols_to_fullwidth(text): half_symbols = '!?~' full_symbols = '!?〜' half_to_full = {half: full for half, full in zip(half_symbols, full_symbols)} return ''.join(half_to_full.get(char, char) for char in text) def convert_fullw

                                                    職場の先輩をLLMで作ってみようとした話 - Qiita
                                                  • AIソフト開発向け言語Mojo発表 ―Pythonの使いやすさとC言語のパフォーマンスの組み合わせ | gihyo.jp

                                                    2023年5月2日、Modular Inc.はAIソフトウェア開発向けに最適化されたプログラミング言語「Mojo」を開発中であることを発表した。 Mojo 🔥 — a new programming language for all AI developers. Two incredible new breakthroughs - the world’s fastest unified inference engine, and Mojo 🔥 a new programming language for all of AI. Visit https://t.co/3gVmUX5C4a now to sign up! Watch everything we just announced in 121 seconds!🚀 https://t.co/BC56xumEdl — Modular

                                                      AIソフト開発向け言語Mojo発表 ―Pythonの使いやすさとC言語のパフォーマンスの組み合わせ | gihyo.jp
                                                    • 中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに

                                                      中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま

                                                        中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
                                                      • KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG

                                                        はじめに こんにちは。SRE部フロントSREブロックの三品です。 3月19日から3月22日にかけてKubeCon + CloudNativeCon Europe 2024(以下、KubeCon EUと呼びます)が行われました。今回弊社からはZOZOTOWNのマイクロサービスや基盤に関わるエンジニア、推薦システムに関わるエンジニアの合わせて4人で参加しました。 本記事では現地の様子や弊社エンジニアが気になったセッションや現地の様子について紹介していきます。 目次 KubeConEU2024の概要 セッションの紹介 現地の様子 ブースについて 参加に向けてのTips 最後に KubeCon EU 2024の概要 昨年4月にオランダ アムステルダムで行われたKubeCon EUの様子については昨年の参加レポートをご覧ください。 techblog.zozo.com 今年のKubeCon EUはフラ

                                                          KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG
                                                        • "RWKV_CUDA_ON"を1に設定してRWKVを高速化する - Qiita

                                                          ローカル環境でも高速で動作するLLMとして話題のRWKVですが、ドキュメントを見ていると環境変数の"RWKV_CUDA_ON"を1に設定することでより高速で動くということなので試してみました。 設定を変更するときに1箇所エラーで躓いたところがあったのでそちらも記録しておきます。 RWKVとは RWKVとはTransformerレベルの性能を持つRNNです。他のLLMと同様に高性能でありつつ推論が高速でVRAMを節約しているのが特徴です。 RWKVをチャットで使えるようにしたものとしてChatRWKVがあります。 また、RWKVをAlpacaデータセットなどを使用してファインチューニングしたものとしてRavenがあります。 ChatRWKVの使い方は次の記事で分かりやすく解説されています。 またRWKVのファインチューニングの方法については以下の記事で解説されています。 RWKV_CUDA_

                                                            "RWKV_CUDA_ON"を1に設定してRWKVを高速化する - Qiita
                                                          • Algorithms for Modern Hardware - Algorithmica

                                                            This is an upcoming high performance computing book titled “Algorithms for Modern Hardware” by Sergey Slotin. Its intended audience is everyone from performance engineers and practical algorithm researchers to undergraduate computer science students who have just finished an advanced algorithms course and want to learn more practical ways to speed up a program than by going from $O(n \log n)$ to $

                                                            • SDXLでコピー機学習法を試す|Kohya S.

                                                              はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し(コピー機と呼ばれる理由です)、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。 今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。 学習にはsd-scriptsを利用しています。 教師データとりにく氏の画像を利用させていただきます。 SDXLにおけるコピー機学習法考察(その1) ①まず生成AIから1枚の画像を出力(base_eyes)。手動で目をつぶった画像(closed_eyes)に加工(画像1枚目と2枚目) ②画像3枚目のレシピでまずbase_eyesを学習、CounterfeitXL-V1.0とマージする ③②のモデルをベースに4枚目でclosed_eyesを学習 pic.twitt

                                                                SDXLでコピー機学習法を試す|Kohya S.
                                                              • nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER

                                                                自宅にあるオンプレマシンでグラフィックカードを GPGPU の用途に使用していると、消費電力や発熱は切実な問題になりうる。 特に昨今は電気代の値上がりも著しいし、発熱は製品寿命の短縮や夏だと室温の上昇につながる。 そこで、今回は Linux の環境で nvidia-smi(1) を使って NVIDIA の GPU にパワーリミットを設定することで消費電力や発熱の低減を目指してみる。 使った環境は次のとおり。 Ubuntu 20.04 LTS のマシンに、Docker と nvidia-container-toolkit がインストールしてある。 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.4 LTS Release: 20.04 Codenam

                                                                  nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER
                                                                • 物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG

                                                                  R&D チームの奥村(@izariuo440)です。EfficientDet がブラウザで動いているのを見たことがなかったので、やってみました。以下はブラウザで実行中の様子1です。 結果として、EfficientDet-D0 で 256x256 の解像度の画像を TensorFlow Lite で推論させると、ネイティブで 20 FPS、WebAssembly SIMD support ありの Chrome で 7 FPS 程度の速度性能を確認できました。 Case XNNPACK XNNPACK スレッド数 FPS A OFF N/A 4 B ON 1 15 C ON 4 20 測定環境は MacBook Pro (Retina, 15-inch, Mid 2015) の 2.5 GHz です。 背景と動機 周辺知識 EfficentDet EfficientDet の精度 Effici

                                                                    物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG
                                                                  • グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine

                                                                    最近,因果推論や因果探索に興味を持ち,勉強している.というのも最近,ゆううきさん と一緒に分散システムの異常の原因を即時に診断するための研究を進めている.原因を診断するためのアプローチとして,サーバやコンテナ等から取得できる様々なメトリック(CPU使用率やメモリ使用率など)を(グラフ理論における)ノードとして,因果グラフを構築することを考えている.メトリック同士の単なる「相関」ではなく,結果と原因の関係である「因果」を捉えようとするアプローチである.例えば,システムの障害が発生した場合,相関だけでは,AとBが関連がありそうというところまでしか言えないが,因果を特定できると理想的には,Aの原因はBであるといった議論ができるため,有用だと考えている. 実際に,前述のような因果グラフを構築して障害の原因を特定しようというアプローチは,以下の例に挙げるようにここ数年で増えている印象がある. 「Mi

                                                                      グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine
                                                                    • VSCode+Docker+ROSで開発環境を構築する - Qiita

                                                                      こんにちは、@ryu_softwareです。普段は業務で自律移動ロボットのソフトウェアをいじってます。 以前のアドベントカレンダーでこんなの書きました。久しぶりの参加になります。 今回は僕が普段使ってる開発環境について、皆さんにとって参考になるかどうかは微妙かもしれませんが構築方法と使い方についてのメモを残そうと思います。 開発環境について 最近kineticやらmelodicやら、ROS2やらなんやらでいろんな開発環境を用意しなきゃいけなくてそうしてると自分のPCの環境を汚しかねない(最悪ぶち壊す)なぁと思っていて、色々テストしたりちょっと開発する時に必要な複数の開発環境をDockerを用いて使い分けていました。Dockerfileを分けておけばローカルの環境を汚さずに色々テストできるので結構便利でした。 僕は普段の開発において、最近Visual Studio Codeを使用していて、R

                                                                        VSCode+Docker+ROSで開発環境を構築する - Qiita
                                                                      • 実験用 GPU 環境をどう準備したらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足

                                                                        深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。 前々回は、それを裏付けるように非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えているという話、前回はいままで機械学習や深層学習に縁のなかった人が何から勉強したらいいかという話を書きました。 今回はその続き、研究に必要な実験用 PC 環境をどのように準備したらいいかというお話です。 深層学習の実験をするには、十分な性能の GPU を積んだ PC が必要です。 今どきの機械学習関連の研究室では、院生有志がメンテナンスしている GPU のクラスタがあって、それを使わせてもらえることが期待できます。自分用の PC を手配する場合も、研究テーマに適し

                                                                          実験用 GPU 環境をどう準備したらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足
                                                                        • GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2

                                                                          GraphRAGのインストール まずは、GraphRAGをインストールしましょう。Pythonの環境(バージョン3.10から3.12)が必要です。 !pip install graphrag ├── create_final_community_reports ├── create_final_text_units ├── create_base_documents └── create_final_documents �[?25h �[32mAll workflows completed successfully.�[0m MS公式のGraphRAGに挑戦中。。。 indexに時間がかかってます。。。 https://t.co/CG3M6tMiO4 pic.twitter.com/cDgxxTnbtl — Maki@Sunwood AI Labs. (@hAru_mAki_ch) Jul

                                                                            GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2
                                                                          • Introducing Triton: Open-source GPU programming for neural networks

                                                                            Triton makes it possible to reach peak hardware performance with relatively little effort; for example, it can be used to write FP16 matrix multiplication kernels that match the performance of cuBLAS—something that many GPU programmers can’t do—in under 25 lines of code. Our researchers have already used it to produce kernels that are up to 2x more efficient than equivalent Torch implementations,

                                                                              Introducing Triton: Open-source GPU programming for neural networks
                                                                            • おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena

                                                                              ChatGPTが話題ですが、そういうのをおうちで動かしたいですよね。 ということで、おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。 ChatGPTは実装は公開されておらず手元で動かすことはできません。けど、サービスがたまに落ちてたりするので手元で動かせるなにかがあると安心ですね。何より、こんな変な技術を手元で動かしたい。 そこで手元で動かせるLLMとしてFlexGenが話題になりましたが、それでも強力なGPUが必要です。 https://github.com/FMInference/FlexGen そして低リソースで動かせる実装としてAlpaca.cppなんかも出ましたが、そこまで賢くない感じ。 https://github.com/antimatter15/alpaca.cpp そこに現れたのがChatRWKVです。一般のご家庭の8GB VRAMのGPUで動かせつ

                                                                                おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena
                                                                              • C++ のパッケージマネージャーの選択メモ( conan vs. vcpkg vs. Hunter on Windows and Ubuntu ): C++ 実装がサブプロジェクトとして内包されるクロスプラットフォームアプリのリポジトリーの場合 - C++ ときどき ごはん、わりとてぃーぶれいく☆

                                                                                タイトルが少しややこしいので最初に整理します。 このメモは: C++ のパッケージマネージャーの選択のはなし ただし: アプリはクロスプラットフォーム ( このメモでの具体例は Windows-10 & Ubuntu-19.04 ) アプリ全体(=このメモでは「ソリューション」とします)はいくつかの構成部品(=このメモでは「プロジェクト」とします)に分けて作られる プロジェクトの1つ以上に C++ を採用したい そのプロジェクト単位で C++ のライブラリーを管理できるパッケージマネージャーを導入したい → どうするのが楽そうかな のメモです。 選択肢と大雑把な検討 conan https://conan.io/ クロスプラットフォーム対応の C++ のパッケージマネージャーが欲しいの悩みに答えてくれる定番。 CMake でごにょごにょする vcpkg https://github.com

                                                                                  C++ のパッケージマネージャーの選択メモ( conan vs. vcpkg vs. Hunter on Windows and Ubuntu ): C++ 実装がサブプロジェクトとして内包されるクロスプラットフォームアプリのリポジトリーの場合 - C++ ときどき ごはん、わりとてぃーぶれいく☆
                                                                                • Windows 11 の WSL で GPU を使って rinna InstructGPT - nownab.log

                                                                                  はじめに 最近、念願のつよつよ GPU がついた PC を新調して WSL で環境構築を頑張っている。今回は GPU を使った LLM の推論を試した。 ここでの GPU は NVIDIA のもので、GPU の環境構築は WSL で CUDA を使えるようにすることを意味する。また、WSL の Distribution は Ubuntu-22.04。 LLM としては rinna 社の日本語特化 InstructGPT を使った。 GPU on WSL 基本的に この手順 に従って進めれば WSL で GPU が使えるようになる。具体的には、Windows 11 へ WSL 対応 NVIDIA ドライバのインストール、WSL 内で CUDA Toolkit インストールの 2 点。 NVIDIA ドライバのインストールは NVIDIA のドライバダウンロードサイトで Windows 11

                                                                                    Windows 11 の WSL で GPU を使って rinna InstructGPT - nownab.log