並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 133件

新着順 人気順

bf16の検索結果1 - 40 件 / 133件

  • 【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita

    動機 外資系のAmazonが展開している電子書籍Kindleでは比較的洋書の取り扱いが多いです。 Kindle Unlimitedに登録されている書籍も多く、Springerなんかも含まれているので活用しない手はありません。 そこでkindle-translatorをつくりました。 https://github.com/1plus1is3/kindle-translator これで一冊50万字あるKindleの洋書を1分で日本語PDFに変換できます。 キーボードの矢印キーでページ送りができるならKindleに限らずあらゆる電子書籍リーダおよびPDFビューワで使え、DeepLが対応している言語であれば英語以外の言語でも翻訳できます(仏→日とか)。 未経験からPythonエンジニアになって3ヶ月(うち1ヶ月は研修)が経ち、色々作れるようになった時点でつくったツールなので、改良すべき点もまだまだ

      【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita
    • ドーベルマン再び脱走…今度は親子2頭 保護団体は「あまりにも飼育環境が劣悪」指摘(日テレNEWS) - Yahoo!ニュース

      先月、ドーベルマン4頭が逃げ出した千葉・木更津市の住宅から、ドーベルマン2頭が再び逃げたことがわかり、警察が捜索にあたっています。保護団体は、ドーベルマンの飼育環境について「あまりにも飼育環境が劣悪」と指摘しています。 【画像】ドーベルマン2頭再び逃げ出す…警察が捜索 木更津 ◇ 子供たちの通学時間にしかれた“厳戒態勢”。千葉・木更津市にある小学校では、警察官らによる見守りが行われました。 そのわけは―― 警察などによると、大型犬に分類されるドーベルマンの親犬と、生後約5か月の子犬の2頭が、近くの住宅から逃げ出したというのです。 飼い主が最後に確認したのは、ゴールデンウイーク最終日の8日です。それから3日が経過した11日、「いなくなった」と警察に連絡がありました。 ただ、このドーベルマンは、先月にも、同じ住宅から脱走しました。4頭が逃げ出し、見つかったのは約17時間後でした。現場付近では、

        ドーベルマン再び脱走…今度は親子2頭 保護団体は「あまりにも飼育環境が劣悪」指摘(日テレNEWS) - Yahoo!ニュース
      • 富岳版XbyakがIntelの深層学習ライブラリoneDNNにmergeされる - Cybozu Inside Out | サイボウズエンジニアのブログ

        初めに サイボウズ・ラボの光成です。 このたび、Intelの公式深層学習ライブラリoneDNNに、富士通が開発しているスーパーコンピュータ富岳向けのPull Requestがmergeされました。 その開発に関わることになった経緯を紹介します。 目次 概要 Xbyakとは 動機 Intelとの関わり 富士通との関わり 概要 富士通研究所はスーパーコンピュータ富岳で深層学習(ディープラーニング)を高速に処理するためのソフトウェアを開発してます。 そのためにIntelが開発している深層学習ライブラリoneDNNを富岳に移植して改良しています。 このたび、その成果の一部が本家のoneDNNに取り込まれました。 富岳はA64FXというArm v8-Aにベクトル演算機能SVEが追加されたCPUを持ちます。 oneDNNを富岳に移植するには、私が開発しているXbyakのA64FX用Xbyak_aarc

          富岳版XbyakがIntelの深層学習ライブラリoneDNNにmergeされる - Cybozu Inside Out | サイボウズエンジニアのブログ
        • ECS を利用した検証環境の自動構築 ~運用3年を経て得た知見~ - メドピア開発者ブログ

          CTO 室 SRE kenzo0107 です。 以前執筆した ECS を利用した検証環境の自動構築について、運用開始から3年の時を経ました。 実運用とその上で頂いた要望を取り入れ変化してきましたので、その経緯を綴ります。 tech.medpeer.co.jp 本稿、議論を重ね改善を進めて頂いたチームメンバーの知見を集めた元気玉ブログとなっております。 前提 社内では、以下の様に呼び分けしています。 本番相当の検証環境を STG 環境 本記事で説明する自動構築される仕組みを持つ環境を QA 環境*1 検証環境の自動構築の目的 開発した機能を開発担当者以外でも簡易的に確認できる様にし、以下を促進します。 ディレクターと開発者の仕様齟齬を減らす 改善のサイクルを高速化する 当時の検証環境の自動構築の仕組み 大まかな流れ ① ブランチ qa/foo を push ② CircleCI 実行 ③ C

            ECS を利用した検証環境の自動構築 ~運用3年を経て得た知見~ - メドピア開発者ブログ
          • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

            導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

              これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
            • 西川善司の3DGE:NVIDIAが投入する20 TFLOPS級の新GPU「A100」とはいったいどのようなGPUなのか?

              西川善司の3DGE:NVIDIAが投入する20 TFLOPS級の新GPU「A100」とはいったいどのようなGPUなのか? ライター:西川善司 カリフォルニア州の自宅で撮影したビデオで基調講演を行ったJensen Huang氏 去る2020年5月14日,NVIDIAは,同社CEOのJensen Huang氏によるオンライン基調講演で,新しい「Ampere」アーキテクチャ採用の新GPU「A100」を発表した。 Ampereとは,電流量の単位である「アンペア」の語源となったフランスの物理学者アンドレ=マリ・アンペール(André-Marie Ampère)にちなんだ開発コードネームだ。NVIDIAは近年,新しいGPUアーキテクチャの開発コードネームに,歴史に名を残した科学者の名を採用している。GeForce RTX 20シリーズの「Turing」や,その前世代の「Volta」も同様だ。 SXM4

                西川善司の3DGE:NVIDIAが投入する20 TFLOPS級の新GPU「A100」とはいったいどのようなGPUなのか?
              • Web制作における『WordPressができる』という言葉について

                ちょっと前にツイッターでこういうことをつぶやいたので、補足と言うかちょっと詳しく書いておこうと思う。 最初に結論 ツイートの通り、Web制作における『WordPressができる』っていうのは究極的に言うと素の管理画面でできること・起こっていることを把握していることであると思う。 なぜそう思うのか WordPressもしっかり進化しているので、カスタマイザーやブロックエディタでできることも増えていたりする。 デフォルトの機能でWeb制作に必要な機能は一通り揃っていると言っても過言ではないと思う。 プラグインや独自の実装でカスタマイズしたい場合も、デフォルトでできることを知っていれば無駄な実装は避けることができるし、どういう関数で動いているのかまでわかっていれば、フックで処理を少し書き換えてあげるだけでカスタマイズが完了してしまうケースも多い。 要は無駄のなるべく少ない実装ができるわけだ。 な

                  Web制作における『WordPressができる』という言葉について
                • ちょっと聞かせてください…!あなたがその指で「攻撃」に加わった理由|NHK取材ノート

                  ネットにはときどき極端な意見の人と、それに追随する人たちがいます。私はこれまで「排外主義的な言論」を主張したり、時には行動で訴えたりする人たちについての取材を多く手がけてきました。 例えば4年前、弁護士に全国から13万件もの懲戒請求が送られた問題です。 2018年10月に「クローズアップ現代+」で放送しました。 そしてあいちトリエンナーレの「表現の不自由展・その後」の内容を巡って大量の苦情や問い合わせなどの電話、いわゆる“電凸”が寄せられ、展示が一時中止に追い込まれた問題や、慰安婦問題を扱った映画「主戦場」の上映について映画祭がこちらも“電凸”を懸念して一時中止にした問題。 去年はテレビ朝日の情報番組「羽鳥慎一 モーニングショー」のコメンテーターの大谷医師が、PCR検査を巡る発言で炎上して一時出演できなくなった問題も取材し、7月に朝の ニュース番組で放送しました。 どれもこれも、いわゆる「

                    ちょっと聞かせてください…!あなたがその指で「攻撃」に加わった理由|NHK取材ノート
                  • Search for Hash keys (CACAO Test)

                    検索結果 日付・時間帯はいずれも日本標準時(JST)です。 (最終更新日時:2022/05/03 10:29) 注意事項 (必ずお読みください)使い方、HASH値および日付の計算方法詳細についてはこちらをご参照ください。 厚労省のFAQによると、「一致したキー」は1メートル以内で15分以上という判定基準よりも広範な、OSが検知したすべての陽性者との接触情報を表示しているものです。それを考慮して対応をご検討ください。 データの取り扱いについて 本Webサイトの検索窓に入力されたデータ(数値)は、ご利用のパソコン・スマホ上でのみ処理され、その入力および検索結果はサーバ側へ送信されません。 したがって、その入力および検索結果がサーバ側にデータとして残る心配は一切ありませんので、安心してご利用ください。 以前の出力表記が間違えており、9時間のずれがありました。お詫びとともに訂正させていただきます。

                    • llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama

                      2023/11/13追記以下の記事は、Llama2が公開されて数日後に書いた内容です。 公開から数ヶ月経った23年11月時点では、諸々の洗練された方法が出てきていますので、そちらも参照されることをおすすめします。 (以下、元記事です) 話題のLamma2をファインチューニングします。 QLoRAライブラリを使うパターンと、公式推奨の2つを試しました。前者が個人的にはオススメです。 前提Hugging faceで配布されている公式のモデルが必要です。以下を参考に、ダウンロードしておきます。 データセット作成 (7/20 15:20追記 設定ミスってたので修正しました) test.jsonを適当に作ります。 [ { "input": "", "output": "### Human: 富士山といえば?### Assistant: なすび" }, { "input": "", "output":

                        llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama
                      • 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

                        3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。 運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。(以下のように運転映像に対して説明文が出力されます) 学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました(Strong Scaling!) 分散並列学習にはDeepSpeedを用いました。 はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

                          走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話
                        • 大規模モデルを単一GPUで効率的に学習する方法|npaka

                          以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

                            大規模モデルを単一GPUで効率的に学習する方法|npaka
                          • Stable-Diffusionの学習設定まとめ|gcem156

                            なんか学習設定について、よく分からんけどデフォルト!とかよく分からんけどこうしてみたらうまくいった!みたいな感覚で議論されていることが多い気がするので、学習設定についてまとめてみようと思います。機械学習のこと知らん人にも分かるようにするはずの記事でしたが多分そうなってないです。間違いもあると思いますが、私の記事が間違っていたとしても、悪いのは私よりも頭がいい人が分かりやすい説明をしないせいであって私のせいではありません。 機械学習の簡単な説明機械学習が分からない人にも!と思って難しい用語を避けようとしてみましたが、誤差逆伝搬のことをフィードバックって言いかえたところで分かりやすくなっているのでしょうか? 機械学習はモデルの数値を学習データに合うように少しずつ調整していく作業です。なぜ少しずつかというと、機械学習では改善する方向はなんとなくわかるけど、最適な数値の位置は分からないからです。位

                              Stable-Diffusionの学習設定まとめ|gcem156
                            • 『笑っていいとも!』で人気者に、テレビから姿を消した「ゲージツ家のクマさん」80歳の今(週刊女性PRIME) - Yahoo!ニュース

                              「クマさんの話は、とにかく面白いんですよ」コピーライターの糸井重里さん、イラストレーターの南伸坊さん、俳優の麿赤兒さんら著名人が口をそろえ、そのひょうきんな口ぶりをまねてみせる。新宿の飲み屋から業界に噂が広がり、いつしか「クマさん」の愛称でお茶の間の人気者になった篠原勝之さん。テレビから姿を消したクマさんは、ゲージツ家として新境地を開き、現在80歳。周囲を笑顔に変える話術は健在で、日々の小さな失敗にも笑いをまぶしていた。 【写真】篠原勝之さん、会社員に戻らないと決意の坊主頭に! 「ゲージツ家のクマさん」 坊主頭で目を細め、周りをパッと明るく照らすこの笑顔に見覚えのある人は『笑っていいとも!』を見ていた世代だろう。 粋な着流しに派手なマフラーがトレードマーク。下駄を鳴らしてテレビをにぎわせていたあの「ゲージツ家のクマさん」こと篠原勝之さんだ。 タモリや明石家さんま、ビートたけしなど、当時ビッ

                                『笑っていいとも!』で人気者に、テレビから姿を消した「ゲージツ家のクマさん」80歳の今(週刊女性PRIME) - Yahoo!ニュース
                              • Rust 1.60を早めに深掘り - OPTiM TECH BLOG

                                こんにちは、R&Dチームの齋藤(@aznhe21)です。 新オフィスは広くて快適です。 さて、本日4/8(金)にRust 1.60がリリースされました。 この記事ではRust 1.60での変更点を詳しく紹介します。 4/8は釈迦の誕生を祝う花まつりの日 ピックアップ コンパイル時間を計測できるようになった 機能(features)で名前空間付き・弱依存がサポートされた コード網羅率を計測できるようになった [u8]を文字列としてエスケープできるようになった 安定化されたAPIのドキュメント Arc::new_cyclic パニック サンプル Rc::new_cyclic パニック サンプル slice::EscapeAscii <[u8]>::escape_ascii サンプル u8::escape_ascii サンプル Vec::spare_capacity_mut サンプル Maybe

                                  Rust 1.60を早めに深掘り - OPTiM TECH BLOG
                                • 誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ

                                  前回の記事では、Stable Diffusionモデルを追加学習するためのWebUI環境「kohya_ss」の導入法について解説しました。 今回は、LoRAのしくみを大まかに説明し、その後にkohya_ssを使ったLoRA学習設定について解説していきます。 ※今回の記事は非常に長いです! この記事では「各設定の意味」のみ解説しています。 「学習画像の用意のしかた」とか「画像にどうキャプションをつけるか」とか「どう学習を実行するか」は解説していません。学習の実行法についてはまた別の記事で解説したいと思います。 LoRAの仕組みを知ろう 「モデル」とは LoRAは小さいニューラルネットを追加する 小さいニューラルネットの構造 LoRA学習対象1:U-Net RoLA学習対象2:テキストエンコーダー kohya_ssを立ち上げてみよう LoRA学習の各設定 LoRA設定のセーブ、ロード Sour

                                    誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ
                                  • CPU・GPU・TPUをワンチップで担う「Tachyum Prodigy」のCPUスペックが明らかに、最大クロック周波数5.7GHz・128コア・TDP 950Wのモンスタースペック

                                    半導体企業のTachyumが、CPU・GPU・TPUの機能を単一のアーキテクチャに統合したチップ「Prodigy」を発表しました。ProdigyのCPUスペックは最大128コア、動作周波数は5.7GHz、16チャネルDDR5メモリ、TDPは950Wとなっており、テクノロジーメディアのWccftechは「非常識なスペック」と評しています。 Tachyum's Prodigy CPU Specs Unveiled: 5nm Universal Processors With Up To 128 Cores, 5.7 GHz Clocks, 16-Channel DDR5-7200 Memory Support & 950W TDP https://wccftech.com/tachyums-prodigy-cpu-specs-unveiled-5nm-universal-processors-

                                      CPU・GPU・TPUをワンチップで担う「Tachyum Prodigy」のCPUスペックが明らかに、最大クロック周波数5.7GHz・128コア・TDP 950Wのモンスタースペック
                                    • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                      はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                        既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                      • Alpaca まとめ|npaka

                                        「Alpaca」の学習方法について軽くまとめました。 1. Alpaca「Alpaca」は、「LLaMA 7B」(Meta)をファインチューニングした言語モデルです。「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴です。 また、「Alpaca」は学術研究のみを目的としており、商用利用は禁止しています。 2. 学習済み言語モデル と 学習データアカデミックな予算で高品質な言語モデルを学習させるためには、「強力な学習済み言語モデル」と「高品質な学習データ」が必要です。 1つ目は、最近リリースされたMetaの「LLaMA」で解決されます。2つ目は、「self-instru

                                          Alpaca まとめ|npaka
                                        • 最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター

                                          こんにちは。メディア研究開発センター(M研)の田口です。 最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。 少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。 ※この記事では社内データでなく公開データされているデータセットで実験しています LTの資料はこちらになります。 日本語LLMを要約タスクで検証するさっそく本題に入りましょう。今回は5月以降に発表された以下の日本語LLMを要約タスクで評価してみようと思います。 cyber

                                            最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター
                                          • SDXLでコピー機学習法を試す|Kohya S.

                                            はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し(コピー機と呼ばれる理由です)、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。 今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。 学習にはsd-scriptsを利用しています。 教師データとりにく氏の画像を利用させていただきます。 SDXLにおけるコピー機学習法考察(その1) ①まず生成AIから1枚の画像を出力(base_eyes)。手動で目をつぶった画像(closed_eyes)に加工(画像1枚目と2枚目) ②画像3枚目のレシピでまずbase_eyesを学習、CounterfeitXL-V1.0とマージする ③②のモデルをベースに4枚目でclosed_eyesを学習 pic.twitt

                                              SDXLでコピー機学習法を試す|Kohya S.
                                            • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

                                              以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

                                                StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
                                              • 西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ

                                                西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ ライター:西川善司 去る9月2日,NVIDIAは,オンラインイベント「GeForce Special Event」を行い,新世代GPU「GeForce RTX 30」シリーズを発表した。発表となったGPU製品は「GeForce RTX 3090」「GeForce RTX 3080」「GeForce RTX 3070」の3種類で,2018年8月に発表となった「GeForce RTX 20」シリーズの後継製品となる。 本稿では,GeForce RTX 30シリーズのアーキテクチャについて詳しく解説してみよう。 Ampere世代のGPUアーキテクチャを検証する Ampere初のGPUである「GA100」を搭載するモジュール 今回発表となったGeForce R

                                                  西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ
                                                • 第55回 Top500の1位は理研の富岳スパコン、Green500はPFNのMN-3が獲得

                                                  デジタル開催となったHPCに関する国際会議「ISC2020」において、スーパーコンピュータ(スパコン)の性能ランキングである「第55回 Top500」が発表された。1位は理化学研究所(理研)のスパコン「富岳」で、LINPACK性能は415.53PFlopsである。そして、消費電力性能を示すランキング「Green500」の1位は日本のPreferred Networks(PFN)の「MN-3」というシステムが、21.108GFlops/Wとぶっちぎりの効率で1位となっている。 何はともあれ、Top500の1位とGreen500の1位を日本が獲得したのは喜ばしいことである。 Top500の1位を獲得した富岳スパコンとは? 富岳は日本のフラグシップスパコンとしては初めてArm8.2-A SVEアーキテクチャを採用している。次の図は富岳に使われているA64FX CPUのチップ写真で、48コアと2個

                                                    第55回 Top500の1位は理研の富岳スパコン、Green500はPFNのMN-3が獲得
                                                  • 西川善司の3DGE:IntelのノートPC向けGPU「Arc」とはいかなるGPUなのか。性能から機能までをひもといてみた

                                                    西川善司の3DGE:IntelのノートPC向けGPU「Arc」とはいかなるGPUなのか。性能から機能までをひもといてみた ライター:西川善司 既報のとおり,Intelは,単体GPU製品「Intel Arc」(以下,Arc)シリーズを発表した。 Intelが2020年に発表した「Iris Xe MAX」は,同社が,Intel 740(i740)をリリースした1998年以来,22年ぶりにリリースした単体GPU(Discrete GPU)だった。その進化版となるGPUが,今回のArcである。 発表イベント前に行われた技術説明会では,Arcに関する詳しい解説が行われたので,考察も交えて詳細に見ていきたい。 ArcシリーズはACM-G10とACM-G11の2種類が存在 Arcの開発コードネームは,もともと第2世代単体GPU(Discrete Graphics 2nd)の意味である「DG2」だったが(

                                                      西川善司の3DGE:IntelのノートPC向けGPU「Arc」とはいかなるGPUなのか。性能から機能までをひもといてみた
                                                    • The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

                                                      Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-t

                                                      • ハードウェアの速度をどう評価するか考える(2) ~メモリ、メモリ律速~ - arutema47's blog

                                                        前回のあらすじとこの記事の目的 前編: ハードウェアの速度をどう評価するか考える(1) ~クロック、OPS~ 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めることです。 本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 しかし前編は子供が起きたので前編は演算速度だけで終わってしまった! 今回は起きる前にメモリ律速まで書くぞ! アチアチのGPUお待ち! 前回のあらすじとこの記事の目的 メモリ律速 メモリが重要なワケ GPUから読み解くメモリバンド幅 ルーフラインモデル Further comments TPU vs GPU FP16, BF16, TF32などの低精度Mixed Precision学習 メモリ律速 脱線したが本線のメモリ

                                                          ハードウェアの速度をどう評価するか考える(2) ~メモリ、メモリ律速~ - arutema47's blog
                                                        • Google Colab で LLaMA-Factory を試す|npaka

                                                          「Google Colab」で「LLaMA-Factory」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。 サポートするモデルは、次のとおりです。 サポートする学習法は、次のとおりです。 サポートするデータセットは、次のとおりです。 事前学習データセット ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Wikipedia (en) ・Wikipedia (zh) ・Pile (en) ・SkyPile (zh) ・The Stack (en) ・StarCoder (en) SFTデータセット ・Stanford

                                                            Google Colab で LLaMA-Factory を試す|npaka
                                                          • 新型コロナの「中等症」 入院の優先度はどのように決められているか(倉原優) - エキスパート - Yahoo!ニュース

                                                            増える「中等症」芸能界でも新型コロナの人が増えており、入院を余儀なくされているケースが時折報道されます。「芸能人だから優先的に入院できる」「お金をたくさん持っているから高い個室に入れた」などといった辛辣なコメントも見かけます。 大量の酸素投与が必要な重症化しつつある患者さんや、せん妄で大声を上げる患者さんなどのために個室を準備している病院もあります。しかし、コロナ病棟には通常差額ベッドの個室はありませんし、保健所などが医学的に入院を必要とする患者さんを優先的に選択しています。 入院に至る人の多くが中等症であるため、報道されている芸能人のケースも早期に治療介入が必要な「中等症」の状態だったと思われます。たとえ、20~30代であっても、この場合入院適応となることが多いのです。 デルタ型変異ウイルスが感染拡大に影響する中、新型コロナの「中等症」の患者さんが増えています。さて、ここで「中等症」につ

                                                              新型コロナの「中等症」 入院の優先度はどのように決められているか(倉原優) - エキスパート - Yahoo!ニュース
                                                            • 「FINISH」のはずが「FUNISH」に…… 東京マラソンTシャツに「まさかの表記ミス」、アシックス謝罪「深くお詫び」(ねとらぼ) - Yahoo!ニュース

                                                              3月3日に行われる「東京マラソン2024」を記念して販売されたTシャツに、英語のスペルを間違えたままデザインされたものがあったとして、販売した大会オフィシャルパートナーのアシックスは公式サイト上で謝罪しました。 【画像】表記ミスがあったTシャツを見る 返品希望者に ミスが発覚したのは、アシックスがオンラインストアなどで販売していた東京マラソン2024仕様のTシャツ(ホワイト、ブラック、ネイビーの3色)。背中には東京マラソンのコースがデザインされていましたが、ゴール地点を意味する「FINISH」のつづりが「FUNISH」になっていたものがあったといいます。 アシックスは「対象商品をお買い上げいただきましたお客様には、大変ご迷惑をおかけいたしますこと、深くお詫び申しあげます」と謝罪。返金希望者には、同社の返品受付フォームなどを通じて返金を受け付けるとしています。

                                                                「FINISH」のはずが「FUNISH」に…… 東京マラソンTシャツに「まさかの表記ミス」、アシックス謝罪「深くお詫び」(ねとらぼ) - Yahoo!ニュース
                                                              • Stable Diffusion TPU版の使い方 - 電通総研 テックブログ

                                                                電通国際情報サービス、オープンイノベーションラボの比嘉康雄です。 Stable Diffusion(というよりdiffusers)でTPU(JAX / Flax)を使った並列実行バージョンがリリースされたので、早速試してみました。 オリジナルのNotebookはこちら。 僕が作ったNotebookはこちら。 今回は、TPUを使うので、Google Colabに特化しています。自分で1から試す方は、メニューのEdit -> Notebook settingsでTPUを使うように設定してください。 Stable Diffusionのおすすめコンテンツはこちら。 Waifu Diffusion 1.3.5_80000 v2.1 金髪美女写真 v2.1 美少女アニメ画 v2.1 AUTOMATIC1111 v2.0 美少女イラスト v1.5 美少女画検証 美少女アニメ画改善版 美少女を高確率で出す

                                                                  Stable Diffusion TPU版の使い方 - 電通総研 テックブログ
                                                                • Stable Diffusion (Diffusers)でLoRA~理論と実践~ | Shikoan's ML Blog

                                                                  Stable DiffusionでのLoRAをdiffusersで試してみます。3Dモデルに対して、Unityで透過スクショを撮りLoRAで学習させるというよくあるやり方ですが、LoRAにおけるData Augmentationの有効性など興味深い点が確認できました。 はじめに 前々から気になっていたStable DiffusionのLoRAを使ってみました。3DモデルからスクショをとってLoRAで学習させるという「何番煎じだお前」って手法ですが、なかなかおもしろい結果になりました。 公式ドキュメント:https://huggingface.co/docs/diffusers/training/lora LoRAとは LoRAってよく使われる割には原著論文がそこまで解説されない気はします笑 (自分はNLPの専門家ではないので、この論文はさーっとしか読んでいませんが、 )原著論文はこちらで、

                                                                    Stable Diffusion (Diffusers)でLoRA~理論と実践~ | Shikoan's ML Blog
                                                                  • 西川善司の3DGE:Ryzen 7000を支えるZen 4アーキテクチャのすべて。CPUコアに加えられた細かい改良とI/Oダイの見どころをひもとく

                                                                    西川善司の3DGE:Ryzen 7000を支えるZen 4アーキテクチャのすべて。CPUコアに加えられた細かい改良とI/Oダイの見どころをひもとく ライター:西川善司 AMDのデスクトップPC向け新世代CPUである「Ryzen 7000」シリーズのレビュー公開に合わせて,アーキテクチャに関する詳細情報が解禁となった。そこで本稿では,Ryzen 7000のアーキテクチャである「Zen 4」について解説したい。 なお,Ryzen 7000のラインナップや,主なスペック,基本的な設計方針といった概略は,8月30日掲載のニュースで紹介済みなので,概要を知りたい,あるいはRyzen 7000の基礎情報を知らないという人は,そちらを最初に参照してほしい。 Zen 4とはどういったCPUなのか Ryzen 7000が採用するZen 4コアのCPUダイ(CPU Complex Die,以下 CCD)は,T

                                                                      西川善司の3DGE:Ryzen 7000を支えるZen 4アーキテクチャのすべて。CPUコアに加えられた細かい改良とI/Oダイの見どころをひもとく
                                                                    • 自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】

                                                                      まとめ LLMのファインチューニングにおいて、データセットは重要なものとなりつつある 以前までは人力で作る必要があったが、プロンプトが効く7Bモデル(Calm2-chat)を用いることで、LLMでファインチューニング用データセットを作ることができる データセットを作成しつつ、動的にプロンプトを修正していく手法が相当よかった 導入 LLMのファインチューニングには、大量のデータセットが必要です。良く言われているのは「少なくとも数百~数千はあった方が良い」というものです。翻訳など、皆が使うであろうようなタスクのデータセットは存在する一方で、「女の子の日記をLLMで作りたい」のような、完全に自分の癖に従ったようなデータセットは基本的には存在しません。一から自分で作っても良いのですが、人間の時間とやる気は有限なため、かなり無謀な挑戦と言えるでしょう。 この作業にLLMを用いることで、労力を最小限ま

                                                                        自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】
                                                                      • 「梅澤さんがカンバンで、Fが実質的な経営者という雰囲気」元バイトAKBラーメン店主・梅澤愛優香と同居する40代男性の関係(文春オンライン) - Yahoo!ニュース

                                                                        《国産と謳う海老がインドネシア産》元バイトAKB・梅澤愛優香(24)のラーメン店「麺匠 八雲」で“産地偽装”問題が発覚 から続く 【画像】元バイトAKB梅澤愛優香記事の写真を全部見る(40枚) セクハラ、中傷を理由に一部のラーメン評論家を“出禁”にした騒動や、殺害予告など元バイトAKBの梅澤愛優香(24)が店主を務めるラーメン店「麺匠 八雲」の周辺が騒がしい。(全3回の2回目/ 前編を読む ) 地下アイドル時代の事務所経営者 梅澤は今年の4月に自叙伝「ラーメン女王への道」(さくら舎)を出版した。バイトAKBを卒業後、「麺匠 八雲」「沙羅善」開店から現在までの経緯が記されている。だが、この著書には、「麺匠 八雲」の実質的な創業者で、梅澤と二人三脚で店を支えてきたFという40代の男性の存在は一切触れられていない。 F氏は、名古屋の芸能事務所「シンデレラプロモーション」の運営メンバーである。梅澤

                                                                          「梅澤さんがカンバンで、Fが実質的な経営者という雰囲気」元バイトAKBラーメン店主・梅澤愛優香と同居する40代男性の関係(文春オンライン) - Yahoo!ニュース
                                                                        • AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎ

                                                                          Googleの研究者らは2023年4月、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表。これをメディアが「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと報じたが、それは誇張しすぎといえる。 Googleの研究者らは2023年4月4日(米国時間)、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表した。論文の中で研究者らは、同チップと市場をリードするNVIDIAのGPUを比較している。複数のメディアがこれについて報道していて、中でもCNBCは「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと伝えている。 論文では、研究者らはTPU v4がNVIDIAの現行世代のフラグシップAIアクセラレーター「H100」をしのいでいるとは主

                                                                            AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎ
                                                                          • 2PFLOPS超えのGPGPUを開発した、中国新興企業

                                                                            2022年8月21~23日にオンラインで開催された「Hot Chips」において、中国の新興企業Biren Technology(以下、Biren)がステルスモード(製品や開発の中身を明らかにしないこと)を脱し、データセンターにおけるAI(人工知能)学習と推論向けの大型汎用GPU(GPGPU)チップの詳細を明らかにした。同社の「BR100」は、TSMCの7nmプロセス技術に基づく537mm2のチップレット2つで構成されている他、CoWoS(Chip on Wafer on Substrate)パッケージに4つのHBM2eを積層している。 チップレット構成でコスト削減&高性能化 2022年8月21~23日にオンラインで開催された「Hot Chips」において、中国の新興企業Biren Technology(以下、Biren)がステルスモード(製品や開発の中身を明らかにしないこと)を脱し、デー

                                                                              2PFLOPS超えのGPGPUを開発した、中国新興企業
                                                                            • 生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久) | テクノエッジ TechnoEdge

                                                                              画像生成AI「Stable Diffusion」の基本から最新テクニックまで。グラビアカメラマンが教える、生成AIグラビア実践ワークショップ(第5回)参加者募集 | テクノエッジ TechnoEdge 後処理でアナログ写真っぽく=ProPost前回標準のWorkflowにLoRAを追加してみたが、今回は画像が出来た後、つまり後処理用のNodeを追加してみたい。 好みにもよるだろうが、筆者の場合、Promptでアナログフィルム固有のノイズ(Grain)を乗せたり、モノクロ化せず、Photoshopなどを使い処理することが多い。これをNodeで対応できるのが、ご紹介するProPostだ。 機能的には、GrainとVignette。どちらも独立したNodeになっているので、Grainした後にVignetteすることも可能。 インストール方法は簡単で、Manager > Install Custo

                                                                                生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久) | テクノエッジ TechnoEdge
                                                                              • テスラが最大362TFLOPSのASIC「D1」を搭載するAIトレーニング用スパコン「Dojo」を発表 - GIGAZINE

                                                                                電気自動車による自動運転システムを開発するテスラが、AIについての発表イベント「AI Day」で、AI学習用のカスタムASIC(特定用途向け集積回路)である「D1」を発表しました。このASICはテスラが開発中のスーパーコンピューターである「Dojo」に組み込まれ、2022年に稼働を開始する予定です。 Tesla AI Day presentation streaming live from https://t.co/shRnZSwgd4 at 5pm Pacific today— Tesla (@Tesla) Tesla unveils Dojo D1 chip at AI Day https://www.cnbc.com/2021/08/19/tesla-unveils-dojo-d1-chip-at-ai-day.html Tesla Packs 50 Billion Transist

                                                                                  テスラが最大362TFLOPSのASIC「D1」を搭載するAIトレーニング用スパコン「Dojo」を発表 - GIGAZINE
                                                                                • 大規模言語モデルを動作させる時に必要なVRAMの使用量を推定してくれる「VRAM Estimator」

                                                                                  大規模言語モデルを動作させるには、演算処理にGPUを使用するため、グラフィックスメモリ(VRAM)の容量が重要になります。「VRAM Estimator」はさまざまなモデルで必要となるVRAMの容量をシミュレーションで予測するウェブアプリです。 VRAM Calculator https://vram.asmirnov.xyz/ VRAM Estimatorにアクセスするとこんな感じ。 左上の「Running Parameters」で演算内容を指定します。Inference(推論)の場合、Precision(精度)でbf16/fp16か、fp32を選択し、Sequence Length(シークエンス長)・Batch Size(バッチサイズ)・Number of GPUs(GPU数)を指定できます。 Training(学習)の場合、Precisionで「mixed(混合精度)」か「full(

                                                                                    大規模言語モデルを動作させる時に必要なVRAMの使用量を推定してくれる「VRAM Estimator」