並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 148件

新着順 人気順

ディープラーニングの検索結果41 - 80 件 / 148件

  • 独断と偏見でまとめる2024年10月現在ゼロから学んで今から生成モデルをコーディングできるために必要な知識集 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 所属大学にて9月に1日で機械学習なんもわからん状態から生成モデルを組めるようになろうというワークショップをした。普通に考えて参加者側の視点に立ったら無理なんだが, まあとにかくそういうイベントをやった。やってみたところ, 「何話してるのかわからん」という感想が多く大絶賛だった(反省しています)。 ただワークショップ中にきた質問が結構自分も最初のころは躓いたところだな〜〜というものも多く, ワークショップ中にきた質問点をまとめていけば案外生成AIをフルスクラッチで作れる技術者になるためのTips集が作れるのではないかと思い, この記事を書

      独断と偏見でまとめる2024年10月現在ゼロから学んで今から生成モデルをコーディングできるために必要な知識集 - Qiita
    • ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言

      共和党大統領予備候補のドナルド・トランプ氏が、中国系ソーシャルメディアアプリのTikTokをアメリカで全面的に禁止しようとする動きについて懸念を表明しました。これは、議会が可決すれば禁止法案に署名すると述べたジョー・バイデン大統領の見解とは対照的です。 Trump says TikTok ban would empower Meta, slams Facebook https://www.cnbc.com/2024/03/11/trump-says-a-tiktok-ban-would-empower-meta-slams-facebook-as-enemy-of-the-people.html TikTok ban: House vote set for Wednesday morning https://www.axios.com/2024/03/11/tiktok-ban-congr

        ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言
      • 夏休みなのでニューラルネットワークの勉強をした - ポルノアニメ

        お久しぶりです。AIが流行ってますね。AI、AI、猫も杓子もAI。ボヤボヤしてると後ろからバッサリだ。 私の普段の仕事は地理情報の可視化、というか具体的に言うとLeafletを拡張して独自のレイヤを作ったりみたいなことをやっているのですが、オフィスに(たまに)行くとAIが何だGPTがどうだという話になっており、もうそろそろAIから逃げられない情勢になってきました。 ということで、去年あたりから知人のフバさん(人の名前です)が推薦していた本「深層学習」でぼちぼちニューラルネットワークの勉強をしていました。 ↑これがフバさんです。異常なシャツを着ていますが彼は機械学習のエキスパートです。 *1 ↑ちなみにこれは私です。 まあそれはさておき 実は学生時代に講義でNNやバックプロパゲーションを教わった筈なんですが、よく分からないまま終わってしまったんですよね。確かExcelでやらされたんですよ。当

          夏休みなのでニューラルネットワークの勉強をした - ポルノアニメ
        • ウォンテッドリーのプロダクト開発における Python の開発・運用環境

          Helping Users Find Their Own Way: Creating Modern Search Experiences

            ウォンテッドリーのプロダクト開発における Python の開発・運用環境
          • “ラズパイ5”にNPU追加できる「Raspberry Pi AI Kit」 最大13TOPSの推論性能 日本では近日販売へ

            関連記事 「Raspberry Pi 5」発表 拡張性や処理速度が向上 国内の販売時期は未定 英Raspberry Pi財団は、小型コンピュータ「Raspberry Pi 5」シリーズを発表した。英国では10月から販売予定だが、日本国内での販売時期は不明。 AI処理に適した「Copilot+ PC」、各メーカーが続々発表 ラインアップ一覧 米Microsoftは、AIアシスタント「Copilot」などAIの実行に適したWindows PCカテゴリー「Copilot+ PC」を発表した。各メーカーが6月18日以降に発売するSnapdragon搭載のCopilot+PCを紹介する。 AI対応“Copilot+ PC”でArm搭載の新「Surface Pro/Laptop」 「M3 MacBook Airより高速」とうたう性能と価格は? 要点まとめ 米Microsoftが発表した、新しい「Sur

              “ラズパイ5”にNPU追加できる「Raspberry Pi AI Kit」 最大13TOPSの推論性能 日本では近日販売へ 
            • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

              地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

                1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
              • モデルパラメータの算術 - ジョイジョイジョイ

                深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異なるパラメータベクトルとすると、 や をパラメータとして持つモデルはちゃんと機能します。本稿では、このようなモデルパラメータの算術を用いた手法とその背後にある理論について解説します。 追記: 拙著『深層ニューラルネットワークの高速化』にて本稿の内容を大幅に増補しました。本稿に興味を持った方はこちらも参照いただけると嬉しいです。 深層ニューラルネットワークの高速化 ML Systems 作者:佐藤 竜馬技術評論社Amazon 追記ここまで 目次 目次 モデルスープ タスクベクトル モデルパラメータとニューラルタンジェントカーネル おわりに モデルスープ モ

                  モデルパラメータの算術 - ジョイジョイジョイ
                • 商用無料、新作フリーフォントがリリース! 柔らかで穏やかな、紙面を彩る見出し用ゴシック体「紙モノゴシック」

                  「晩秋レトロミン」「筆竹仮名B」などのフリーフォントをリリースされている二人組ユニット「すずみばと書林」から、新作フリーフォントがリリースされました。 今回は、印刷での使用を目的にデザインされた「紙モノゴシック」 とは言え、もちろんスクリーン、Webデザインやスマホアプリやゲームに使用してもOKで、しっかりとその存在感を残すフォントです。

                    商用無料、新作フリーフォントがリリース! 柔らかで穏やかな、紙面を彩る見出し用ゴシック体「紙モノゴシック」
                  • 『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

                    問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。レビューに貢献していただいた方には、感謝の印として、本書に名前を記載させていただく予定です(もちろん、同意のある方のみです)。下記のように、レビューアの方の名前をクレジットとして掲載する予定です。 左は『ゼロから作るDeep Learning ❷』、右は中国語に翻訳された『Deep Learning 2』なお、本のタイトルに「❺」とありますが、前作までの知識がなくても読める内容になっています。前提条件としては、Pythonと数学の基本的な知識が必要になります。数式も多く登場します。ちなみに、本書の概要は次のとおりです。 人気シリーズの第5弾。今回のテーマは「生成モデル」です。本書では「正規分布」から「拡散モデル」に至るまでの技術を繋がりのあるストーリーとして展開します。読者は小さな学びを積み重ねながら、ステップバイ

                      『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
                    • Magika

                      • AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説

                        チャットAI「Claude」などを開発するAI企業「Anthropic」がAIモデルの内部動作について、何百万もの概念がどのように表現されているかという研究結果を報告しました。 Mapping the Mind of a Large Language Model \ Anthropic https://www.anthropic.com/research/mapping-mind-language-model AIモデルの本体である大規模言語モデル(LLM)の出力はブラックボックスとして扱われており、入力に対応して出力が行われた時になぜその特定の応答が出力されたのかは不明となっています。そのため、モデルが有害・偏見・ウソなどの危険な出力をしないことを信頼するのは難しいものです。 Anthropicは以前よりLLMの内部についての研究を行っており、2023年10月には「特徴」単位でまとめるこ

                          AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説
                        • GPTを生んだ先端技術「Transformer」、その基礎を正しく理解する

                          対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。 すっかり市民権を得た対話型AIサービス「ChatGPT」。ChatGPTで用いられている自然言語モデルが「GPT」(Generative Pre-trained Transformer)です。いわゆる「大規模言語モデル」(LLM:Large Language Model)の1つであり、本稿執筆時点(2023年12月)の最新バージョンは「GPT-4 Turbo」です。バージョンを追うごとに、精度向上などの進化を遂げてきました。 このGPTの核となるディープラーニング(深層学習)のモデルが「Transformer」です。前述のGPTの正式名称を見直すと、「T」はTransformerのTであることがわかります。このネ

                            GPTを生んだ先端技術「Transformer」、その基礎を正しく理解する
                          • からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)

                            はじめに 今回始めて松尾研LLMコミュニティの初心者向け講座"Begginning LLM"の第一回に参加しました! 1~2ヶ月に1回ほど開催される連続講座のようでChatGPTで遊んだことあるけど本格的にLLMのこと知りたい!けど何からはじめていいのか分からないという人にぴったりの講座だと感じました。 この講座内容のすべては以下のYoutubeで公開されています。 今回のセミナーの中では松尾研所属のからあげさんが2つのユニットのセミナーを行っていました。 この記事ではからあげさんから学んだことを思ったままに書いていきます。 からあげさんはここがすごいぞ みなさんからあげさんのセミナーがとても気になって受講された方が多いんじゃないかな?と思いました。 もちろん、わたしも松尾研LLMでのからあげさんのご活躍が見たくて申し込みました!!! 約100枚の圧倒的スライド数 まず、すごいボリュームの

                              からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)
                            • PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載

                              Modular社がAI処理を高速化するプラットフォーム「MAX」をプレビュー公開。PyTorchやTensorFlow、ONNXなどのAIモデルと入れ替えるだけで処理が最大5倍高速になる。 Pythonの高速なスーパーセット「Mojo」言語を発表したことで話題となったModular社が、AI処理を高速化するプラットフォーム「MAX」(Modular Accelerated Xecution)のデベロッパーエディションをブレビュー公開しました。 MAX Developer Edition Preview has officially launched! It's a drop-in replacement for running and serving @PyTorch, @tensorflow and @onnxai models much faster and leverages the

                                PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載
                              • ニューラルネットのレコメンドをメモ化して高速にする - エムスリーテックブログ

                                こんにちは、AI・機械学習チーム(AIチーム)の農見(@rookzeno)です。最近作ったニューラルネットのレコメンドが遅くて困ってました。その時ふと推論してるデータを見ると、これ同じユーザーとアイテムが多発してるなと気づいたので、メモ化をして高速化しました。メモ化して高速化は基礎の基礎ですが、ニューラルネットでやってるのはあまり見ないかなと思ったので、今回はそのやり方について記載します。 DALL-Eでサムネを作成 この記事はエムスリーAI・機械学習チームで2週間連続で行われるブログリレー2日目の記事です。昨日の記事もよろしくお願いします。 www.m3tech.blog 使っているモデルについて コード メモ化したコード 感想 We're hiring! 使っているモデルについて よくあるユーザーベクトルとアイテムベクトルを作成して、concatして推論するモデルです。 よくあるレコメ

                                  ニューラルネットのレコメンドをメモ化して高速にする - エムスリーテックブログ
                                • 本家Examplesで知る、新たなニューラルネットワーク『KAN』の威力 - Qiita

                                  文中の図は理がない限り、原論文あるいはドキュメントからの引用です。 KANってなに? KAN(Kolmogorov-Arnold Networks) は2024年4月30日にプレプリント公開サイトarXivに投稿された論文 にて提案された従来のMLPとは異なる新たなニューラルネットワーク構造です。1 コルモゴロフ・アーノルド表現定理(Kolmogorov-Arnold representation theorem)に基づいて設計されており、非線形な活性化関数そのものを直接学習することから、パラメータ効率が良く、学習結果の解釈可能性が高いことが特徴です。 上の画像は$x, y$を入力として$\exp(\sin(\pi x)+y^2)$を正解として学習させるケースを示した図ですが、元の関数の関係性がそのまま活性化関数の形状として学習され現れていることが読み取れます。 コルモゴロフ・アーノルド表

                                    本家Examplesで知る、新たなニューラルネットワーク『KAN』の威力 - Qiita
                                  • 継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development

                                    この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n

                                      継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
                                    • Video generation models as world simulators

                                      We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Ou

                                        Video generation models as world simulators
                                      • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

                                        AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

                                          PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
                                        • AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」

                                          AIの研究開発は急速に進んでおり、「そろそろAIについて勉強しないとな」と考えている人も多いはず。Amazonが無料公開している教材「MLU-Explain」ではニューラルネットワークの基礎が分かりやすいイラストやアニメーション付きで解説されています。 MLU-Explain https://mlu-explain.github.io/ MLU-Explainは機械学習の重要な概念をイメージ画像やアニメーションを使って分かりやすく解説する教材で、「ニューラルネットワークの基礎」「機械学習モデルからバイアスを取り除く方法」「ロジスティクス回帰の基礎」「線形回帰の基礎」などを学べます。 例えば、ニューラルネットワークの解説ページは「ニューラルネットワークは、『ニューロン』と呼ばれる相互接続された計算ノードが層状に積み重なって構成されるネットワークである」という基本的な概念の説明で始まり、ニュー

                                            AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」
                                          • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                            はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                              既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                            • 第288回 人工知能時代には必須か? 最近、プロセッサに搭載されている「NPU」って何

                                              最近、プロセッサに「NPU」と呼ばれる人工知能(AI)処理に特化したユニットが搭載されるのがちょっとしたブーム(?)になっている。このNPUって、GPUなどと何が違うのか、なぜプロセッサに搭載されるようになってきたのか解説しよう。 プロセッサに搭載されている「NPU」って何? Intelの最新プロセッサ「Core Ultra」には、人工知能(AI)処理に特化した「NPU」が搭載されている。NPUは、スマートフォン向けのプロセッサにも搭載が進んでいる。ところで、このNPUはCPUやGPUと何が違うのだろうか? 写真は、Intelのプレスリリース「AI PCの新時代の到来を告げるインテル Core Ultra プロセッサー」のCore Ultraプロセッサーの写真を使って、「CPU」「GPU」「NPU」の文字を載せたもの。 今回のお題は「NPU」である。出だしから注釈になってしまうが、NPUと

                                                第288回 人工知能時代には必須か? 最近、プロセッサに搭載されている「NPU」って何
                                              • 機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」

                                                大規模言語モデルや画像生成AIなどの機械学習モデルでは、ファインチューニングやLoRA(Low Rank Adaptation)といった手法によって、モデルの重みを微調整し、特定のタスクや目的に沿った出力を行うようにカスタマイズすることができます。香港科技大学の研究チームが、LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」を発表しました。 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation https://arxiv.org/abs/2402.09353 Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch https

                                                  機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」
                                                • 世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT

                                                  ◆深層学習において、過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術を実現しました。 ◆本技術は、深層学習におけるパラメータ空間の高い対称性を活用し、実際に学習することなく低コストな変換により数秒~数分程度で一定の精度を実現できるため、モデルの再学習コストを抜本的に削減できることを示しました。 ◆これにより、NTTが研究開発を進める大規模言語モデル(LLM)「tsuzumi(*1)」をはじめとした多様な基盤モデル(*2)の運用コスト削減・消費電力の削減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーション(*3)の構想具現化など、次世代のAI技術開発に貢献します。 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、深層学習において過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術

                                                    世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT
                                                  • Google CloudとHugging Faceが提携 AI開発者にH100などのパワーを提供へ

                                                    米GoogleのクラウドサービスGoogle Cloudは1月25日(現地時間)、オープンソースのAI開発プラットフォームを手掛ける米Hugging Faceと「生成AIおよびML開発を加速する戦略的パートナーシップ」を結んだと発表した。開発者はGoogle Cloud上でオープンモデルを迅速かつコスト効率よくトレーニング、調整、提供できるようになるとしている。 Hugging Faceを利用する開発者は、プラットフォームから数回クリックするだけでGoogle CloudのVertex AIを使ってモデルをトレーニングできるようになり、モデルのトレーニングと微調整を支援するGoogle Kubernetes Engine(GKE)も使えるようになる(2024年前半)。 Google Cloudでは、米NVIDIAのH100 TensorコアGPU搭載のA3 VMのサポートが追加される見込み

                                                      Google CloudとHugging Faceが提携 AI開発者にH100などのパワーを提供へ
                                                    • 日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料

                                                      iCAST 2020 Invited Talk: Fairness in AI Service and Awareness for Computational Social Science

                                                        日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料
                                                      • Microsoft、生成AIの開発を加速する128コアのArm CPU「Cobalt」とAIアクセラレータ「Maia」

                                                          Microsoft、生成AIの開発を加速する128コアのArm CPU「Cobalt」とAIアクセラレータ「Maia」
                                                        • Apple・Google・Microsoft・Mozillaが協力して開発するベンチマークツール「Speedometer 3.0」が登場

                                                          Apple、Google、Microsoft、Mozillaといったテクノロジー大手が協力して開発するベンチマークツール「Speedometer 3.0」が発表されました。 BrowserBench.org — Announcements https://browserbench.org/announcements/speedometer3/ Improving Performance in Firefox and Across the Web with Speedometer 3 - Mozilla Hacks - the Web developer blog https://hacks.mozilla.org/2024/03/improving-performance-in-firefox-and-across-the-web-with-speedometer-3/ Speedomet

                                                            Apple・Google・Microsoft・Mozillaが協力して開発するベンチマークツール「Speedometer 3.0」が登場
                                                          • GitHub - google/magika: Detect file content types with deep learning

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - google/magika: Detect file content types with deep learning
                                                            • 自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

                                                              PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。 動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。 概略 おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。 盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。 盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。 三目並べの

                                                                自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita
                                                              • 大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)

                                                                本記事は、LLM Advent Calendar 2023 13日目の記事です。 はじめに 🤗 Transformersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル(LLM)の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transformersライブラリを使用したLLMの事前学習に関する情報

                                                                  大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)
                                                                • AMDがNVIDIAのCUDA対抗を目指して新GPUアーキテクチャ「UDNA」を開発中

                                                                  AMDが2024年9月6日からドイツ・ベルリンで開催されている国際コンシューマ・エレクトロニクス展(IFA 2024)において、一般ユーザー向けGPUとデータセンター向けGPUの双方で使えるアーキテクチャ「UDNA」を開発中であることを発表しました。これにより、NVIDIAのCUDAエコシステムと同様の統合が実現し、ラップトップからデータセンターまで、あらゆる場所でアプリケーションを実行できるようになります。 AMD announces unified UDNA GPU architecture — bringing RDNA and CDNA together to take on Nvidia's CUDA ecosystem | Tom's Hardware https://www.tomshardware.com/pc-components/cpus/amd-announces-u

                                                                    AMDがNVIDIAのCUDA対抗を目指して新GPUアーキテクチャ「UDNA」を開発中
                                                                  • なぜゲイリー・マーカスはAGI早期実現に否定的なのか|ララどり

                                                                    Gary Marcus本題に入る前に、ゲイリー・マーカスについて簡単に振り返っておきたい。 Gary Fred Marcus(1970年生まれ54歳)は、認知科学と人工知能の第一人者である。23歳でマサチューセッツ工科大学から博士号を取得、現在はニューヨーク大学の心理学および神経科学の名誉教授であり、人間の言語発達や認知神経科学に関する研究で知られている。彼は作家としての顔も持ち、ベストセラー「Guitar Zero」(2012年)を含む5冊の著書を執筆している。「The Algebraic Mind」(2001年)では、現在のAIシステムが直面するハルシネーション問題を予見している。また、機械学習会社であるGeometric Intelligenceの創設者兼CEOとなり、同社は2016年にUberに買収された[1]。 以上がマーカス氏の略歴であるが、シンギュラリタリアンである私にとって

                                                                      なぜゲイリー・マーカスはAGI早期実現に否定的なのか|ララどり
                                                                    • Cerebras、「NVIDIAのGPUベースより20倍高速」謳うAI推論サービス提供開始

                                                                      米Cerebras Systemsは8月27日(現地時間)、AI開発者が同社のシステムにアクセスしてアプリを実行できるようにするAI推論ソリューション「Cerebras Inference」を発表した。「米NVIDIAのGPUベースのハイパースケールクラウドより20倍高速」で、はるかに安価だとしている。 Llama3.1 8Bで1秒当り1800トークン、Llama3.1 70Bで1秒当り450トークンを提供し、価格はLama 3.1 8Bで100万トークン当り10セント、Llama 3 70Bで100万トークン当り60セント。 Cerebrasは発表文で、NVIDIAなどのGPUシステムが推論に向かない理由を説明し、自社のシステムは「世界最大のチップを構築し、モデル全体をオンチップに保存することで、メモリ帯域幅のボトルネックを解決する」ことで、GPUのような遅延を解消したと主張する。

                                                                        Cerebras、「NVIDIAのGPUベースより20倍高速」謳うAI推論サービス提供開始
                                                                      • 「米国がAI市場も支配する」という構図を阻むフランス新興企業の挑戦 | パリ拠点の「ミストラルAI」がシリコンバレーの巨人に挑む

                                                                        昨年の今ごろ、アーサー・メンシュ氏は30歳で、まだ米グーグルの傘下部門に勤めていた。当時は人工知能(AI)がSF以上のものとして人々の意識に定着し始めたころだった。 それ以降、人間のような会話だけでなく推論さえもできる生成AIは、ここ数十年で最も話題となった技術的ブレークスルー(画期的発明)となった。そして、メンシュ氏がグーグル退職後に立ち上げたスタートアップ企業「ミストラルAI」は、設立から9ヵ月で評価額が20億ドル(約3000億円)強に達している。 こうした変化の速さは、高度なAIシステムの構築および商業化に向けた活動を取り巻く熱狂──そして恐怖──を反映している。

                                                                          「米国がAI市場も支配する」という構図を阻むフランス新興企業の挑戦 | パリ拠点の「ミストラルAI」がシリコンバレーの巨人に挑む
                                                                        • 拡散モデルとは?Stable Diffusionなど「画像生成AIの学習モデル」をわかりやすく解説

                                                                          画像生成AIの存在はすでに当たり前のものになりつつあります。広告やメディアに掲載されているイラストや写真のほか、私たちが普段使っている検索エンジンやブラウザにも搭載されるようになり、気軽に新しい画像を作れるようになりました。このような画像生成AIの急速な普及の背景にあるのが、画像生成AIの学習モデルに採用された「拡散モデル」の存在です。現在、ほとんどの画像生成AIサービスに採用されている「Stable Diffusion」もこの拡散モデルの1つです。本記事では、拡散モデルとは何か、仕組みや事例についてやさしく解説していきます。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・

                                                                            拡散モデルとは?Stable Diffusionなど「画像生成AIの学習モデル」をわかりやすく解説
                                                                          • MN-Core Challenge #1 で優勝しました 【問題解説付】 - prime's diary

                                                                            2024/8/28 - 2024/9/23 に開催されたプログラミングコンテストMN-Core Challenge #1に参加し、なんと優勝することができました! この記事ではコンテストの振り返りと各問題に対する自分の解法の簡単な解説を行います。 MN-Coreについて 概要 MN-CoreシリーズはPreferred Networksが開発しているアクセラレータで、高いピーク性能・電力効率を実現するためかなり割り切った設計になっています。 数千個あるPEがすべて同期して動作する、条件分岐やループといった命令は存在しない、などの特徴により、動作がほぼすべて決定的*1という特徴があります。 ループや条件分岐がないため、繰り返し動作はその回数分だけ命令を並べることになります。 この特徴により、実行時間がほぼ命令数に比例することになります。逆に、命令数を減らせればそれだけ短時間で計算が完了するこ

                                                                              MN-Core Challenge #1 で優勝しました 【問題解説付】 - prime's diary
                                                                            • ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習

                                                                              ロボット工学セミナー:「ロボットのためのLLM・VLM 利活用」 2024年5月23日 ⾃⼰教師あり学習は,ラベルなしデータを⽤いた事前学習法である.⾃⼰教師あり学習では,データから正解ラベルを⾃動で作成できるプレテキストタスクにより事前学習を⾏い,様々な下流タスクに効果的な特徴表現を獲得する.…

                                                                                ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習
                                                                              • 「言語を一般化する人間のような能力を持つニューラルネットワーク」の登場によりAIに革新が起こる可能性

                                                                                言語における「一般化」を人間のように行えるニューラルネットワークの開発に成功したことが、2023年10月25日に科学誌のNatureに掲載された論文で報告されました。ChatGPTのような人間と自然に対話可能なチャットボットでも、言語の一般化は非常に難しいため、このニューラルネットワークの登場により対話型AIのさらなる進化が見込めると科学誌のNatureが指摘しました。 AI ‘breakthrough’: neural net has human-like ability to generalize language https://www.nature.com/articles/d41586-023-03272-3 Chatbots shouldn’t use emojis https://www.nature.com/articles/d41586-023-00758-y 人間は言語

                                                                                  「言語を一般化する人間のような能力を持つニューラルネットワーク」の登場によりAIに革新が起こる可能性
                                                                                • ジェフリー・ヒントンが「AIは考え、理解している」という根拠 | 「AIのゴッドファーザー」による怒りの黙示録

                                                                                  ヒントンの教え子が進める「スーパーアラインメント」 われわれはいまいったい何をするのか──それが大きな疑問だ。 2023年10月、ヒントンは前に進む道を提案した。ある公開書簡で、ヒントンと23人の国際的なエキスパートは名だたるAIラボに、それぞれのシステムが確実に安全で倫理的であるようにするため、研究・開発予算の3分の1を充てることを呼びかけた。 彼らは諸政府にも、大規模AIシステムの登記簿を作り、危険な行動を見せるAIの事例報告を企業に義務づけ、内部告発者を法的に保護することなどを勧めた。 AIラボや立法者がこうした勧めを聞き入れるかどうか判断するのは時期尚早だ。だが、現在76歳のヒントンは、その先陣にはこれ以上長くは立たないだろうという事実を受け入れている。世界を救う汚れ仕事は、次世代の肩にかかっているのだ。 人類にとっていちばんの希望となるかもしれないのが、ヒントンの元教え子であるイ

                                                                                    ジェフリー・ヒントンが「AIは考え、理解している」という根拠 | 「AIのゴッドファーザー」による怒りの黙示録