並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 41件

新着順 人気順

論文解説の検索結果1 - 40 件 / 41件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

論文解説に関するエントリは41件あります。 AI論文人工知能 などが関連タグです。 人気エントリには 『Othello is Solved 論文解説 (私見) - Qiita』などがあります。
  • Othello is Solved 論文解説 (私見) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今朝起きたら、とんでもない論文を見つけました。 Othello is Solved ゲームの オセロが"解かれた(弱解決)" というのです。飛び起きました。それで、16時まで二度寝してから読みました。 注意すべきは、この論文が査読を経て公開されているわけではないこと、つまり形式上特にチェックを受けたものではないことです。ただ、タイトルからして非常に衝撃的ですので、個人的に読んでみました。この記事では、私がこの論文(およびソースコード)を読んでわかったことを、なるべくわかりやすくまとめます。随時更新します。 余談ですが、このタイトルはどう

      Othello is Solved 論文解説 (私見) - Qiita
    • 【AI動画生成】Animate Anyone 論文解説

      はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ

        【AI動画生成】Animate Anyone 論文解説
      • GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】

          GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】
        • 【論文解説】OpenAI GPT-4 を理解する

          さて、ChatGPT が非常に盛り上がっていますが、2022年11月にリリースされた ChatGPT は GPT-3.5 というモデルがベースになっています。 そして、2023年3月にはその後継モデルである GPT-4 がリリースされ、ChatGPT Plus で利用できるようになっています。(月額20$) それ以降も画像データを処理できるようになったり、個人の好みを記憶できるようになったりと色々なアップデータがあってこの先どうなるんだろうと楽しみになりますね。 今回は、もともとの GPT-4 についてしっかりと解説したいと思います。 ちょっとした対話であれば GPT-3.5 でも GPT-4 でもそこまで大きな差はないように思えますが、GPT-4 に情報抽出や分類問題などのタスクを解かせようとすると、GPT-4 の方がかなり精度が良くなっていることがわかります。 ですので、より複雑な利用

            【論文解説】OpenAI GPT-4 を理解する
          • 「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件 - CogNano Tech Blog

            2年にわたる新型コロナ研究が、学術論文として受理されました。COGNANOの前田開発部長(筆頭著者)が主導して発表した論文です。 www.nature.com 先日、京大チームからマスコミ報道をお願いし「アルパカ抗体」で拡散していただきました。 prtimes.jp www.kyoto-u.ac.jp Webニュースメディアでも沢山言及頂きました。 アルパカ抗体がコロナ全変異株に有効 京大などの研究チームが発表 - ライブドアニュース アルパカ抗体 新型コロナ全変異株に有効 京大など 2年後実用化へ - 産経ニュース アルパカ抗体が変異株を抑制 研究 - Yahoo!ニュース どのようにして2020年に(パンデミックが始まって半年以内に)万能抗体を作れていたのか、ジャーナリストから質問を受けました。簡単には「アルパカ体内で起きる免疫反応を巨大情報として取り出すことができ、計算処理によって最

              「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件 - CogNano Tech Blog
            • 報酬確率分布の変化に応じたBandit Algorithm〜論文解説:A Linear Bandit for Seasonal Environments〜 - MonotaRO Tech Blog

              はじめに MonotaROとBandit Banditの着目理由 MonotaROにBanditを導入する際の課題 A Linear Bandit for Seasonal Environments 論文概要 背景と動機 提案手法 実験 まとめ おわりに はじめに はじめまして、データサイエンスグループの岡林です。普段はbanditなどの強化学習を用いてUIの最適化に取り組んでいます。 このブログでは最近MonotaROが注目しているbanditの概要を紹介しつつ、その中でも事業特性にあったbanditアルゴリズムにフォーカスし、論文を解説します。 MonotaROとBandit Banditの着目理由 MonotaROでは、商品単位レベルでのUI最適化に取り組んでいます。例えば、商品に応じて商品ページのコンテンツ文言などを変化させ、より適切なUIを提供することに取り組んでいます。具体的に

                報酬確率分布の変化に応じたBandit Algorithm〜論文解説:A Linear Bandit for Seasonal Environments〜 - MonotaRO Tech Blog
              • Kaggleで使用される敵対学習方法AWPの論文解説と実装解説 ~Adversarial Weight Perturbation Helps Robust Generalization~

                本資料では、AWPという学習手法について、元論文と実装の解説を行っている。 AWPはモデルに敵対的な摂動を加えながら学習するという手法で、汎化能力が高まることからKaggleで人気の手法となっている。

                  Kaggleで使用される敵対学習方法AWPの論文解説と実装解説 ~Adversarial Weight Perturbation Helps Robust Generalization~
                • 「Don’t Do RAG」巨大コンテキストを活かした超高速なCAGという新手法【論文解説】

                  あけましておめでとうございます🎍 年末年始で、RAG(Retrieval-Augmented Generation) に関する記事や論文を読んでいたところ、とても挑発的なタイトルの論文に出会いました。それがDon’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasksです。 Paper: GitHub: 要するに「検索なんてせずに、必要な文書は全部まとめてロードしちゃえ」という発想のようで、実験では 最大40倍の高速化 を達成したとのこと。今回は、この論文が提案する Cache-Augmented Generation (CAG) の要点を、ざっくり解説してみます。 1. RAGとCAGの違い:そもそも何が新しいの? ■ RAG:従来のRetrieve + Generate手法 Retri

                    「Don’t Do RAG」巨大コンテキストを活かした超高速なCAGという新手法【論文解説】
                  • Apple、AIにアプリを試させてUI/UXをテスト【AI×デザイン】(論文解説) | AIDB

                    幅広いユーザにアプリを使ってもらうには Appleでは機械学習を用いて、便利な製品を世の中に提供しています。例えば、視覚障害を持つ人や視力の低い人、音が聞こえない人や聞き取りにくい人、身体運動の制限がある人などの障害を持つ人に、アクセシビリティ機能を用いて幅広いユーザをサポートしています。 アクセシビリティ機能とは、ユーザインターフェイス(UI)を説明する機能のことですが、多くのアプリにはその補助機能が備わっていません。これによって、読み上げ機能がうまく機能しなかったりする可能性があります。そのため、様々なアプリに用いることが可能なアクセシビリティ機能を実装する必要があります。 アクセシビリティ機能がすべてのアプリに対応しているわけではないという課題において、実際にどのような研究が行われているのでしょうか。Appleの研究者らの発表を紹介します。 研究者らは、CNNベースの手法を用いること

                      Apple、AIにアプリを試させてUI/UXをテスト【AI×デザイン】(論文解説) | AIDB
                    • 論文解説をGPT-4oを使って自動的に生成してみる - Qiita

                      Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論

                        論文解説をGPT-4oを使って自動的に生成してみる - Qiita
                      • 【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB

                        人型ロボット完成へのロードマップ 人間のように動作するロボットを作ることは、ロボット工学の壮大な課題です。機械学習は、ロボットを手動でプログラミングする代わりに、センサ情報を用いてロボットシステムを適切に制御する方法を学習することで、これを実現する可能性を秘めています。 学習には膨大な量の学習データが必要ですが、物理的なシステム上でそれを取得するのは難しく、コストもかかります。そのため、すべてのデータをシミュレーションで収集する手法が注目されています。 しかし、シミュレーションは実行環境やロボットを細部まで正確に捉えているわけではないため、結果として生じるシミュレーションのデータを現実へ変換させる問題も解決する必要があります。 ロボットに人間のような動作をさせる課題において、実際にどんな研究が行われているのでしょうか。OpenAIのIlge Akkayaら研究者の発表を紹介します。 研究者

                          【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB
                        • マンガでわかるHCI: 今週のコンピュータサイエンス研究 140字での論文解説 まとめ 6/1-6/7|マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)

                          このnoteでは、最新のコンピュータサイエンスの研究を140字でゆるく解説しつつ、気になる論文にはこういう研究もあるよ、と似てる研究を紹介しています。 分野の中の人も外の人も、実務で忙しい人もそうでない人も、小学生も大学生も、「なるほど、最先端ではこんなことがおきてるんだな。ふむふむ」と感じてもらえたらと思います。 --- しばらく死んでましたが、ぼちぼち再開していきます。(ˊvˋ*) 無事、Defense終わりました。ここ最近は、これでかなり忙しかったんですが、とりあえず1個、一段落ついたので、少しずつ再開していこうかと思います。 (ただ、終わってふと見るとUISTのレビュー依頼が10本くらい来てたけど。笑 ここ数年、CHIとかUISTのレビュー2桁いくこと多いな…) https://t.co/IT5rysaIje — マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)

                            マンガでわかるHCI: 今週のコンピュータサイエンス研究 140字での論文解説 まとめ 6/1-6/7|マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)
                          • AIで稲の病気を検出 害虫の被害を防止する自動化テクノロジー【AI×農業】(論文解説) | AIDB

                            主食を守れ 農作物の生産は、特に食料が不足している一部の地域にとって重要な意味を持っています。現在農作物の病気や害虫による穀物の損失は、農作物の生産損失全体の10%以上を占めています。 米はアジア諸国の主食ですが、イネは気候条件、湿度、栄養分、水管理、農作業の状況など、さまざまな影響を受けて病気になったり、害虫の被害を受ける可能性があります。それらを手作業で識別・検出することは、時間がかかることが多く、認識精度も高くないです。その結果、誤った診断や農薬の誤使用を招く恐れがあります。 農作物の病気や害虫による被害に対して、実際にどんな研究が行われているのでしょうか。中国科学院大学のDengshan Liら研究者の発表を紹介します。 研究者らは、リアルタイムの映像検出システムを構築し、作物の病気や害虫の予防を試みました。 ▼論文情報 著者:Dengshan Li, Rujing Wang, C

                              AIで稲の病気を検出 害虫の被害を防止する自動化テクノロジー【AI×農業】(論文解説) | AIDB
                            • 【論文解説】OpenAI 「GPT」を理解する

                              (以下は Transformer を理解している必要がありますので、まだの方はスキップしていただいても構いません) まずは、単語の位置情報を表す Positional Encoding です。 もとの Transformer と同じで、単語の埋め込み表現に位置情報を足します。 $$\begin{align} h_0 = UW_e + W_p \end{align}$$ \(W_e\)が単語の埋め込み表現の行列、\(W_p\)が位置情報を埋め込む行列です。 ただし、GPTでは、\(W_p\) はオリジナルの Transformer の論文のように \(\sin\)・\(\cos\) を使った方法ではなく、\(W_p\) もデータから学習します。 次のレイヤーですが、Transformer と言っても、ここでは encoder-decoder を使った Transformer ではなく、dec

                                【論文解説】OpenAI 「GPT」を理解する
                              • 【論文解説】OpenAI 「GPT-3」を理解する

                                今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常に興味深い内容になっている論文ですので、最後まで読んでいただけると幸いです。 特に「Synthetic and Qualitative Tasks」の節は驚きの結果になっています。 なお、2023年3月には GPT-4 が公表されましたので、こちらも参考にしていただければと思います。 『【論文解説】GPT-4 を理解する』 GPT-3とは ではまずGPT-3の特徴を簡単に説明します。 GPT3はOpenAIから2020年に以下の論文で発表されました。 『Language Models are Few-Shot Learners』 GPT、GPT-2に続く3番目のモデルですが、モデルの仕組み自体

                                  【論文解説】OpenAI 「GPT-3」を理解する
                                • 【論文解説】Transformerを理解する

                                  では、今回は2017年に論文「Attention Is All You Need」で提案された “Transformer” について詳しく解説したいと思います。 『Attention is All You Need』 Transformer とは、ChatGPT (GPT-4 などのGPT シリーズ) を含む重要な LLM (Large Language Model; 大規模言語モデル) や、BERT などのファインチューニングをすることによって高い精度を得ることができるモデルなど、現在重要な自然言語処理モデルで幅広く使われている重要な仕組みです。 ですので、自然言語処理を学ぶ人、業務で LLM を使って開発する人などは是非押さえておきたいモデルです 。 モデルの構造は知っているので、どのように実装するかを知りたい、という方は以下の記事をご参照ください。 Tensorflowを使ってセンチ

                                    【論文解説】Transformerを理解する
                                  • [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita

                                    はじめに このアルゴリズムの最大の強みは、ローソクチャートを観測する予測と指値注文板を観測する執行戦略を分離し、強化学習によって執行戦略を強化させたところです。これは、売買決定から注文メッセージの送信、注文決定の動きに開きがあるからです。 論文の本文は以下のリンクから読めます。 データセットは一般公開されているFI-2010データセットを使用します。また、予想モデルは以下を使用します。 実装を行なった全編は以下より見ることができます。 ※環境の構築等自信がないので、修正点など是非ご指摘頂ければ幸いです。 強化学習アルゴリズム Ape-Xアルゴリズム Ape-Xは、代表的なoff-poicyであり、以下のモデルを加味したモデルです。 Double Q-learning(Double DQN) 優先度付き経験再生(Priority Experience Reply DQN) Dueling N

                                      [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita
                                    • 【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する

                                      今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi

                                        【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する
                                      • 3D Gaussian SplattingはNeRFをこえるかトレンドになるか?複数視点の画像から3D空間を再現する最新手法論文解説! - Qiita

                                        対象論文 3D Gaussian Splattingの概要 Luma AIでNeRFについで注目のコンピュータビジョンや医療画像処理など、様々な3D画像処理アプリケーションにおいて使用されるテクニックです。この手法は、データポイントを3D空間に「スプラット(splat)」することで、スパースなデータから連続的なボリュームデータを生成します。 0.忙しい方へのまとめ NeRFは高い画質の3Dモデルングを生成することができます。 しかし、NeRFで高画質画像を生成するには訓練とレンダリングにコストのかかるニューラルネットワークを必要とします。 3D Gaussian Splattingではものなどの特定の対象物ではなく風景などに対して、1080pの解像度でリアルタイムの表示速度を実現しながら、状態最先端の視覚品質を達成するための3つのキーとなる要素を導入しています。 3Dガウス分布でシーンを表

                                          3D Gaussian SplattingはNeRFをこえるかトレンドになるか?複数視点の画像から3D空間を再現する最新手法論文解説! - Qiita
                                        • 【論文解説】BARTを理解する

                                          今回は、『BART(Bidirectional Auto-Regressive Transformer)』を解説したいと思います。 簡単に言うと、BARTはBERTをSequence-to-Sequence(Seq2Seq)の形にしたものです。 ですので、モデルの仕組みは当初のTransformer論文で提案された形に近くなっています。 このSeq2Seqの仕組みにより、機械翻訳(Machine Translation)や文書の要約(Document Summarization)にも適用することが可能です。 そして、RoBERTaと同じデータセットで学習することで、分類タスクの精度はRoBERTaと同程度、文章生成系のタスクでは過去のモデルをアウトパフォームするという結果が出ています。 では、詳細を見ていきましょう。 論文はこちらです。 『BART: Denoising Sequence-

                                            【論文解説】BARTを理解する
                                          • 論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑

                                            「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文"Deep learning in remote sensing: A comprehensive review and list of resources."がありましたので、この論文の解説をします。 1. はじめに 宇宙から地球を観測するリモートセンシング(リモセン)データと深層学習については宙畑でも色々な記事が出ています。この「リモセン×機械学習」を俯瞰でみた時にどのようなトレンドになっているのでしょうか。 この「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文“Deep learning in remote sensing: A comprehensive review and list of resources.”がありましたので、この論文の解説をします。なお、本

                                              論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑
                                            • 【論文解説】Diffusion Modelを理解する

                                              以下の記事では、Diffusionモデルの仕組みについて見てきました。 https://data-analytics.fun/2022/02/03/understanding-diffusion-mo ... Diffusion Model の概要 まずは、diffusion model のざっくりとした概要について説明したいと思います。 forward process と reverse process diffusion model は、以下の図のように(1) forward process と(2) reverse process の2つの過程を考えます。 forward process は画像にノイズを加えていって、最終的にはノイズだけになる確率過程です。 一方の reverse process は forward process の逆で、ノイズから画像になっていく確率過程です。

                                                【論文解説】Diffusion Modelを理解する
                                              • [論文解説] Attention Is All You Needを解説する①

                                                株式会社SOARIGでエンジニアをしている、Elleryです。 今回は、Attention Is All You Needの論文を読んだので、まとめてみました。 Attention Is All You Needとは 「Attention Is All You Need」は、人工知能を勉強する上では避けては通れない「Transformer」という仕組みを提案した論文です。 それまで、自然言語処理分野で確固たる地位を築いていた、再帰構造(RNN)や畳み込み構造(CNN)を完全に排除し、Attention機構のみに基づいたアーキテクチャで従来のモデルの精度を大幅に更新し、大きく注目を集めました。 また、Transformerはその便利さから現在では自然言語処理の分野を飛び出し、様々な分野で活用されるアーキテクチャとなっています。 今回は、そのTransformerの中核部分である、Attent

                                                  [論文解説] Attention Is All You Needを解説する①
                                                • 【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説

                                                  この動画では、学習済みのText-to-ImageのDiffusion modelを用いて、テキストから3Dシーンの生成をする論文の解説をします。 3Dの任意の視点をImagenを用いて最適化するため、非常に多様で高精細な3D生成が可能です! 【キーワード】 人工知能, 深層学習, 拡散モデル, 3D生成, NeRF, DreamFusion 【紹介論文】 DreamFusion: Text-to-3D using 2D Diffusion 【関連リンク】 Arxiv: https://arxiv.org/abs/2209.14988 プロジェクトページ: https://dreamfusion3d.github.io/ 【目次】 0:15 論文の背景と概要 1:29 関連研究 4:10 提案手法: DreamFusion 11:58 実験結果 -- ソニーが提供するオープンソー

                                                    【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
                                                  • 【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ

                                                    【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、以下の論文について紹介いたします。 【紹介論文】 ・Retentive Network: A Successor to Transformer for Large Language Models  【論文リンク】https://arxiv.org/pdf/2307.08621.pdf こちらの論文では、Transformerの計算量の問題を解決するための効率の良い系列モデルを提案しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libr

                                                      【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ
                                                    • 【論文解説】OpenAI ChatGPT の仕組み『InstructGPT』を理解する

                                                      2022年11月に公開されて以来、非常に話題になっている ChatGPT ですが、今回は ChatGPT で使われているモデル『InstructGPT』を解説したいと思います。 もともと OpenAI では 『GPT-3』 という巨大言語モデルを作り、それが一般の人にも API の形で公開されていました。 (2023年3月より ChatGPT の API も公開されています。詳しくはこちらをご参照ください ⇒ 「OpenAI 『ChatGPT』APIの使い方を解説」) GPT-3 では、人間が書いたものと区別がつかないようなニュースの文章を生成したり、いくつかの例示をするだけで人間のようにうまくタスクをこなしたり、アイデアを列挙したりと様々なことができるようになっています。 OpenAI GPT-3 APIの使い方を解説 2021年11月18日にOpenAIが「GPT-3」のウェイティング

                                                        【論文解説】OpenAI ChatGPT の仕組み『InstructGPT』を理解する
                                                      • 物体検出の代表アルゴリズム YOLOシリーズを徹底解説!【AI論文解説】

                                                        YOLO(v1) YOLOは2015年に、「You Only Look Once: Unified, Real-Time Object Detection」という論文で発表されたモデルです。ほぼ同時期に発表されたFast R-CNNと同様に、物体検出の世界に大きな影響を与えました。両者が発表されて以降、End-to-Endモデルとリアルタイム検出が物体検出のスタンダードになったといえます。 YOLO(v1)の特徴 YOLOの特徴についてみていきます。 ・それまで二段階(検出と識別)で行われていた物体検出を一度の作業(全体を検出)にすることで高速化に成功した。 ・End-to-Endモデルの最初期モデル。 ・検出速度がリアルタイムで実用可能な45fpsになった。(精度は下がるが、検出速度がよりはやいFastYOLOでは155fpsに達した。) なお同時期に出されたFast R-CNNと比べる

                                                          物体検出の代表アルゴリズム YOLOシリーズを徹底解説!【AI論文解説】
                                                        • 【論文解説】OpenAI 「GPT-2」を理解する

                                                          今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常 ... まず、GPT-2論文の背景を説明しておきます。 2018年以降、ULMFiT、ELMo、OpenAI GPT、BERTと大規模な言語コーパスを使って教師なし学習で事前学習を行い、そのあとに特定のタスクについて教師あり学習でファインチューニングする手法により、目覚ましい成果があげられています。 しかしながら、これらのモデルもまだ数千や数万といった教師ありデータでファインチューニングしなければなりません。 人間については、そんなに大量のデータで学習しなくても、少しの追加の学習や手引きがあればタスクを解くことができます。 そこでGPT-2では、より人間に近い、汎用的に使えるモデルを構築する

                                                            【論文解説】OpenAI 「GPT-2」を理解する
                                                          • 【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説) | AIDB

                                                            スケッチの創造性を高めるAI スケッチは、有史以前からのコミュニケーションツールとしての役割から、今日広く普及したタッチスクリーンデバイスに至るまで、欠かすことのできない視覚的経験を得られるものです。 これまでのスケッチ関連のAIは、単純な線画から意味のある視覚情報を生み出したり、物体の特徴を捉えて人間が認識できるような最小限の描写を生成することに主に焦点を当ててきました。 このタスクにおける既存のデータセットのほとんどは、一般的な物体を模倣するために人間が描いたスケッチを含んでいます。 このようなAIは特定の描きたいものがある場合には有益ですが、創造性が求められるスケッチには用いることができないことが多いです。 スケッチにおいて書き手の創造性をかき立てるために、どのような研究が行われているのでしょうか。FacebookのVedanuj Goswamiら研究者の発表を紹介します。 研究者ら

                                                              【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説) | AIDB
                                                            • アドビが凄い「アニメの表情」技術をつくりました【AI×アート】(論文解説) | AIDB

                                                              アニメキャラ、話す表情に違和感は? 人の表情をアニメーション化することは、映画制作、ビデオストリーミング、コンピュータゲームなどの分野で不可欠です。しかし、近年の技術進歩にもかかわらず、リアルな顔のアニメーションを人手を介さずに生成することは、未だに実現できていません。 従来の手法では、音声と顔の動きの間のマッピングを学習することでアニメーションの作成を行っています。しかし顔の動きは非常に複雑なので、このようなマッピングを見つけることは非常に困難で手間のかかる作業でした。 話者のアニメーション制作における課題に対して、実際にどんな研究が行われているのでしょうか。Adobe(アドビ)のYang Zhouら研究者の発表を紹介します。 研究者らは、音声信号と話者の画像などの情報を分離して解析することで、リアルなアニメーションの制作を試みました。 ▼論文情報 著者:YANG ZHOU, XINTO

                                                                アドビが凄い「アニメの表情」技術をつくりました【AI×アート】(論文解説) | AIDB
                                                              • [論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks - Qiita

                                                                以下の論文の解説(まとめ)になります. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks この論文は,Chelsea Finnが出した論文でICML 2017に採択されています.Meta-Learningの汎用性を大きく改善した,ターニングポイントとなる手法を提案していて非常に面白く,また論文の優位性を適切に説明した日本語解説がなかったため,今回紹介させていただきました.この論文で提案しているモデルは,MAML(Model-Agnostic Meta-Learning)と呼ばれる手法になります. 記事中の図は,特に記載がない限りすべて論文からの引用です. 記事内容に不備がございましたら,ご指摘頂けると助かります. 概要 この論文は, Model-Agnostic 微分可能である以外,モデルや損失関数の形式を仮

                                                                  [論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks - Qiita
                                                                • 【論文解説+Tensorflowで実装】VQ-VAEを理解する

                                                                  今回は、VQ-VAE(Vector Quantised-Variational AutoEncoder)を解説したいと思います。 VQ-VAEもVAE(Variational AutoEncoder)と同じで潜在変数を使った画像などの生成モデルです。 通常のVAEと違うところは、VAEでは潜在変数\(z\)が連続的なベクトルを取りましたが、VQ-VAEでは潜在変数が離散的なベクトルを取る点です。 画像や自然言語は本来離散的なもので、例えば「犬」から「猫」へ少しずつ変化していくものでありません。 ですので、潜在変数を離散的にすることは自然であると言えます。 では、以下の論文をもとに解説していきたいと思います。 『Neural Discrete Representation Learning』 最後にTensorflowで実装していますので、そちらも参考にしていただければと思います。 PyTo

                                                                    【論文解説+Tensorflowで実装】VQ-VAEを理解する
                                                                  • Microsoft研究者らがチューリングテストの自動化に挑戦(AI論文解説) | AIDB

                                                                    高速な判定へ チューリングテストは、ある機械が人間的であるかどうかを判定するテストです。一般的にチューリングテストは、人間的であることを人間自身が判断します。人間的であると判定されるようなエージェントを開発するためには、迅速かつ正確に、行動を数式化・定量化する必要があります。 勿論、チューリングテストは人間が行うため、かなり正確な結果が得られますが、高速に判定を行うことは難しいです。では、このチューリングテストを自動化するとどうなるでしょうか。信頼性のある結果が得られれば良いですが、人間の感性に合致していないモデルが生成されうる可能性もあります。 チューリングテストにおける迅速に判定できないという課題において、実際にどのような研究が行われているのでしょうか。Microsoftの研究者の発表を紹介します。 研究者らは、複数のネットワークを用いることによって、人間的であるかどうかの分類器を作成

                                                                      Microsoft研究者らがチューリングテストの自動化に挑戦(AI論文解説) | AIDB
                                                                    • 論文解説∶Segment Any Anomaly∶プロンプトを使った学習要らずの異常検知

                                                                      0. 論文情報 "Segment Any Anomaly without Training via Hybrid Prompt Regularization" arxiv URL:https://arxiv.org/abs/2305.10724 Github URL:https://github.com/caoyunkang/Segment-Any-Anomaly 1. TL;DR VAND 2023 ChallengeというZero-shot, Few-shot異常検知の精度を競うコンペで準優勝 異常画像だけでなく正常画像さえも必要としない、学習必要なしのZero-shotモデル プロンプトを使って異常の種類を指定 2. 概説 Segment Any Anomalyには、 必要最低限の実装であるSAA (バニラモデル) SAAの問題点を解決したバージョンであるSAA+ があるため、それぞ

                                                                        論文解説∶Segment Any Anomaly∶プロンプトを使った学習要らずの異常検知
                                                                      • 【AI論文解説】拡散モデルと自己回帰型モデルの融合 Part1

                                                                        拡散モデルと自己回帰型モデルの融合をテーマに以下の2本の論文を紹介しています。 資料はslideshareで公開しています(https://www.slideshare.net/slideshow/ai-910b/273418425) Part 1: Autoregressive Image Generation without Vector Quantization https://arxiv.org/abs/2406.11838 Part 2: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model https://www.arxiv.org/abs/2408.11039 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNe

                                                                          【AI論文解説】拡散モデルと自己回帰型モデルの融合 Part1
                                                                        • えるエル on Twitter: "Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r"

                                                                          Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r

                                                                            えるエル on Twitter: "Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r"
                                                                          • 論文解説 Group Equivariant Convolutional Networks - Fire Engine

                                                                            前回の記事では、Equivariant Neural Networksというデータの対称性に着目した深層学習の設計の新しいパラダイムについて概観した。 blog.tsurubee.tech 今回は、2016年に登場したEquivariant Neural Networksの先駆け的な存在であるGroup Equivariant Convolution Networksの論文を解説する。 目次 論文紹介 アブストラクト和訳 群論の予備知識 群の定義 群の具体例 1. 並進群(Translation group) 2. p4m群 準同型写像 群の作用 同変性 従来のCNNの同変性 Group equivariant Convolutional Neural Networks(G-CNNs) G-CNNsとは 群上の関数 G-convolution:群同変な畳み込み層 第1層目 第2層目以降 評

                                                                              論文解説 Group Equivariant Convolutional Networks - Fire Engine
                                                                            • 「DeepSeek関連の論文解説」松尾研 LLM コミュニティ "Paper & Hacks Vol.38"

                                                                              概要: 毎週火曜日20時から、松尾・岩澤研究室が主催するLLMに関する輪読会 & 実装のオンラインイベントです。 レベル: ★★★★☆ (Expert) 対象: 普段から論文を読んでいる/普段からLLMの実装を行なっている方々 発表者: 松尾研LLMコミュニティメンバー 鈴木知行 テーマ: DeepSeekのLLMsで適用・開発された様々な技術~DeepSeek R1を含む一連の論文解説 00:00 - 本編 43:38 - 質疑応答 発表スライドのダウンロード方法: 下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# event_paper_and_hacks チャンネルよりダウンロードいただけます。 https://linktr.ee/matsuolab_community ----- その他 - 次回 Paper & Hacks 視聴申し込み - 今後

                                                                                「DeepSeek関連の論文解説」松尾研 LLM コミュニティ "Paper & Hacks Vol.38"
                                                                              • [深層学習]4000倍早いTransformer, Self-Attentionの計算量がO(n^2)からO(n)になった[論文解説] - Qiita

                                                                                Attentionを爆速にした論文Transformers are RNNsを解説 こんにちはYosematです! 今回は長いこと計算時間が問題になっていたAttentionが爆速になってしまったという論文Transformers are RNNsを解説していきます。 今後も論文解説を続けていきますのでぜひTwitterとQiitaをフォローしてください!モチベ上がります! 忙しい人向け Attentionの計算に内積を使うのをやめてカーネル関数を使う Self-Attentionの計算オーダーが**$O(n^2)>>O(n)$**になった 計算は爆速になったけどパフォーマンスはcompetetive! Attention Transformerでお馴染みのAttention。最初は自然言語の王様でしたが、最近は画像の認識や生成タスクでも猛威を奮っている様子で、次世代のDNNの基本的な構成

                                                                                  [深層学習]4000倍早いTransformer, Self-Attentionの計算量がO(n^2)からO(n)になった[論文解説] - Qiita
                                                                                • 【論文解説】EfficientDet: Scalable and Efficient Object Detection - Qiita

                                                                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 Efficientな物体検出モデル、EfficientDetの論文を読んだので、ざっくり紹介します。 本論文の新規性は以下の2点です。 複数の解像度の特徴マップをうまく混合してFeaturePyramidを得るための方法であるBiFPNを提案。 Efficientの名を冠している通り、分類モデルのEfficientNetの影響を受けている。特徴抽出のバックボーンとしてEfficientNetを使用するだけでなく、EfficientNetのようにネットワークの容量をスケールさせるパラメータを導入し、FLOPsと精度のバランスを図って

                                                                                    【論文解説】EfficientDet: Scalable and Efficient Object Detection - Qiita

                                                                                  新着記事