並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 39 件 / 39件

新着順 人気順

論文解説の検索結果1 - 39 件 / 39件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

論文解説に関するエントリは39件あります。 AI論文人工知能 などが関連タグです。 人気エントリには 『Othello is Solved 論文解説 (私見) - Qiita』などがあります。
  • Othello is Solved 論文解説 (私見) - Qiita

    今朝起きたら、とんでもない論文を見つけました。 Othello is Solved ゲームの オセロが"解かれた(弱解決)" というのです。飛び起きました。それで、16時まで二度寝してから読みました。 注意すべきは、この論文が査読を経て公開されているわけではないこと、つまり形式上特にチェックを受けたものではないことです。ただ、タイトルからして非常に衝撃的ですので、個人的に読んでみました。この記事では、私がこの論文(およびソースコード)を読んでわかったことを、なるべくわかりやすくまとめます。随時更新します。 余談ですが、このタイトルはどうやら、チェッカーというゲームが以前弱解決された際の論文"Checkers Is Solved"のオマージュだろうという話です。 この記事には専門用語が出てくるので、最後の方に基礎知識として重要な用語や知識をまとめました。 お詫びと訂正 この記事の内容は、私が

      Othello is Solved 論文解説 (私見) - Qiita
    • 【AI動画生成】Animate Anyone 論文解説

      はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ

        【AI動画生成】Animate Anyone 論文解説
      • GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】

          GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】
        • 深層学習界の大前提Transformerの論文解説! - Qiita

          この例に関する質問への回答を補足の項に記載しましたので、より良い理解のためにご参照ください。 1.3 モデル構造 トランスダクションモデル(ある文章を他の文章に変換するモデル(翻訳など))において主流なのは以下のようなエンコーダ-デコーダモデルである。 エンコーダ: 入力の文 $(x_1,\ldots,x_n)$ を $\boldsymbol{z}=(z_1,\ldots,z_n)$ へ変換 デコーダ: $\boldsymbol{z}$ から単語 $(y_1,\ldots,y_m)$ を出力。 ただし、1時刻に1単語のみで、前時刻のデコーダの出力を現時刻のデコーダの入力として使う。 Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル

            深層学習界の大前提Transformerの論文解説! - Qiita
          • 【論文解説】OpenAI GPT-4 を理解する

            さて、ChatGPT が非常に盛り上がっていますが、2022年11月にリリースされた ChatGPT は GPT-3.5 というモデルがベースになっています。 そして、2023年3月にはその後継モデルである GPT-4 がリリースされ、ChatGPT Plus で利用できるようになっています。(月額20$) それ以降も画像データを処理できるようになったり、個人の好みを記憶できるようになったりと色々なアップデータがあってこの先どうなるんだろうと楽しみになりますね。 今回は、もともとの GPT-4 についてしっかりと解説したいと思います。 ちょっとした対話であれば GPT-3.5 でも GPT-4 でもそこまで大きな差はないように思えますが、GPT-4 に情報抽出や分類問題などのタスクを解かせようとすると、GPT-4 の方がかなり精度が良くなっていることがわかります。 ですので、より複雑な利用

              【論文解説】OpenAI GPT-4 を理解する
            • 「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件 - CogNano Tech Blog

              2年にわたる新型コロナ研究が、学術論文として受理されました。COGNANOの前田開発部長(筆頭著者)が主導して発表した論文です。 www.nature.com 先日、京大チームからマスコミ報道をお願いし「アルパカ抗体」で拡散していただきました。 prtimes.jp www.kyoto-u.ac.jp Webニュースメディアでも沢山言及頂きました。 アルパカ抗体がコロナ全変異株に有効 京大などの研究チームが発表 - ライブドアニュース アルパカ抗体 新型コロナ全変異株に有効 京大など 2年後実用化へ - 産経ニュース アルパカ抗体が変異株を抑制 研究 - Yahoo!ニュース どのようにして2020年に(パンデミックが始まって半年以内に)万能抗体を作れていたのか、ジャーナリストから質問を受けました。簡単には「アルパカ体内で起きる免疫反応を巨大情報として取り出すことができ、計算処理によって最

                「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件 - CogNano Tech Blog
              • 報酬確率分布の変化に応じたBandit Algorithm〜論文解説:A Linear Bandit for Seasonal Environments〜 - MonotaRO Tech Blog

                はじめに MonotaROとBandit Banditの着目理由 MonotaROにBanditを導入する際の課題 A Linear Bandit for Seasonal Environments 論文概要 背景と動機 提案手法 実験 まとめ おわりに はじめに はじめまして、データサイエンスグループの岡林です。普段はbanditなどの強化学習を用いてUIの最適化に取り組んでいます。 このブログでは最近MonotaROが注目しているbanditの概要を紹介しつつ、その中でも事業特性にあったbanditアルゴリズムにフォーカスし、論文を解説します。 MonotaROとBandit Banditの着目理由 MonotaROでは、商品単位レベルでのUI最適化に取り組んでいます。例えば、商品に応じて商品ページのコンテンツ文言などを変化させ、より適切なUIを提供することに取り組んでいます。具体的に

                  報酬確率分布の変化に応じたBandit Algorithm〜論文解説:A Linear Bandit for Seasonal Environments〜 - MonotaRO Tech Blog
                • Kaggleで使用される敵対学習方法AWPの論文解説と実装解説 ~Adversarial Weight Perturbation Helps Robust Generalization~

                  本資料では、AWPという学習手法について、元論文と実装の解説を行っている。 AWPはモデルに敵対的な摂動を加えながら学習するという手法で、汎化能力が高まることからKaggleで人気の手法となっている。

                    Kaggleで使用される敵対学習方法AWPの論文解説と実装解説 ~Adversarial Weight Perturbation Helps Robust Generalization~
                  • 納豆を食べると死亡率が10%低下する!?最新論文解説・考察 - Riklog

                    2020年1月、British Medical Journalというイギリスで最も権威の高い医学誌に、「発酵性大豆食品摂取と死亡率低下の関連」という日本からのコホート研究が掲載されました。この論文を「納豆を食べると死亡率が10%低下する!」と様々なメディアが取り上げ、話題となりました。本当に納豆を食べれば死亡率が10%低下するのでしょうか。 この記事では、このBMJ論文の背景、解釈についてわかりやすく解説しました。 納豆を食べると死亡率が10%低下する!?日本からの最新論文 元論文はこちらです:https://www.bmj.com/content/bmj/368/bmj.m34.full.pdf 論文のタイトルは「Association of soy and fermented soy product intake with total and cause specific mortal

                      納豆を食べると死亡率が10%低下する!?最新論文解説・考察 - Riklog
                    • Apple、AIにアプリを試させてUI/UXをテスト【AI×デザイン】(論文解説) | AIDB

                      幅広いユーザにアプリを使ってもらうには Appleでは機械学習を用いて、便利な製品を世の中に提供しています。例えば、視覚障害を持つ人や視力の低い人、音が聞こえない人や聞き取りにくい人、身体運動の制限がある人などの障害を持つ人に、アクセシビリティ機能を用いて幅広いユーザをサポートしています。 アクセシビリティ機能とは、ユーザインターフェイス(UI)を説明する機能のことですが、多くのアプリにはその補助機能が備わっていません。これによって、読み上げ機能がうまく機能しなかったりする可能性があります。そのため、様々なアプリに用いることが可能なアクセシビリティ機能を実装する必要があります。

                        Apple、AIにアプリを試させてUI/UXをテスト【AI×デザイン】(論文解説) | AIDB
                      • 論文解説をGPT-4oを使って自動的に生成してみる - Qiita

                        Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論

                          論文解説をGPT-4oを使って自動的に生成してみる - Qiita
                        • 【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB

                          人型ロボット完成へのロードマップ 人間のように動作するロボットを作ることは、ロボット工学の壮大な課題です。機械学習は、ロボットを手動でプログラミングする代わりに、センサ情報を用いてロボットシステムを適切に制御する方法を学習することで、これを実現する可能性を秘めています。 学習には膨大な量の学習データが必要ですが、物理的なシステム上でそれを取得するのは難しく、コストもかかります。そのため、すべてのデータをシミュレーションで収集する手法が注目されています。 しかし、シミュレーションは実行環境やロボットを細部まで正確に捉えているわけではないため、結果として生じるシミュレーションのデータを現実へ変換させる問題も解決する必要があります。 ロボットに人間のような動作をさせる課題において、実際にどんな研究が行われているのでしょうか。OpenAIのIlge Akkayaら研究者の発表を紹介します。 研究者

                            【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB
                          • マンガでわかるHCI: 今週のコンピュータサイエンス研究 140字での論文解説 まとめ 6/1-6/7|マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)

                            このnoteでは、最新のコンピュータサイエンスの研究を140字でゆるく解説しつつ、気になる論文にはこういう研究もあるよ、と似てる研究を紹介しています。 分野の中の人も外の人も、実務で忙しい人もそうでない人も、小学生も大学生も、「なるほど、最先端ではこんなことがおきてるんだな。ふむふむ」と感じてもらえたらと思います。 --- しばらく死んでましたが、ぼちぼち再開していきます。(ˊvˋ*) 無事、Defense終わりました。ここ最近は、これでかなり忙しかったんですが、とりあえず1個、一段落ついたので、少しずつ再開していこうかと思います。 (ただ、終わってふと見るとUISTのレビュー依頼が10本くらい来てたけど。笑 ここ数年、CHIとかUISTのレビュー2桁いくこと多いな…) https://t.co/IT5rysaIje — マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)

                              マンガでわかるHCI: 今週のコンピュータサイエンス研究 140字での論文解説 まとめ 6/1-6/7|マンガでわかるHCI(ヒューマン・コンピュータ・インタラクション)
                            • AIで稲の病気を検出 害虫の被害を防止する自動化テクノロジー【AI×農業】(論文解説) | AIDB

                              主食を守れ 農作物の生産は、特に食料が不足している一部の地域にとって重要な意味を持っています。現在農作物の病気や害虫による穀物の損失は、農作物の生産損失全体の10%以上を占めています。 米はアジア諸国の主食ですが、イネは気候条件、湿度、栄養分、水管理、農作業の状況など、さまざまな影響を受けて病気になったり、害虫の被害を受ける可能性があります。それらを手作業で識別・検出することは、時間がかかることが多く、認識精度も高くないです。その結果、誤った診断や農薬の誤使用を招く恐れがあります。 農作物の病気や害虫による被害に対して、実際にどんな研究が行われているのでしょうか。中国科学院大学のDengshan Liら研究者の発表を紹介します。 研究者らは、リアルタイムの映像検出システムを構築し、作物の病気や害虫の予防を試みました。 ▼論文情報 著者:Dengshan Li, Rujing Wang, C

                                AIで稲の病気を検出 害虫の被害を防止する自動化テクノロジー【AI×農業】(論文解説) | AIDB
                              • 【論文解説】OpenAI 「GPT」を理解する

                                (以下は Transformer を理解している必要がありますので、まだの方はスキップしていただいても構いません) まずは、単語の位置情報を表す Positional Encoding です。 もとの Transformer と同じで、単語の埋め込み表現に位置情報を足します。 $$\begin{align} h_0 = UW_e + W_p \end{align}$$ \(W_e\)が単語の埋め込み表現の行列、\(W_p\)が位置情報を埋め込む行列です。 ただし、GPTでは、\(W_p\) はオリジナルの Transformer の論文のように \(\sin\)・\(\cos\) を使った方法ではなく、\(W_p\) もデータから学習します。 次のレイヤーですが、Transformer と言っても、ここでは encoder-decoder を使った Transformer ではなく、dec

                                  【論文解説】OpenAI 「GPT」を理解する
                                • 論文解説 Bayesian Computing with INLA: A Review

                                  ベイズ事後分布の近似手法INLAのレビュー論文 https://arxiv.org/abs/1604.00860 の解説. 実例はオリジナルの論文を読んだほうがいい(https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1467-9868.200…

                                    論文解説 Bayesian Computing with INLA: A Review
                                  • 【論文解説】OpenAI 「GPT-3」を理解する

                                    今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常に興味深い内容になっている論文ですので、最後まで読んでいただけると幸いです。 特に「Synthetic and Qualitative Tasks」の節は驚きの結果になっています。 なお、2023年3月には GPT-4 が公表されましたので、こちらも参考にしていただければと思います。 『【論文解説】GPT-4 を理解する』 GPT-3とは ではまずGPT-3の特徴を簡単に説明します。 GPT3はOpenAIから2020年に以下の論文で発表されました。 『Language Models are Few-Shot Learners』 GPT、GPT-2に続く3番目のモデルですが、モデルの仕組み自体

                                      【論文解説】OpenAI 「GPT-3」を理解する
                                    • 【論文解説】Transformerを理解する

                                      では、今回は2017年に論文「Attention Is All You Need」で提案された “Transformer” について詳しく解説したいと思います。 『Attention is All You Need』 Transformer とは、ChatGPT (GPT-4 などのGPT シリーズ) を含む重要な LLM (Large Language Model; 大規模言語モデル) や、BERT などのファインチューニングをすることによって高い精度を得ることができるモデルなど、現在重要な自然言語処理モデルで幅広く使われている重要な仕組みです。 ですので、自然言語処理を学ぶ人、業務で LLM を使って開発する人などは是非押さえておきたいモデルです 。 モデルの構造は知っているので、どのように実装するかを知りたい、という方は以下の記事をご参照ください。 Tensorflowを使ってセンチ

                                        【論文解説】Transformerを理解する
                                      • [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita

                                        はじめに このアルゴリズムの最大の強みは、ローソクチャートを観測する予測と指値注文板を観測する執行戦略を分離し、強化学習によって執行戦略を強化させたところです。これは、売買決定から注文メッセージの送信、注文決定の動きに開きがあるからです。 論文の本文は以下のリンクから読めます。 データセットは一般公開されているFI-2010データセットを使用します。また、予想モデルは以下を使用します。 実装を行なった全編は以下より見ることができます。 ※環境の構築等自信がないので、修正点など是非ご指摘頂ければ幸いです。 強化学習アルゴリズム Ape-Xアルゴリズム Ape-Xは、代表的なoff-poicyであり、以下のモデルを加味したモデルです。 Double Q-learning(Double DQN) 優先度付き経験再生(Priority Experience Reply DQN) Dueling N

                                          [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita
                                        • 【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する

                                          今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi

                                            【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する
                                          • 3D Gaussian SplattingはNeRFをこえるかトレンドになるか?複数視点の画像から3D空間を再現する最新手法論文解説! - Qiita

                                            3D Gaussian SplattingはNeRFをこえるかトレンドになるか?複数視点の画像から3D空間を再現する最新手法論文解説!論文コンピュータビジョン論文読み論文紹介3DGaussianSplatting 対象論文 3D Gaussian Splattingの概要 Luma AIでNeRFについで注目のコンピュータビジョンや医療画像処理など、様々な3D画像処理アプリケーションにおいて使用されるテクニックです。この手法は、データポイントを3D空間に「スプラット(splat)」することで、スパースなデータから連続的なボリュームデータを生成します。 0.忙しい方へのまとめ NeRFは高い画質の3Dモデルングを生成することができます。 しかし、NeRFで高画質画像を生成するには訓練とレンダリングにコストのかかるニューラルネットワークを必要とします。 3D Gaussian Splattin

                                              3D Gaussian SplattingはNeRFをこえるかトレンドになるか?複数視点の画像から3D空間を再現する最新手法論文解説! - Qiita
                                            • 【論文解説】BARTを理解する

                                              今回は、『BART(Bidirectional Auto-Regressive Transformer)』を解説したいと思います。 簡単に言うと、BARTはBERTをSequence-to-Sequence(Seq2Seq)の形にしたものです。 ですので、モデルの仕組みは当初のTransformer論文で提案された形に近くなっています。 このSeq2Seqの仕組みにより、機械翻訳(Machine Translation)や文書の要約(Document Summarization)にも適用することが可能です。 そして、RoBERTaと同じデータセットで学習することで、分類タスクの精度はRoBERTaと同程度、文章生成系のタスクでは過去のモデルをアウトパフォームするという結果が出ています。 では、詳細を見ていきましょう。 論文はこちらです。 『BART: Denoising Sequence-

                                                【論文解説】BARTを理解する
                                              • 論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑

                                                「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文"Deep learning in remote sensing: A comprehensive review and list of resources."がありましたので、この論文の解説をします。 1. はじめに 宇宙から地球を観測するリモートセンシング(リモセン)データと深層学習については宙畑でも色々な記事が出ています。この「リモセン×機械学習」を俯瞰でみた時にどのようなトレンドになっているのでしょうか。 この「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文“Deep learning in remote sensing: A comprehensive review and list of resources.”がありましたので、この論文の解説をします。なお、本

                                                  論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑
                                                • 【論文解説】Diffusion Modelを理解する

                                                  以下の記事では、Diffusionモデルの仕組みについて見てきました。 https://data-analytics.fun/2022/02/03/understanding-diffusion-mo ... Diffusion Model の概要 まずは、diffusion model のざっくりとした概要について説明したいと思います。 forward process と reverse process diffusion model は、以下の図のように(1) forward process と(2) reverse process の2つの過程を考えます。 forward process は画像にノイズを加えていって、最終的にはノイズだけになる確率過程です。 一方の reverse process は forward process の逆で、ノイズから画像になっていく確率過程です。

                                                    【論文解説】Diffusion Modelを理解する
                                                  • 【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説

                                                    この動画では、学習済みのText-to-ImageのDiffusion modelを用いて、テキストから3Dシーンの生成をする論文の解説をします。 3Dの任意の視点をImagenを用いて最適化するため、非常に多様で高精細な3D生成が可能です! 【キーワード】 人工知能, 深層学習, 拡散モデル, 3D生成, NeRF, DreamFusion 【紹介論文】 DreamFusion: Text-to-3D using 2D Diffusion 【関連リンク】 Arxiv: https://arxiv.org/abs/2209.14988 プロジェクトページ: https://dreamfusion3d.github.io/ 【目次】 0:15 論文の背景と概要 1:29 関連研究 4:10 提案手法: DreamFusion 11:58 実験結果 -- ソニーが提供するオープンソー

                                                      【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
                                                    • 【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ

                                                      【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、以下の論文について紹介いたします。 【紹介論文】 ・Retentive Network: A Successor to Transformer for Large Language Models  【論文リンク】https://arxiv.org/pdf/2307.08621.pdf こちらの論文では、Transformerの計算量の問題を解決するための効率の良い系列モデルを提案しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libr

                                                        【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ
                                                      • 物体検出の代表アルゴリズム YOLOシリーズを徹底解説!【AI論文解説】

                                                        YOLO(v1) YOLOは2015年に、「You Only Look Once: Unified, Real-Time Object Detection」という論文で発表されたモデルです。ほぼ同時期に発表されたFast R-CNNと同様に、物体検出の世界に大きな影響を与えました。両者が発表されて以降、End-to-Endモデルとリアルタイム検出が物体検出のスタンダードになったといえます。 YOLO(v1)の特徴 YOLOの特徴についてみていきます。 ・それまで二段階(検出と識別)で行われていた物体検出を一度の作業(全体を検出)にすることで高速化に成功した。 ・End-to-Endモデルの最初期モデル。 ・検出速度がリアルタイムで実用可能な45fpsになった。(精度は下がるが、検出速度がよりはやいFastYOLOでは155fpsに達した。) なお同時期に出されたFast R-CNNと比べる

                                                          物体検出の代表アルゴリズム YOLOシリーズを徹底解説!【AI論文解説】
                                                        • 【論文解説】OpenAI 「GPT-2」を理解する

                                                          今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常 ... まず、GPT-2論文の背景を説明しておきます。 2018年以降、ULMFiT、ELMo、OpenAI GPT、BERTと大規模な言語コーパスを使って教師なし学習で事前学習を行い、そのあとに特定のタスクについて教師あり学習でファインチューニングする手法により、目覚ましい成果があげられています。 しかしながら、これらのモデルもまだ数千や数万といった教師ありデータでファインチューニングしなければなりません。 人間については、そんなに大量のデータで学習しなくても、少しの追加の学習や手引きがあればタスクを解くことができます。 そこでGPT-2では、より人間に近い、汎用的に使えるモデルを構築する

                                                            【論文解説】OpenAI 「GPT-2」を理解する
                                                          • 【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説) | AIDB

                                                            ミッションから説明していきます。 (目的)描き手の創造性の刺激 本研究では、クリエイティブなスケッチに焦点を当てています。クリエイティブなスケッチを生成・解釈できるAIシステムは、描き手の創造性を刺激して、最終的な成果物を強化することが期待できます。 具体的なシナリオとしては、スケッチの描き始めを自動的に生成すること、描き手の部分的なスケッチに基づいて次のストロークや完成を提案すること、さらなるアイデアを刺激する可能性のあるスケッチの解釈をユーザーに提示することなどが挙げられます。 クリエイティブなスケッチに関するAIの構築は難しいです。スケッチは多様で複雑です。視覚的に珍しいと感じさせる描写であると同時に、認識できるものである必要があります。 また創造性は、美学やスタイルといった主観的な解釈があり、絶対的な指標がありません。 (手法)創造的なスケッチを生成できるAIの構築 Vedanuj

                                                              【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説) | AIDB
                                                            • アドビが凄い「アニメの表情」技術をつくりました【AI×アート】(論文解説) | AIDB

                                                              アニメキャラ、話す表情に違和感は? 人の表情をアニメーション化することは、映画制作、ビデオストリーミング、コンピュータゲームなどの分野で不可欠です。しかし、近年の技術進歩にもかかわらず、リアルな顔のアニメーションを人手を介さずに生成することは、未だに実現できていません。 従来の手法では、音声と顔の動きの間のマッピングを学習することでアニメーションの作成を行っています。しかし顔の動きは非常に複雑なので、このようなマッピングを見つけることは非常に困難で手間のかかる作業でした。 話者のアニメーション制作における課題に対して、実際にどんな研究が行われているのでしょうか。Adobe(アドビ)のYang Zhouら研究者の発表を紹介します。 研究者らは、音声信号と話者の画像などの情報を分離して解析することで、リアルなアニメーションの制作を試みました。 ▼論文情報 著者:YANG ZHOU, XINTO

                                                                アドビが凄い「アニメの表情」技術をつくりました【AI×アート】(論文解説) | AIDB
                                                              • 【論文解説】OpenAI ChatGPT の仕組み『InstructGPT』を理解する

                                                                2022年11月に公開されて以来、非常に話題になっている ChatGPT ですが、今回は ChatGPT で使われているモデル『InstructGPT』を解説したいと思います。 もともと OpenAI では 『GPT-3』 という巨大言語モデルを作り、それが一般の人にも API の形で公開されていました。 (2023年3月より ChatGPT の API も公開されています。詳しくはこちらをご参照ください ⇒ 「OpenAI 『ChatGPT』APIの使い方を解説」) GPT-3 では、人間が書いたものと区別がつかないようなニュースの文章を生成したり、いくつかの例示をするだけで人間のようにうまくタスクをこなしたり、アイデアを列挙したりと様々なことができるようになっています。 OpenAI GPT-3 APIの使い方を解説 2021年11月18日にOpenAIが「GPT-3」のウェイティング

                                                                  【論文解説】OpenAI ChatGPT の仕組み『InstructGPT』を理解する
                                                                • Microsoft研究者らがチューリングテストの自動化に挑戦(AI論文解説) | AIDB

                                                                  高速な判定へ チューリングテストは、ある機械が人間的であるかどうかを判定するテストです。一般的にチューリングテストは、人間的であることを人間自身が判断します。人間的であると判定されるようなエージェントを開発するためには、迅速かつ正確に、行動を数式化・定量化する必要があります。 勿論、チューリングテストは人間が行うため、かなり正確な結果が得られますが、高速に判定を行うことは難しいです。では、このチューリングテストを自動化するとどうなるでしょうか。信頼性のある結果が得られれば良いですが、人間の感性に合致していないモデルが生成されうる可能性もあります。 チューリングテストにおける迅速に判定できないという課題において、実際にどのような研究が行われているのでしょうか。Microsoftの研究者の発表を紹介します。 研究者らは、複数のネットワークを用いることによって、人間的であるかどうかの分類器を作成

                                                                    Microsoft研究者らがチューリングテストの自動化に挑戦(AI論文解説) | AIDB
                                                                  • 【論文解説+Tensorflowで実装】VQ-VAEを理解する

                                                                    今回は、VQ-VAE(Vector Quantised-Variational AutoEncoder)を解説したいと思います。 VQ-VAEもVAE(Variational AutoEncoder)と同じで潜在変数を使った画像などの生成モデルです。 通常のVAEと違うところは、VAEでは潜在変数\(z\)が連続的なベクトルを取りましたが、VQ-VAEでは潜在変数が離散的なベクトルを取る点です。 画像や自然言語は本来離散的なもので、例えば「犬」から「猫」へ少しずつ変化していくものでありません。 ですので、潜在変数を離散的にすることは自然であると言えます。 では、以下の論文をもとに解説していきたいと思います。 『Neural Discrete Representation Learning』 最後にTensorflowで実装していますので、そちらも参考にしていただければと思います。 PyTo

                                                                      【論文解説+Tensorflowで実装】VQ-VAEを理解する
                                                                    • 論文解説∶Segment Any Anomaly∶プロンプトを使った学習要らずの異常検知

                                                                      0. 論文情報 "Segment Any Anomaly without Training via Hybrid Prompt Regularization" arxiv URL:https://arxiv.org/abs/2305.10724 Github URL:https://github.com/caoyunkang/Segment-Any-Anomaly 1. TL;DR VAND 2023 ChallengeというZero-shot, Few-shot異常検知の精度を競うコンペで準優勝 異常画像だけでなく正常画像さえも必要としない、学習必要なしのZero-shotモデル プロンプトを使って異常の種類を指定 2. 概説 Segment Any Anomalyには、 必要最低限の実装であるSAA (バニラモデル) SAAの問題点を解決したバージョンであるSAA+ があるため、それぞ

                                                                        論文解説∶Segment Any Anomaly∶プロンプトを使った学習要らずの異常検知
                                                                      • えるエル on Twitter: "Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r"

                                                                        Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r

                                                                          えるエル on Twitter: "Googleの元研究者による、2012年〜2019/2020年までの、各年の絶対に抑えておくべきベスト機械学習アルゴリズムの論文、解説と、TensorFlow、PyTorchの各実装への案内をまとめた記事… https://t.co/Z6GDORwt3r"
                                                                        • 論文解説 Group Equivariant Convolutional Networks - Fire Engine

                                                                          前回の記事では、Equivariant Neural Networksというデータの対称性に着目した深層学習の設計の新しいパラダイムについて概観した。 blog.tsurubee.tech 今回は、2016年に登場したEquivariant Neural Networksの先駆け的な存在であるGroup Equivariant Convolution Networksの論文を解説する。 目次 論文紹介 アブストラクト和訳 群論の予備知識 群の定義 群の具体例 1. 並進群(Translation group) 2. p4m群 準同型写像 群の作用 同変性 従来のCNNの同変性 Group equivariant Convolutional Neural Networks(G-CNNs) G-CNNsとは 群上の関数 G-convolution:群同変な畳み込み層 第1層目 第2層目以降 評

                                                                            論文解説 Group Equivariant Convolutional Networks - Fire Engine
                                                                          • [深層学習]4000倍早いTransformer, Self-Attentionの計算量がO(n^2)からO(n)になった[論文解説] - Qiita

                                                                            [深層学習]4000倍早いTransformer, Self-Attentionの計算量がO(n^2)からO(n)になった[論文解説]DeepLearning深層学習Transformer Attentionを爆速にした論文Transformers are RNNsを解説 こんにちはYosematです! 今回は長いこと計算時間が問題になっていたAttentionが爆速になってしまったという論文Transformers are RNNsを解説していきます。 今後も論文解説を続けていきますのでぜひTwitterとQiitaをフォローしてください!モチベ上がります! 忙しい人向け Attentionの計算に内積を使うのをやめてカーネル関数を使う Self-Attentionの計算オーダーが$O(n^2)>>O(n)$になった 計算は爆速になったけどパフォーマンスはcompetetive! Tra

                                                                              [深層学習]4000倍早いTransformer, Self-Attentionの計算量がO(n^2)からO(n)になった[論文解説] - Qiita
                                                                            • 【論文解説】EfficientDet: Scalable and Efficient Object Detection - Qiita

                                                                              概要 Efficientな物体検出モデル、EfficientDetの論文を読んだので、ざっくり紹介します。 本論文の新規性は以下の2点です。 複数の解像度の特徴マップをうまく混合してFeaturePyramidを得るための方法であるBiFPNを提案。 Efficientの名を冠している通り、分類モデルのEfficientNetの影響を受けている。特徴抽出のバックボーンとしてEfficientNetを使用するだけでなく、EfficientNetのようにネットワークの容量をスケールさせるパラメータを導入し、FLOPsと精度のバランスを図っていまる。一番大きなEfficientDet-D7は、MS COCOデータセットで51.0mAPを達成し、論文発表時点でのSotAを主張している。 書誌情報 Tan, Mingxing, Ruoming Pang, and Quoc V. Le. "Effic

                                                                                【論文解説】EfficientDet: Scalable and Efficient Object Detection - Qiita
                                                                              • Magic animate論文解説

                                                                                世の中の進みが早すぎてついていけません はじめに Animate Anyoneが出てきて数日、まだコードもモデルも公開されていないうちに新しい高精度動画生成手法が発表されました。 名前はMagic animate、TickTok運営元が研究開発した生成モデルとのこと。 しかも今回はモデルもコードも公開されており、すでに誰でも触れる状況にあります。 僕も早速弄り倒そうかと思ったのですが、モデルインプレは別に僕がやらなくても誰かが書くだろうと思い直したので、とりあえず論文から読もうかなと思います。 という訳で今回も速報論文解説をやっていきます(論文紹介の味を占めただけ) 元論文はこちら(https://arxiv.org/pdf/2311.16498.pdf) 論文解説 概要 この研究は、ある特定の動作シーケンス(デモ動画見る限りはセグメント情報を主に使っていそう。ただ機構的にいろいろな動作シ

                                                                                  Magic animate論文解説
                                                                                1

                                                                                新着記事