サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
ai-scholar.tech
3つの要点 ✔️ 適応勾配訓練方法では学習率の選択が重要で、これを自動で行えると効率が向上。 ✔️ 新しいアルゴリズムADAMGが提案され、AdaGrad-Normの派生版であるゴールデンステップサイズを利用。 ✔️ ADAMGは複数のベンチマークテストにおいて優れた性能を示し、既存のパラメータフリー手法よりも安定。 Towards Stability of Parameter-free Optimization written by Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou (Submitted on 7 May 2024) Comments: Published on arxiv. Subjects: Machine Learning (cs.LG) code: 本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそ
3つの要点 ✔️ 人間の記憶特性とLLMとの類似性を調査するための様々な実験を実施 ✔️ プライマシー効果やリーセンシー効果、反復による記憶の強化といった人間特有の現象がLLMにも現れることを確認 ✔️ LLMが人間の生物学的な記憶のメカニズムを研究するために有用なツールであると証明 Aspect of human memory and Large Language Models written by Romuald A .janik (Submitted on 7 Nov 2023 (v1), last revised 8 Apr 2024 (this version, v3)) Comments: Published on arxiv. Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI);
3つの要点 ✔️ TransformerモデルのMLP層をKolmogorov-Arnold Network(KAN)に置き換えた「Kolmogorov–Arnold Transformer(KAT)」を提案 ✔️ 合理関数とグループ化されたKAN層を採用し、計算効率と精度を向上 ✔️ 画像分類や物体検出などで優れたパフォーマンスを示した Kolmogorov-Arnold Transformer written by Xingyi Yang, Xinchao Wang (Submitted on 16 Sep 2024) Comments: Code: this https URL Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recogni
3つの要点 ✔️ LLMの潜在表現からゼロ階述語論理の形式で事実知識を抽出し、その時系列変化を知識グラフで可視化 ✔️ 局所的な分析から実体解決や推論の失敗が、大局的な分析からは興味深い変遷パターンが明らかに ✔️ 人工知能システムの信頼性や安全性の向上に重要な示唆を与える Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph written by Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini (Submitted on 1 Jul 2021) Comments: Preprint. Under review. 10 pages, 7 figures Subject
3つの要点 ✔️ LLMは入力できるプロンプト長に限度があり、長い文章の要約ができない等の問題 ✔️ プロンプトをパラメータに圧縮して記憶する部分を導入したLLMの注意機構を提案 ✔️ 無限の長さのプロンプトを処理可能に。本の要約タスクで最高性能を達成 Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention written by Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal (Submitted on 10 Apr 2024) Comments: 9 pages, 4 figures, 4 tables Subjects: Computation and Language (cs.CL); Artificial
3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Language Models written by Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang (Submitted on 8 Mar 2024) Comments: Published on arxiv. Subjects: Programming Languages (cs.PL); Computation and Language (cs.CL) code: 本記事で使用してい
3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)
3つの要点 ✔️ 評価のコストが高いシステムの効率的な最適化技術としてベイズ最適化がある ✔️ 改善量の期待値(EI)を計算することで解の改善に必要な試行錯誤を削減可能 ✔️ パラメータが高次元の場合のEIの不具合を解決することで予想外の改善を達成 Unexpected Improvements to Expected Improvement for Bayesian Optimization written by Sebastian Ament, Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy (Submitted on 31 Oct 2023 (v1), last revised 18 Jan 2024 (this version, v2)) Comments: NeurIPS 2023 Spotlig
3つの要点 ✔️ 搭載するメモリ(DRAM)をオーバーするサイズの大規模言語モデルの推論を実行する方法を提案 ✔️ フラッシュメモリに保存されたモデルパラメータのうち、目下の推論に必要な最小限のモデルパラメータだけをDRAMに高速に転送するため、windowingとrow-column bundlingを提案 ✔️ 大規模言語モデルのモデルパラメータの半分しかDRAMに載らない場合において、提案手法は、素朴な方法に比べ、CPUでは4-5倍、GPUでは20-25倍の高速化を達成 LLM in a flash: Efficient Large Language Model Inference with Limited Memory written by Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Mins
3つの要点 ✔️ 感情情報を入力プロンプトに込めることでLLMの性能が向上 ✔️ 感情を込めたプロンプト技術「EmotionPrompt」を提案 ✔️ 将来のAGI開発の足掛かりとしても期待 Large Language Models Understand and Can be Enhanced by Emotional Stimuli written by Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie (Submitted on 14 Jul 2023 (v1), last revised 12 Nov 2023 (this version, v7)) Comments: TTechnical report; update
3つの要点 ✔️ 言語のみのGPT-4を使用した視覚的命令チューニングが有効であることが実証されています。 ✔️ 自動パイプラインを導入し、言語と画像の指示に従うデータを生成する方法を提示しています。 ✔️ 今後は、データスケールの拡大と大規模な画像テキストデータでの事前トレーニングや、チャットアシスタントの向上とビジョンモデルの統合による新たな機能の可能性の探求がされます。 Visual Instruction Tuning written by Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee (Submitted on 17 Apr 2023 (this version), latest version 11 Dec 2023 (v2)) Comments: project page: this https URL Subject
3つの要点 ✔️ 大規模言語モデルで観察される創発を検証 ✔️ LLMの創発は評価指標が見せる幻影である可能性を示唆 ✔️ LLM以外のモデルにおいて特定の評価指標を用いることで意図的に実際には発生していない創発を再現することに成功 Are Emergent Abilities of Large Language Models a Mirage? written by Rylan Schaeffer, Brando Miranda, Sanmi Koyejo (Submitted on 28 Apr 2023 (v1), last revised 22 May 2023 (this version, v2)) Comments: Published on arxiv. Subjects: Artificial Intelligence (cs.AI); Machine Learning (
3つの要点 ✔️ 多様なエージェント間での討論プロセスを設計したマルチエージェントフレームワークであるRECONCILEを提案 ✔️ 性能の低いエージェント同士に討論を行わせることで、GPT-4と同等以上の性能を獲得 ✔️ 多様なエージェントから外部フィードバックを得ることにより、GPT-4の性能をさらに向上させることに成功 ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs written by Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal (Submitted on 22 Sep 2023) Comments: Published on arxiv. Subjects: Computation and Lang
3つの要点 ✔️ 大規模言語モデルを強化学習における方策として捉え,追加学習させる ✔️ 強化学習タスクを言語で表現する環境やプロンプトを開発 ✔️ 大規模言語モデルを強化学習に使用することによって,サンプル効率や汎化性能に向上が見られることがわかった Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning written by Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer (Submitted on 6 Feb 2023 (v1), revised 12 May 2023 (this version, v2),
3つの要点 ✔️ 実世界の専門知識を組み込んだSOPsをLLMエージェントにエンコードするマルチエージェントフレームワークであるMetaGPTを提案 ✔️ 実験により、既存手法と比較してより一貫性のある包括的なソリューションを生成できることを証明 ✔️ MetaGPTを用いることで、従来のソフトウェアエンジニアリングにかかるコストを1000分の1以下に削減 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework written by Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu
3つの要点 ✔️ 異常検知問題ベンチマークであるMVTecデータセットにおいてSOTAを達成! ✔️ 事前学習済みモデルを活用することで特徴抽出部分のCNNの学習が不要 ✔️ CNNから得られた特徴を効率的にサンプリングすることで推論の高速化が可能 Towards Total Recall in Industrial Anomaly Detection written by Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler (Submitted on 15 Jun 2021 (v1), last revised 5 May 2022 (this version, v2)) Comments: Accepted to CVPR 2022 Subjects: Com
3つの要点 ✔️ Attentionのレイヤー毎の特徴を再現することで,計算量の削減を達成 ✔️ Sliding Window Attenion、Dilated Sliding Window Attention、Global Attentionという3つのAttentionを使ってTransformernの計算量を削減した ✔️ 計算量を削減しただけではなくて,当時のSOTAを達成している. Generating Long Sequences with Sparse Transformers written by Rewon Child, Scott Gray, Alec Radford, Ilya Sutskever (Submitted on 23 Apr 2019) Comments: Published on arxiv. Subjects: Machine Learning (c
3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L
3つの要点 ✔️ 大規模言語モデルが外部ツールをどの程度効果的に利用しているかを評価する新しいデータセットToolQAを開発。 ✔️ 大規模言語モデルはToolQAの難しい問題に対して限定的な性能を示し、エラー傾向を示す。 ✔️ 大規模言語モデルに外部ツールの使用法を学習させることで外部ツールの利用能力のさらなる向上を期待。 ToolQA: A Dataset for LLM Question Answering with External Tools written by Yuchen Zhuang, Yue Yu, Kuan Wang, Haotian Sun, Chao Zhang (Submitted on 23 Jun 2023) Comments: Published on arxiv. Subjects: Computation and Language (cs.CL); A
3つの要点 ✔️ 大規模言語モデル(GPT-3.5とGPT-4)の性能が短期間で大きく変わる可能性を示唆。 ✔️ 大規模言語モデルの性能の中長期的な変化を理解するため、継続的な調査が必要。 ✔️ 大規模言語モデルの性能変化に関する研究促進のため、本実験の評価データとChatGPTのレスポンスを公開。 How is ChatGPT's behavior changing over time? written by Lingjiao Chen, Matei Zaharia, James Zou (Submitted on 18 Jul 2023) Comments: Published on arxiv. Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (
3つの要点 ✔️ Focal Lossのハイパーパラメータγを適応的に調整するAdaFocalを提案 ✔️ 既存手法と比べ、同等の分類性能を保ちながら高いcalibration性能を達成 ✔️ 分布外検出タスクにおいても有効性があることが確認された AdaFocal: Calibration-aware Adaptive Focal Loss written by Arindam Ghosh, Thomas Schaaf, Matthew R. Gormley (Submitted on 21 Nov 2022 (v1), last revised 16 Jun 2023 (this version, v2)) Comments: Published in NeurIPS 2022. Subjects: Machine Learning (cs.LG); Computer Vision a
3つの要点 ✔️ 生成AIを活用してUI画像を生成し、UIデザインを効率化 ✔️ UIコンポーネントとテキストからUIを自動生成 ✔️ 現時点ではUIデザイナーにアイデアを提供するツールとして有用 Boosting GUI Prototyping with Diffusion Models written by Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray (Submitted on 9 Jun 2023) Subjects: Software Engineering (cs.SE); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)
3つの要点 ✔️ ChatGPTに株式市場の値動きを予測する能力が備わっているかを調査 ✔️ ニュースの見出しからその会社の株価にとっての影響(センチメント)を予測するタスク ✔️ ChatGPTのセンチメント予測は既存の手法より優れており,ChatGPTの出力に基づいた取引戦略はベースライン戦略よりも高い性能を叩き出した Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models written by Alejandro Lopez-Lira, Yuehua Tang (Submitted on 15 Apr 2023 (v1), last revised 22 Apr 2023 (this version, v2)) Comments: Previously po
3つの要点 ✔️ 大規模言語モデルと効果的な会話を行うためのプロンプトパターンを体系化 ✔️ 特定のドメインにとらわれない,汎用的なプロンプト設計の手法について紹介 ✔️ 特に,プロンプト設計の背後にある考え方や問題設定,注意点等を整理 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT written by Jules White,Quchen Fu,Sam Hays,Michael Sandborn,Carlos Olea,Henry Gilbert,Ashraf Elnashar,Jesse Spencer-Smith,Douglas C. Schmidt (Submitted on 21 Feb 2023) Comments: Published on arxiv. Subjects: Softwa
3つの要点 ✔️ LLMを外部のツールと組み合わせて能力を拡張することが行われていますが、LLM自身にこのツールを生成させることにより、より広い範囲で柔軟に能力拡張することをめざしています ✔️ LATMは、ツール生成、ツール利用およびツール選択の部分を持ち、ツール生成とツール利用は、異なるLLMをしようすることができます ✔️ 強力なツールとなりえる一方、倫理、安全、制御に関する懸念もより深くなります。しかるべき手順を踏んで、用途が広がることが望まれます Large Language Models as Tool Makers written by Tianle Cai, Xuezhi Wang, Tengyu Ma, Xinyun Chen, Denny Zhou (Submitted on 26 May 2023) Comments: Code available at this h
このような計画プロセスを設計するために、人工知能(および認知科学)の起源に戻り、1950年代からNewell、Shaw、Simonが探求した計画プロセスからインスピレーションを得ました。Newellたちは、問題解決を、木として表現された組合せ問題空間の探索として特徴付けました。そこで著者たちは、言語モデルによる一般的な問題解決のためのTree of Thoughts (ToT)フレームワークを提案します。Fig.1が示すように、既存の方法が問題解決のために連続的な言語シーケンスをサンプリングするのに対し、ToTは積極的に思考の木を維持し、各思考は問題解決への中間段階として機能する首尾一貫した言語シーケンスとなります(Table 1)。このような高レベルの意味単位により、LMは、言語でもインスタンス化される意図的な推論プロセスを通じて、異なる中間思考が問題解決に向けてどのように進んでいるかを
3つの要点 ✔️ NeurIPS 2022採択論文です。時系列予測モデルであり、複雑な時間的ダイナミクスを持つ時系列を効果的にモデル化するSCINetを提案しています。 ✔️ SCINetは、豊富な畳み込みフィルタを持つ階層的なダウンサンプル-畳み込み-相互作用構造です。異なる時間分解能の情報を反復的に抽出・交換し、予測可能性を高めた効果的な表現を学習します。 ✔️ SCINetは、実世界の様々な時系列予測データセットにおいて、既存の畳み込みモデルやTransformerベースのソリューションと比較して、予測精度の大幅な向上を達成しています。 SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction written by Minhao Liu, Ailing Zeng, Muxi
3つの要点 ✔️ 画像をグラフ構造として表現するコンピュータビジョンモデル「Vision GNN(ViG)」の提案 ✔️ 画像のパッチをノードとみなし、近いパッチを繋いでグラフを構成し、不規則で複雑なオブジェクトを表現する ✔️ 画像認識と物体検出に関する実験により、提案するViGアーキテクチャの優位性を実証した Vision GNN: An Image is Worth Graph of Nodes written by Kai Han,Yunhe Wang,Jianyuan Guo,Yehui Tang,Enhua Wu (Submitted on 1 Jun 2022 (v1), last revised 4 Nov 2022 (this version, v3)) Comments: NeurIPS 2022 Subjects: Computer Vision and Patter
3つの要点 ✔️ InstructGPTを使って対話形式で医療情報を自動的に取得する手法を提案 ✔️ 略語の特定、医学実験の群情報抽出や投薬情報抽出などのタスクを実験 ✔️ Zero-shot, few-shotで従来の先行研究を大幅に上回る精度を達成 Large Language Models are Few-Shot Clinical Information Extractors written by Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim, David Sontag (Submitted on 25 May 2022 (v1), last revised 30 Nov 2022 (this version, v2)) Comments: Accepted as a long paper to The 2022
次のページ
このページを最初にブックマークしてみませんか?
『AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く