AIに関するranto381124のブックマーク (142)

  • 深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta

    深層学習の技術が著しく進歩した結果、コンピュータビジョンや自然言語処理、音声信号処理などの分野では深層学習モデルの性能が古典的な手法のを大きく上回っており、すでにスタンダードなアプローチになっています。 しかし、テーブルデータを扱うタスクにおいては、深層学習の有効性は明らかになっていません。記事では、AI Solution 事業部のアルゴリズムエンジニアよりテーブルデータにおける従来手法と深層学習の比較論文のご紹介をしていきます。 背景近年、テーブルデータを扱う深層学習モデルも登場し、一部の論文では決定木ベースのモデルと同等かそれ以上の性能を示しています。しかし、私が実務で試す中では決定木ベースのモデルの方が性能が高く、学習と推論が速く運用コストでも優れているため、深層学習モデル採用には至っていません。 より一般的なテーブルデータのタスクにおける、決定木ベースモデルと深層学習モデルとの性

    深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta
  • 大規模言語モデル(LLM)に精度・知識の更新速度・回答の透明性などを与える「RAG(検索拡張生成)」

    ChatGPTGoogleBardMicrosoftのBing AIなど、2023年はチャットAIが急速に普及する1年となりました。そんなチャットAIのベースとなる大規模言語モデル(LLM)は、「幻覚を引き起こす」「知識更新が遅い」「回答の透明性が欠如する」といった問題を抱えているのですが、これらを解消することができるテクノロジーが「RAG」です。 [2312.10997] Retrieval-Augmented Generation for Large Language Models: A Survey https://arxiv.org/abs/2312.10997 GitHub - Tongji-KGLLM/RAG-Survey https://github.com/Tongji-KGLLM/RAG-Survey ChatGPTなど急速に普及するチャットAIのベースとなるLLM

    大規模言語モデル(LLM)に精度・知識の更新速度・回答の透明性などを与える「RAG(検索拡張生成)」
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
  • モバイル学習モデルの俯瞰: MobileNetV1からEfficientNetV2まで

    MobileNetV3とEfficientNetV2の比較 MobileNetV3とEfficientNetV2は、どちらも軽量なアーキテクチャでありながら、優れた精度を実現できるCNNです。 以下に両者の比較として、いくつかの共通点と相違点を挙げます。 共通点 どちらも、Depthwise Convolution[2]とSqueeze-and-Excitation Module[3]を採用している。 どちらも、複数のバリエーションが用意されている。 相違点 アーキテクチャの構成 MobileNetV3は、Inverted Residual Block[4]を基的な構成単位としています。 EfficientNetV2は、Squeeze-and-Excitation Block[5]を含み、スケーラビリティと効率を重視した構造を採用しています。 計算量の削減手法 MobileNetV3は、

    モバイル学習モデルの俯瞰: MobileNetV1からEfficientNetV2まで
  • なぜビジョントランスフォーマーはこれほど高性能なのか。

    3つの要点 ✔️ ViTは、すべての層でより均一な表現(特徴量)を持っている。つまり各層での表現が似ている。 ✔️ ViTは、自己注意(self-attention)により早期にグローバルな情報を集約できる。 ✔️ ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transformers See Like Convolutional Neural Networks? written by Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy (Submitted on 19 Aug 2021 (v1), last revised 3 Mar 2022 (this version, v2)) Comments: Published on arxiv.

    なぜビジョントランスフォーマーはこれほど高性能なのか。
  • Batch Normalizationとその派生の整理

    概要 Deep Learningでは訓練データを学習する際は一般にミニバッチ学習を行います。 学習の1ステップでは巨大なデータセットの中から代表的なデータを一部取り出して、全体データの近似として損失の計算に使います。バッチことに平均の損失を計算することで、データ数に関係なく統一した学習をすることが狙いです。記事ではニューラルネットワークの学習安定化を図るためのバッチ正規化手法“Batch Normalization”について議論します。 学習時の重みの初期値の重要性 勾配消失・過学習などに陥って学習に失敗した際、様々なことが要因のして考えられますが中でも見落としがちなのが重みの初期値です。各層の活性化関数の出力の分布は適度な広がりを持つことが求められます。適度に多様性を持ったデータが流れたほうが効率的な学習ができますが、偏ったデータが流れると勾配消失が起きる場合があります。そこで、初期値

    Batch Normalizationとその派生の整理
  • 大規模言語モデルで「無限の入力」を受け付けることを可能にする手法「StreamingLLM」が開発される

    計算コストやパフォーマンスを維持したまま無限の入力を処理することが可能な大規模言語モデルの手法「StreamingLLM」の論文が2023年9月29日に公開されました。入力が長くなるにつれて最初の方の情報は失われていくため、書籍の要約などのタスクには向いていませんが、対話が長くなってもパフォーマンスを維持したままスムーズに回答をこなすことが可能になっています。 mit-han-lab/streaming-llm: Efficient Streaming Language Models with Attention Sinks https://github.com/mit-han-lab/streaming-llm [2309.17453] Efficient Streaming Language Models with Attention Sinks https://arxiv.org/a

    大規模言語モデルで「無限の入力」を受け付けることを可能にする手法「StreamingLLM」が開発される
  • Huggingface Transformers 入門 (8) - トークナイザー|npaka

    1. トークナイザー「トークナイザー」は、「テキスト」を「トークン」に分割し、それを「ID」に変換する機能を提供します。「テキスト」はそのままではニューラルネットワークで処理できないため、IDに変換する必要があります。 2. トークン化の方法テキストのトークン化は見た目以上に大変な作業で、トークン化の方法は複数あります。 ・単語 ・文字 ・サブワード2-1. 単語によるトークン化◎ スペースによるトークン化 一番簡単なトークン化の方法は、「スペースによるトークン化」です。 "Don’t you love 🤗 Transformers? We sure do." ↓ ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."] これは良い第1歩ですが、"Transformers? " や "do. " というトーク

    Huggingface Transformers 入門 (8) - トークナイザー|npaka
  • LLMのファインチューニング で 何ができて 何ができないのか|npaka

    LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。 ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。 しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

    LLMのファインチューニング で 何ができて 何ができないのか|npaka
  • 225行のコードでGPTの仕組みを理解する

    概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下で、225行しかなくとても読みやすいです。 また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。 このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。 ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo

    225行のコードでGPTの仕組みを理解する
  • [CEDEC 2023]2種類のAIの融合が今後のゲーム産業に道を示す。「ディープニューラルネットワーク付きステートマシン」が紹介されたセッションをレポート

    [CEDEC 2023]2種類のAIの融合が今後のゲーム産業に道を示す。「ディープニューラルネットワーク付きステートマシン」が紹介されたセッションをレポート 編集部:荒井陽介 CEDEC 2023の2日めとなる2023年8月24日に,立教大学大学院人工知能科学研究科の周 済涛氏と三宅陽一郎氏によるセッション,「アクションゲームにおけるディープニューラルネットワーク付きステートマシンを用いたキャラクターAI強化学習」が行われた。 2種類のAIを融合させたようなゲームキャラクターのAI開発手法と,その効果が紹介されたセッションの模様をレポートしよう。 周 済涛氏(左)と三宅陽一郎氏(右) セッションではまず三宅氏が,「今後15年の,ゲーム産業における人工知能技術の道を示したい」という目的を提示したうえで,記号型人工知能とコネクショニズムの融合を実験したと語った。 記号主義型人工知能とは,ステー

    [CEDEC 2023]2種類のAIの融合が今後のゲーム産業に道を示す。「ディープニューラルネットワーク付きステートマシン」が紹介されたセッションをレポート
  • ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

    現在の人工知能AI)を取り巻く環境では、 大規模言語モデル(LLM)の話題から、ますます大規模なニューラルネットワークの開発競争が起きている。しかし、すべてのアプリケーションが、大規模なディープラーニングモデルの計算量とメモリの要求をできるわけではない。 このような環境の制約が、いくつかの興味深い研究の方向性につながっている。MIT(マサチューセッツ工科大学)の CSAL(コンピュータ科学・人工知能研究所)の研究者が開発した新しいタイプのディープラーニングアーキテクチャ「Liquid Neural Networks」は、特定の AI 問題に対して、コンパクトで適応性が高く、効率的なソリューションを提供する。これらのネットワークは、従来のディープラーニングモデルに内在する課題のいくつかに対処するように設計されている。 Liquid Neural Network は AI の新たなイノベーシ

    ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
  • Embeddingsを使ってローカルでテキストをクラスタリングする(Multilingual-E5)

    EmbeddingsとSentence Transformers Sentence Transformersは、テキストをEmbeddings(埋め込み)と呼ばれるベクトル表現に変換するためのライブラリです。OpenAIの "text-embedding-ada002" も、Embeddingsを生成するモデルです。 テキストの意味をベクトルで表現すると、コサイン類似度などで意味の類似度が簡単に計算できるため、下記のようなタスクが容易になります。 テキストの類似度算出 分類(Classifying) クラスタリング セマンティック検索(意味に基づいた検索) 今回は、ローカルで動作させることができる "Multilingual-E5" というモデルを使って、短いテキストを分類してみます。 このモデルは、Leaderboradでも好成績を収めています。 largeモデルは、"text-embe

    Embeddingsを使ってローカルでテキストをクラスタリングする(Multilingual-E5)
  • RetNetによる学習・評価・推論

    諸注意 記事のコードブロック内のコマンドは、基的にubuntu 18.04.05 on Windowsターミナル(以下、wsl)上で実行しています。 記事の誤記や、より良い方法などがありましたら、コメント欄にてご指摘ください。 環境構築 こちらの通りに、wslとpyenv-winの競合を解消し、wsl用のpyenvをinstallします 以下のコマンドを実行し、記事用のフォルダとpython仮想環境を構築します mkdir RetNetTutorial cd RetNetTutorial mkdir .wsl_env cd .wsl_env pyenv local 3.10.4 python -V # 3.10.4 # 仮想環境構築 python -m venv ./ # pipを新しくしておく cd bin # 仮想環境起動 source activate cd ../../ #

    RetNetによる学習・評価・推論
  • LINE、36億パラメータの日本語言語モデルを公開 | AI専門ニュースメディア AINOW

    最終更新日: 2023年8月14日 LINE2023年8月14日、36億パラメータの日語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」を、OSSとして公開したことを発表した。 LINEでは2020年11月から日語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでおり、HyperCLOVAと並行する形で複数の大規模言語モデルの研究開発プロジェクトが進行している。公開されたのは36億(3.6 Billion)および17億(1.7 Billion)パラメータの日語言語モデル。1.7Bモデル、3.6Bモデル共にHuggingFace Hubの以下で公開されており、transformersライブラリから利用が可能だ。商用利用も可能なApache License 2.0となっており、研究者に限らず企業も利用可能。 1.

    LINE、36億パラメータの日本語言語モデルを公開 | AI専門ニュースメディア AINOW
  • MetaFormerについて解説

    Transformer[1]は、自然言語処理の領域を超えて、画像処理などの分野でも高いパフォーマンスを達成することができる、という大きな特徴を持っています。一般的に、Transformerがこのような高いパフォーマンスを出せる理由は、内部に採用されているAttention[1]という仕組みが優れているからだと考えられています。ところが、この記事で取り上げるMetaFormer[2]では、Attentionの性能よりも、Transformerの抽象的な設計が優れているからこそ高いパフォーマンスを達成できる、という主張がされています。記事では、その主張を簡潔に紹介します。 Transformer 概要 Transformerは、2017年にGoogleがAttention is All You Need[1]という論文でニューラル機械翻訳として提案した手法です。ニューラル機械翻訳というのはニ

    MetaFormerについて解説
  • Metaがコーディング補助AI「Code Llama」の無料公開を計画中か

    Metaは「Llama」や「Llama 2」といった大規模言語モデルをオープンソースで公開しています。新たに、Metaがコーディング補助向けに最適化した言語モデル「Code Llama」を開発中であることが報じられました。報道によると、Code Llamaもオープンソースで公開される予定とのことです。 Meta’s Next AI Attack on OpenAI: Free Code-Generating Software — The Information https://www.theinformation.com/articles/metas-next-ai-attack-on-openai-free-code-generating-software FacebookやInstagramなどのSNSを運営するMetaはAI関連の研究開発にも力を入れており、2023年2月にはOpen

    Metaがコーディング補助AI「Code Llama」の無料公開を計画中か
  • CLIPの概要とAttentionとの関りについて解説!

    近年、追加学習無しで新たなデータに対応できる学習方法、すなわち「ゼロショット学習[1]」への関心が高まっています。この興味深い進展は、自然言語処理(Natural Language Processing: NLP)の分野でゼロショット学習の可能性が見出されたことから始まりました。その代表的な成果としてGPT-3[2]が挙げられます。GPT-3は、大量のデータを元に事前学習され、未見のタスクに対してもプロンプトを通じて直ちに対応する能力を持っています。 それに対して、画像処理の分野では、ラベル付きの画像データセットを用いた従来の方法が一般的で、ゼロショット学習の適用はまだ幅広くは実現されていません。しかし、自然言語処理におけるゼロショット学習が可能となった理由として、大量のデータセットを生成しやすい環境があること、文章を扱っていることが考えられます。 この観点から、画像処理においてもゼロショ

    CLIPの概要とAttentionとの関りについて解説!
  • ICLR2023の枝刈り論文 (3) - Qiita

    概要 この記事では、ICLR2023の枝刈り論文を紹介します。1 その1 その2 Learning to Jointly Share and Prune Weights for Grounding Based Vision and Language Models 概要:Vision Language Modelの枝刈り。 研究機関:Samsung 新規性:VisionとLanguageが重み共有されるように刈りながら学習する。 キモ:TransformerのBackboneの重み共有をする。さらに互いのBackboneの枝刈りもする。 評価:Vision Languageタスクで評価した。 Over-parameterized Model Optimization with Polyak-Lojasiewicz Condition 概要:枝刈りのための正規化 新規性:Polyak-Loja

    ICLR2023の枝刈り論文 (3) - Qiita
  • FuguMTがビッグモーターみたいな文章や成り立っていない文章を出す問題と一応の解決策

    のような文章になってしまう問題 原因の切り分け Colabでの検証の結果 transfomersのバージョンが4.31.0,sentencepieceのバージョンが0.1.99の時に発生していることがわかった。(具体的にどのバージョンから発生しているのかは未検証) 解決策

    FuguMTがビッグモーターみたいな文章や成り立っていない文章を出す問題と一応の解決策