タグ

satojkovicのブックマーク (28,188)

  • マルチモーダルLLMを理解する - Qiita

    想像してみてください: お気に入りのソーシャルメディアをスクロールしていると、絵のように美しくて素晴らしい風景画像に出くわします。興味をそそられたあなたは、仲間からの反応を期待して、その場所に関する質問を入力します。すると、仲間に代わって機械が風景と場所をそのまま識別し、詳細な説明に加えて、近くのアトラクションまで提案してくれました。 このシナリオはサイエンスフィクションではなく、さまざまなモダリティ(様式)を組み合わせることでAIの世界を拡張する マルチモーダルLLM (以下、M-LLMと記載します)の可能性を示しています。 M-LLMはマルチモーダル情報をシームレスに統合し、テキスト、画像、音声などを含む多様な形式のデータを処理して世界を把握できるようにします。M-LLMの中核は、さまざまなデータ型を取り込むことができる汎用性の高いニューラルネットワークで構成され、それによってさまざま

    マルチモーダルLLMを理解する - Qiita
  • LLMのファインチューニングを他手法との違いから理解する(Part 2) | データアナリティクスラボ

    JOURNALについて データアナリティクスラボ株式会社では、ITやデータサイエンスに関する技術の研究活動を行っています。このブログでは、研究活動で得られた知見や検証結果についての情報を発信します。 ブログで提供される情報は、可能な限り正確かつ最新の情報であるように努めますが、必ずしもその正確性を保証することはできません。場合によっては誤情報が含まれたり、最新の情報ではない可能性もあります。予めご了承いただけますようお願い申し上げます。 はじめに データソリューション事業部の宮澤です。 記事は「LLMのファインチューニングを他手法との違いから理解する」のPart 2です。Part 1をまだお読みでない方はぜひPart 1からご覧いただければ幸いです。 LLMのファインチューニングを他手法との違いから理解する(Part 1) Part 1では初期の事前学習を終えたLLMのベースモデルに対

    LLMのファインチューニングを他手法との違いから理解する(Part 2) | データアナリティクスラボ
  • LLMのファインチューニングを他手法との違いから理解する(Part 1) | データアナリティクスラボ

    JOURNALについて データアナリティクスラボ株式会社では、ITやデータサイエンスに関する技術の研究活動を行っています。このブログでは、研究活動で得られた知見や検証結果についての情報を発信します。 ブログで提供される情報は、可能な限り正確かつ最新の情報であるように努めますが、必ずしもその正確性を保証することはできません。場合によっては誤情報が含まれたり、最新の情報ではない可能性もあります。予めご了承いただけますようお願い申し上げます。 はじめに データソリューション事業部の宮澤です。 2024年に入って2ヶ月が経ちましたが生成AIの勢いは止まらず、日国内でもGENIAC1をはじめとして、生成AIの開発と活用が加速しているように感じます。最近では、ビジネスでの実用を視野に入れ、既存のLLMを自社ドメインや特定の目的にカスタマイズする動きが活発になってきました。LLMのカスタマイズ手法と

    LLMのファインチューニングを他手法との違いから理解する(Part 1) | データアナリティクスラボ
  • GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り | DOORS DX

    このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。この記事では、GPT-4の登場から執筆日(2023年5月31日時点)までの2ヶ月間で登場した論文を振り返りながら、まとめて紹介していきます。 こんにちは。AIソリューションサービス部の濵田です。 GPT-4が2023年3月14日の登場から早くも2ヶ月以上が経ちましたが、そのわずか2ヶ月くらいの間に非常に多くのLLMに関する論文がでてきました。特にChatGPTの限界や特性に言及した研究やオープンソースLLM、ChatGPTのドメインへの応用といった分野の論文が、Twitterや当社内で注目を集めていました。 この記事ではGPT-4の登場から執筆日時点(2023年5月31

    GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り | DOORS DX
  • Summary of the tokenizers

  • leetcode時代の外資コーディング面接対策 - Qiita

    GAFAMとかFAANGとかいわれるような企業群、あるいはそれに近い傾向(東京であればおそらくIndeedとかPFNとか)のソフトウェアエンジニア面接対策についてメモを残す。 コーディング面接とleetcode 外資IT企業ではソフトウェアエンジニアを雇う際にコーディング面接を非常に重視する。 業務上のコーディングよりは簡単めのプログラミングコンテスト問題に近く、アメリカの学生やエンジニアIT企業を受ける際には事前対策を数ヶ月するのが常識になっているようだ。 一般的な面接プロセスについては世界で闘うプログラミング力を鍛えるというに詳しいが、ソフトウェアエンジニアとしてオファーを得るまでには通常、45~60分程度のコーディング面接を3~5セッション程度経ることになる。 ここ数年、leetcode.comというコーディング面接の過去問サイトが広く候補者に使われるようになっている。 201

    leetcode時代の外資コーディング面接対策 - Qiita
  • Facebook London に入社することになりました

    A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

    Facebook London に入社することになりました
  • Multimodality and Large Multimodal Models (LMMs)

    For a long time, each ML model operated in one data mode – text (translation, language modeling), image (object detection, image classification), or audio (speech recognition). However, natural intelligence is not limited to just a single modality. Humans can read and write text. We can see images and watch videos. We listen to music to relax and watch out for strange noises to detect danger. Bein

    Multimodality and Large Multimodal Models (LMMs)
  • 小型LLMでマルチモーダル学習~推論を試してみた|sharp_engineer

    研究開発部 樋口栄作 はじめに最近GPT-4oが発表され、紹介動画を見ているとAIが画像を当たり前に見て、答えるようになっていますね。一緒に散歩したり、買い物したり、ボードゲームAIと遊ぶなんて日も遠くないのかもしれない、そんな期待のある最近のLLM界隈ですが、この画像を見て回答する、という技術は一体どうやっているのか?気になりますね。 技術を学ぶにも、手元で動かせるものがあるとやりやすい&わかりやすい、ということは往々にあるかと思います。記事では、画像+テキストなど、いわゆるマルチモーダルの技術に触れてみよう!ということで、LLaVA (Large Language and Vision Assistant) を試してみました。 LLaVA の公式リポジトリでは、学習済みモデルとして7Bのモデル (llama-2-7b-chat をベースにしたモデル) を提供していまして、すぐに推

    小型LLMでマルチモーダル学習~推論を試してみた|sharp_engineer
  • 非効率で遠回りな学習が一番効率的で応用が利く|shinshinohara

    教科書や参考書を使った効率的学習がとても非能率で、遊びの中で好きなことを好きなだけ学ぶ非効率なやり方がとても能率がよいのは気がついていたけど、それがなぜなのか、長らく言語化が難しかった。人工知能の研究の話を聞いてから、「ああ!だからか!」と納得がいった。 昔の人工知能では、モノをつかむということがとても難しかったらしい。いくら「正解」を覚えさせても少しズレたり荷物の形が違うだけでつかめなくなってしまう。応用力がまるでなく、なかなか使い物にならなかったらしい。 しかし「深層学習」という手法を取り入れてから、劇的に改善したという。 深層学習では、「正解」を教えない。ただ、右から左へ荷物を動かそうとする「動機」だけプログラムする。するとロボットアームは何度も荷物をつかもうとトライしては落とす。何百回、何千回も失敗を重ねる。そして一つ一つの失敗から学習を重ねていく。すると。 やがて「こういう形の荷

    非効率で遠回りな学習が一番効率的で応用が利く|shinshinohara
  • 「こう来たら、そう返すよね」をモデル化するLLMの自己回帰モデル

    「こう来たら、そう返すよね」をモデル化するLLMの自己回帰モデル目次1. はじめに 2. 「こう来たら、そう返すよね」 3. 「こう来たら、そう返すよね」を条件付き確率でモデル化する方法 4. 大規模言語モデルが使っている条件付き確率 5. トークン 6. 自己回帰モデル:トークンを用いた条件付き確率の式 7. 大規模言語モデルの事前学習における「条件付き確率の学び」 8. 自己回帰モデルからハルシネーションを捉える 9. まとめ 1. はじめに先日、The Cambridge Dictionary Word of the Year 2023が発表されていました。それはなんと hallucinateでした!意味はもちろん、AIのあの動作のことでした。 "When an artificial intelligence hallucinates, it produces false infor

    「こう来たら、そう返すよね」をモデル化するLLMの自己回帰モデル
  • 【都知事選×テクノロジー】東京都知事選におけるHuman-in-the-Loop機械学習|NSK

    安野たかひろ事務所 技術チームの角野です。前回の投稿ではAIあんのにおける返答生成技術の詳細に触れましたが、今回は返答生成に用いるデータの整備に焦点を当てて解説します。 なぜデータの整備が必要なのか?AIあんのでは政策に関する質問に対してLLMで返答の生成を行っていますが、元のLLMには安野の政策に関する知識が含まれておらず、そのままでは政策に関する質問には回答できません。 そこで、前回の記事でも解説しましたが、AIあんのではLLMに入力するプロンプト中に政策に関する知識を注入することで、政策に関する質問に回答できるようにしています。当然知識がない質問に対しては回答できないため、ユーザーの質問に対して正確に回答するには政策に関する知識をデータとして整備することが重要となります。 返答生成に利用しているデータAIあんのでは、次の2種類のデータを返答生成時に利用しています。 今回の記事では、私

    【都知事選×テクノロジー】東京都知事選におけるHuman-in-the-Loop機械学習|NSK
  • LEIA: 言語間転移学習でLLMを賢くする新しい方法

    Studio Ousiaと理化学研究所に所属している山田育矢です。 この記事では、大規模言語モデル(LLM)の性能を向上させる新しい方法であるLEIA(Lightweight Entity-based Inter-language Adaptation)を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。 この度、英語・日語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。 ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ

    LEIA: 言語間転移学習でLLMを賢くする新しい方法
  • BM42: New Baseline for Hybrid Search - Qdrant

    Please note that the benchmark section of this article was updated after the publication due to a mistake in the evaluation script. BM42 does not outperform BM25 implementation of other vendors. Please consider BM42 as an experimental approach, which requires further research and development before it can be used in production.For the last 40 years, BM25 has served as the standard for search engin

    BM42: New Baseline for Hybrid Search - Qdrant
  • AI Choreographer: Music Conditioned 3D Dance Generation with AIST++

    AI Choreographer Music Conditioned 3D Dance Generation with AIST++ Ruilong Li*1,2 Shan Yang*2 David A. Ross2 Angjoo Kanazawa2,3 1University of Southern California 2Google Research 3UC Berkeley We present a crossmodal transformer-based architecture (FACT) model and a new 3D dance dataset AIST++, which contains 3D motion reconstructed from real dancers paired with music (left). Our model generates r

    AI Choreographer: Music Conditioned 3D Dance Generation with AIST++
  • リアルタイムで次の行動を導く「未来予測アプリ」:東大の研究チームが開発

  • GPT-3の衝撃 - ディープラーニングブログ

    この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3OpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

    GPT-3の衝撃 - ディープラーニングブログ
  • Vision Language Models Explained

    Finding the right Vision Language Model There are many ways to select the most appropriate model for your use case. Vision Arena is a leaderboard solely based on anonymous voting of model outputs and is updated continuously. In this arena, the users enter an image and a prompt, and outputs from two different models are sampled anonymously, then the user can pick their preferred output. This way, t

    Vision Language Models Explained
  • 歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向

    歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向
  • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

    大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

    RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳