タグ

LLMに関するstealthinuのブックマーク (250)

  • GitHub - shi3z/speech-to-speech-japanese

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - shi3z/speech-to-speech-japanese
    stealthinu
    stealthinu 2024/08/22
    shi3zさんが作られてる完全ローカルで音声応答を行うシステム。ReazonSpeech-Llama3.1-MeloTTSの構成。
  • 1兆 (1T) パラメータ規模のLLMの事前学習検証 - Preferred Networks Research & Development

    Preferred Networksの子会社のPreferred Elements(以下PFE)では7月から約1ヶ月の間、1兆 (1T) パラメータ規模のLLMの事前学習について検証を行っていました。今回の記事ではこの取り組みとその結果について紹介します。 この検証は経済産業省が主導する国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」のもと、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)の助成事業に採択され、計算資源の提供支援を受けて実施しました。 超巨大モデル学習の目的 今回の取り組みは、超巨大な (1Tクラスの) DNNモデルを学習できるかを確認することを目的としています。そもそもなぜこの検証をしたのかについての説明から始めようと思います。 LLMの事前学習では、学習に利用したデ

    1兆 (1T) パラメータ規模のLLMの事前学習検証 - Preferred Networks Research & Development
    stealthinu
    stealthinu 2024/08/21
    1Tパラメータ規模のLLMはだいぶいろんなこと考えても色々と問題が起きるのだねえ… MoEではなく単一の巨大モデルのほうがよい?という可能性もあるとのこと。
  • Ememe | Generative AI-NPC Life Simulation Sandbox

    Ememe (エミーム) — ここはAIキャラクターたちが自由にくらす町 🏘 生成AI技術であなたの推しキャラの行動観察リアリティーショーを作りましょう!😍

    Ememe | Generative AI-NPC Life Simulation Sandbox
    stealthinu
    stealthinu 2024/08/01
    キャラクター性をもたせたLLMが操作するNPCが暮らす街に介入できるというゲーム?シミュレータ。これ海外の会社っぽいけどめちゃ日本のアニメを意識してるな。
  • ChatGPT - LLMシステム開発大全

    私の今まで経験してきた全てのLLMノウハウを詰め込んだ、LLMシステムの開発ガイドです。 初めてLLMシステムを開発したいと思った時でも、精度改善や運用に行き詰った時でも、何かしら役に立つと思います。 現在200ページ超。 今後も随時更新していきます。 2023/7/28 体裁修正、余計…

    ChatGPT - LLMシステム開発大全
    stealthinu
    stealthinu 2024/08/01
    だいぶ長いがこれまでのいろんな手法で効果的だったものが網羅的にまとめられてる。
  • Unity向けの簡易的なVADライブラリの紹介 - Activ8 Tech Blog

    こんにちは、エンジニアの渡辺(@mochi_neko_7)です。 今回は VAD (Voice Activity Detection、音声区間検出) を Unity で利用するためのライブラリを自作してみたのでこちらを紹介します。 github.com Unity で発話している音声区間を判定したり、その音声データを切り取って何かに利用したい場合に便利なライブラリになっています。 ざっくりした説明は README にも書いてはいるのですが、こちらの記事では背景や設計などもう少し踏み込んだ話も紹介します。 以前の記事 synamon.hatenablog.com で紹介した Logging のライブラリを使用するため、Unity のバージョンは Unity 2022.3 以上になっている点にご注意ください。 背景 様々なユースケースを想定した VAD の設計 音声入力ロジック VAD ロジッ

    Unity向けの簡易的なVADライブラリの紹介 - Activ8 Tech Blog
    stealthinu
    stealthinu 2024/07/30
    Unity向けの軽いVAD
  • aider is AI pair programming in your terminal

    Skip to the content. aider is AI pair programming in your terminal Aider is a command line tool that lets you pair program with GPT-3.5/GPT-4, to edit code stored in your local git repository. Aider will directly edit the code in your local source files, and git commit the changes with sensible commit messages. You can start a new project or work with an existing git repo. Aider is unique in that

    aider is AI pair programming in your terminal
    stealthinu
    stealthinu 2024/07/30
    gitのリポジトリに対して修正をcommitしてくれるエージェント型のツール。Claude-3.5-sonnetかGPT-4oが使える。
  • Cursorよさらば!これからはAIderで対話しながらプログラムを作る時代だ! |shi3z

    ドリ山田金之助がCursorというAI搭載テキストエディターを使って独自のビデオ編集をやってるという話を風の噂で聞いた。 ドリ山田くーん、遅い、遅いよー とか煽るのも可哀想だったので放置していたのだが、昨日(!!)もっとゴイスーなAIソフト開発環境を触って元に戻れなくなってしまったのでご紹介しておく。 その最新の開発環境とは、人呼んでAIder(エイダー) こいつの何がすごいかというと、gitをcloneしてくると、ソースコード読ませて「これにこういう機能を追加しろ」と言うと勝手に追加してgit commitしてしまう。良きところで/git push origin mainとやればやってくれる。 まあAI開発ものにありがちな、「自信満々で提出されたけどいざ動かすとポンコツ」なケースが多くて、使うには忍耐が必要だが、頭は使わなくていい。たまに頭を使ったふりをして「もしかしてこの関数がやばいん

    Cursorよさらば!これからはAIderで対話しながらプログラムを作る時代だ! |shi3z
    stealthinu
    stealthinu 2024/07/30
    Cursorは補助ツールの位置づけだがAIderはエージェントの位置づけになるんだろうな。
  • テキスト抽出不要のRAGを実現するColPali

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 記事では、画像の情報をそのままベクトルデータにして検索する手法、ColPaliについて解説します。 サマリー 通常、RAGでは文書データからテキストを抽出して、その文字をベクトルデータに変換します。しかしColPaliは、文書データを画像として認識してベクトル化を行います。画像として保管することでテキスト化できない情報を扱うことができます。他にもベクトルを複数に分解することで精度を改善し、テキストの抽出が必要ないことからデータ保管時のコストの大幅な低減などのメリットを享受できます。 PDFのデータを保管する際には、ColPaliモデルに正規化したPDF画像を入力として渡し1024個の128次元ベクトルを

    テキスト抽出不要のRAGを実現するColPali
    stealthinu
    stealthinu 2024/07/30
    PDFを画像としてRAGのチャンク化して扱う手法。これは図表に強そうだが、日本語でも精度出るのかな?
  • 何度でも言う。AI開発に「失敗したので諦めます」は絶対にない。

    俺は量子コンピュータを研究してたからわかる。 意味がわからないか? お前らはAI以外の科学研究分野になんて興味もないから知らないんだろうが、この業界には「もはやだれもできると信じてないけど、政治的にやり続けなければいけない研究」というものがある。 量子コンピュータがそうで、20年前には「無理。できない。ほぼ間違いなく」という答えが出てる。 それでもなぜ研究を辞められないか? 「ほぼ」でなく「絶対」でない限り、もし万が一にも億が一にも「敵対勢力」に先に開発されたら安全保障に重大なリスクが出るから、というだけの話だ。 かつての原爆や宇宙開発と同じだ。 違うのは、これらがある程度の結果にたどりつくことで開発競争にもケリがついたことと違って、量子コンピュータはどこまで行っても何にもならないから、ただ無駄に研究費をうだけなこと。 成果が出ていると強弁するために、「量子超越性」などと20年前はなかっ

    何度でも言う。AI開発に「失敗したので諦めます」は絶対にない。
    stealthinu
    stealthinu 2024/07/26
    いやー、さすがにLLMやdeeplearningを同じ枠にいれるのは無理がある。35年前の第2次ニューラルネットブームの時ならいざ知らず。さすがにもうAGIはすぐそこだとみんな思ってるよ。
  • 面倒な分析はGoogle Colabにやらせよう

    これはなに? ちょっとした分析の用事で久しぶりにGoogle Colaboratory (以下 Colab) を触ったら結構良くなってました。Cursorでコード書くのも快適だけど、面倒なデータ分析やるならやっぱColabの方が便利だなぁと再認識しました。 そこで、最近Colabに追加されて便利になったと思う機能を簡単にまとめてみました。(見てわかる通りタイトルはもちろん話題のあののオマージュです😇) 最近のColab便利機能を使おう 粒度まちまちですがざーっと書いていきます。「最近」の定義は曖昧なのでご容赦ください。 Github Copilot的なコード補完を使おう Github Copilotみたいなコード補完機能がついにColabに搭載されました。↓のように補完してくれます。 VS CodeでもCursorでも一緒やん、って思われるかもしれませんが、Colabのような多機能No

    面倒な分析はGoogle Colabにやらせよう
    stealthinu
    stealthinu 2024/07/25
    Colabが色々と使いやすくなってる。Geminiを簡単に使えるようになってるところとSpreadsheetとの連携とかがいい。
  • Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表

    Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表 基的に、アプリケーションのユーザーインターエイス(UI)は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。 しかしこのUIを開発時ではなく、アプリケーションの実行時に生成AIが適切に構成して動的に生成し表示する「AI Generated UI」という仕組みを、Googleがインドのバンガロールで行われたイベント「Google I/O Connect Bengaluru 2024」で発表しました。 現時点でAI Generated UIFlutterフレームワークの上にアーリープレビューとして実装されており、ユーザーの意図に基づいてFlutterが動的にUIコンポーネントとレイアウトを構成し、ユーザーにパーソナライズされた最適なUIを表示すると説明されています

    Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表
    stealthinu
    stealthinu 2024/07/23
    UIをLLMに生成させるもの。最近結構あるけどGoogleが公式で出してるというところが大きい。品質もいいのだろうか。
  • GitHub - tegnike/aituber-kit: AITuber Kit

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - tegnike/aituber-kit: AITuber Kit
    stealthinu
    stealthinu 2024/07/22
    アバターと会話するためのガワで音声合成エンジンの選択肢が広い。difyとのAPIを持っているところが特徴的。
  • GitHub - uezo/ChatdollKit: ChatdollKit enables you to make your 3D model into a chatbot

    3D virtual assistant SDK that enables you to make your 3D model into a voice-enabled chatbot. 🇯🇵日語のREADMEはこちら 🍎 iOS App: OshaberiAI A Virtual Agent App made with ChatdollKit: a perfect fusion of character creation by AI prompt engineering, customizable 3D VRM models, and your favorite voices by VOICEVOX. 🇬🇧 Live demo English Say "Hello" to start conversation. This demo just returns what you

    GitHub - uezo/ChatdollKit: ChatdollKit enables you to make your 3D model into a chatbot
    stealthinu
    stealthinu 2024/07/22
    Unityのアバターを使ってChatbotを構築できる。LLMやTTS/STTは色々なものを利用できるようになってる。リアルタイム対応の工夫が色々ある。
  • Remdisの環境構築で沼った話(+使い方の紹介)

    はじめに 今回はRemdisというテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームを利用するための環境構築で沼ったことを記事にまとめます。 最終的にはなんとか環境構築に成功したので、同じく沼っている方がいらっしゃれば参考になればと思います。 最後にRemdisを簡単に使ってみたので、その使い方についても紹介します。 Remdisとは Remdisはテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームです。 詳細は下記のリポジトリをご覧ください。 下記のデモ動画にもありますように、非常に自然かつ低遅延なリアルタイム対話を可能にしているシステムです。 また、こちらのリポジトリを解説されている書籍も販売されております。非常にコードがわかりやすく解説されていますため、Remdisを利用したい方はぜひ購入しましょう。おすすめです。 Pythonと大規模言語モデ

    Remdisの環境構築で沼った話(+使い方の紹介)
    stealthinu
    stealthinu 2024/07/20
    Remdisのインストールで自分もハマっていたがこの方の情報で進めることができそう。色々とつらい。
  • Tracking AI

    I created this website so that anyone can immediately see up-to-date AI chatbot political opinions and biases. I hope that will be useful in a couple ways: It informs users about the ideologies of the AIs they use. It helps us all switch to less-biased AIs, or to AIs with philosophies closer to their own. It can serve as a useful tool for AI creators, who may want their AI to be politically reason

    Tracking AI
    stealthinu
    stealthinu 2024/07/19
    LLMのIQテストランク。というかIQテストの点で比べてもGPT4からGPT4oへこんだけ性能あがってたのか。
  • GPT-4o mini: advancing cost-efficient intelligence

    stealthinu
    stealthinu 2024/07/19
    GPT-4o miniはGPT3.5やGemini Flashを完全に超えてて超早くて超安い。もはや3.5使う場面はなくなったと考えて良い。
  • Pre-translation vs. direct inference in multilingual LLM applications

    Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

    stealthinu
    stealthinu 2024/07/19
    LLMで一旦英語に翻訳してからのほうが精度良くなると言われていたことの現時点での検証。今は翻訳せず元の言語のままでやったほうが精度高い。
  • BM42: New Baseline for Hybrid Search - Qdrant

    Please note that the benchmark section of this article was updated after the publication due to a mistake in the evaluation script. BM42 does not outperform BM25 implementation of other vendors. Please consider BM42 as an experimental approach, which requires further research and development before it can be used in production.For the last 40 years, BM25 has served as the standard for search engin

    BM42: New Baseline for Hybrid Search - Qdrant
    stealthinu
    stealthinu 2024/07/04
    BM42というBM25の後継にあたるハイブリッド検索。BM25->SPLADEの流れを踏襲して改善したもの。
  • 【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します!|Jun Ito

    安野たかひろ事務所 技術チームリーダーの伊藤です。 安野は大学時代の友人で、彼が今回の選挙戦で実現しようとしている、老若男女の意見を募り、誰も取り残さないことを旨とする選挙活動・民主主義の形に共感し、ぜひ力になりたいと思いPdMエンジニアとして手伝いをしております! この記事では、先日公開になった「AIあんの」のシステムについて、技術者の観点から、実現しようとしている状態と、技術的な裏側について解説してみようと思います。 AIあんのとはAIあんのは、安野たかひろの政策を学習したAI応答システムが、人のアバターと声色によって、Youtube Liveと電話という2つの経路で、みなさまのご意見やご質問に回答するシステムです。 配信でAIあんのに質問したい場合は、以下からアクセスしてみてください。 (URLは変更になる場合があります。その際はアカウントから配信を探してみてください。) また電

    【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します!|Jun Ito
    stealthinu
    stealthinu 2024/06/28
    RAG使って本人の声で問い合わせに答えるようなシステムになっている。色々な既存技術をうまく組み合わせてこれだけのものが出来てる。
  • NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース

    米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル

    NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
    stealthinu
    stealthinu 2024/06/19
    Nemotron4 340Bの性能はGemini-1.5くらいっぽいがそれよりもLLMが出力した結果を学習データセット生成に使って良いってなってるとこが超すごい。H100x8あれば動かせるとのこと。会社なら買える規模。