タグ

LLMとaiに関するakishin999のブックマーク (220)

  • LLMがオワコン化した2024年

    当ニュースレターは2023年を「SaaSがオワコン化した年」と位置づけたが、2024年は早くもAIが終わった一年であった。少なくとも大規模言語モデル(LLM)そのものの発展を、物珍しそうに追いかける時期は過ぎた。生成AIが今後どこまで賢くなるかはもちろん未知数である。しかし、既に業務で十分に役立つレベルにある現行モデルのコストが今後も下がっていくことは確実だ。 The cost of GPT-4 APIs at launch in Mar 2023 was roughly ~$30 per 1m tokens. Seeing Deepseek V-3 APIs at ~$1 per 1m tokens today. For AI application companies, cost of "intelligence" is falling significantly faster tha

    LLMがオワコン化した2024年
  • 2025年の年始に読み直したいAIエージェントの設計原則とか実装パターン集

    関連リソース Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents 【論文紹介】LLMベースのAIエージェントのデザインパターン18選 基盤モデルを用いたAIエージェントの設計パターン The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey は、「AIエージェントのアーキテクチャ」について、シン

    2025年の年始に読み直したいAIエージェントの設計原則とか実装パターン集
  • browser-use やばいです - Qiita

    はじめに 語彙力なくてすみません、 browser-use は、「AI エージェントがウェブブラウザを操作できるようにする」ためのライブラリです。 プロンプトで与えられた指示どおりに動き、ほかの技術と比較しても精度が抜群に高いです。 早速試してみます。 実践 複数のECサイトから特定の商品価格を取得することを目標とする。 Python は 3.11 以上が必要です。

  • GitHub - deepseek-ai/DeepSeek-V3

    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for loa

    GitHub - deepseek-ai/DeepSeek-V3
  • AIエージェントの評価|Weights & Biases Japan

    W&B AI Solution Engineerの鎌田 (X: olachinkei) です。2023年以降注目を集める「AIエージェント」ですが、その可能性が広く議論されている一方で、具体的な開発プロセスや評価方法についての情報はまだ整理されていないのが現状です。そこで、ブログではAIエージェントに関する評価体系について、現時点での知見をまとめていきます。専門的な内容も交えながらも、できる限りわかりやすくお届けしますので、ぜひ最後までお付き合いください。 Compound AI システムの登場とAIエージェントへの発展生成AIの進化により、特に大規模言語モデルは簡単なプロンプト入力だけでさまざまなタスクを解決できるようになりました。しかし、AIの活用が広がる中で、私たちは単一のモデルに依存するアプローチから複数のコンポーネントを統合する新しいアプローチへと移行しています。このアプローチ

    AIエージェントの評価|Weights & Biases Japan
  • AIの思考を少しずつずらしてAIに催眠をかけるように「ジェイルブレイク」した具体例

    大規模言語モデル(LLM)を用いたAIは、驚くほど自然な文章やリアルな画像を生成できる能力を備えている一方で、危険なことに回答したり不適切な画像を生成したりできないように、セキュリティロックがかかっていることがほとんどです。しかし、意図的にLLMをだまそうと試みてロックを回避するジェイルブレイク(脱獄)の方法もしばしば話題になります。GoogleAIチームでコンサルタントを務めた経験もある技術者のマット・ウェッブ氏は、特別なテクニックを使わなくても「ちょっとずつAIの思考をずらす」ことによるジェイルブレイクの例を解説しています。 Narrative jailbreaking for fun and profit (Interconnected) https://interconnected.org/home/2024/12/23/jailbreaking LLMには、爆弾の作り方といった

    AIの思考を少しずつずらしてAIに催眠をかけるように「ジェイルブレイク」した具体例
  • RAG技術の現状考察と2025年のトレンド予想

    記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。 題 ざっくりサマリー 結論として、RAGは、来年も変わらず流行し続けると予想します。 まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルD

    RAG技術の現状考察と2025年のトレンド予想
  • これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z

    今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。 もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。 インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete

    これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z
  • vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics

    皆さんこんにちは Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。 大規模言語モデル(通称:LLM)は近年、非常に注目される技術となりました。 ただ、7Bや13Bといった巨大モデルのパラメータは推論時間も長時間で計算時間の面からも運用が非常に難しいです。 しかし、vLLMを使えば、高速化できます。記事では、推論をどこまで高速化できるのかを検討したいと思います。 ※記事はLLM・LLM活用のAdvent Calendar 24日目の記事です。 qiita.com vLLMとは? vLLMによる高速化実践 vLLMを利用しない場合 vLLMを利用する vLLMに加えてAWQを利用して量子化する Auto Prefix Caching

    vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics
  • 【OpenAI】o1が"意図的にユーザーを騙す"ことがあるという報告について - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ("o1 System Card" Figure 2の意訳) "12 Days of OpenAI"の第一弾としてリリースされたOpenAIのo1は、特にpro modeの高い性能や月額3万円という破格の料金プランが大いに話題になっていますが 同時に発表された米Apollo ResearchによるAI安全性に関する調査報告が、いよいよSFの世界と見紛うような驚きの結果であったため、内容をまとめました。 サマリ はじめに「目標」を強く指示されたLLMが、その目標にそぐわないような状況に陥った場合、目標を遂行するためにユーザーを欺くような"

    【OpenAI】o1が"意図的にユーザーを騙す"ことがあるという報告について - Qiita
  • Llama 3.3 70B Instruct について解説してから動かしてみる|ぬこぬこ

    tl;drMeta の最新モデル Llama 3.3 70B が公開されたよ モデルカードを丁寧に手動で翻訳・解説したよ(読んで!) 安全性にかなり力を入れているよ! Transformers / Ollama / MLX で動かしてみたよ Llama 3.3 70B に関する Hugging Face Hub のページと GitHub の Llama 3.3 のモデルカードのページは下記になります。 Transformers 経由で生のモデルを使う時は、毎度のことですが Meta の Llama 系モデルを Hugging Face から利用する時は利用規約に同意する必要があるので、フォームを入力して Submit を押してください。これをしていないと最後の動作確認時に動かせないので先んじて案内します。また、生のモデルや Ollama や MLX 変換モデルなどを使いたい場合は、ファイル

    Llama 3.3 70B Instruct について解説してから動かしてみる|ぬこぬこ
  • Claude Projectsを活用して、Deno / TypeScriptで言語処理系を書いてみた話

    背景 Claude Projectsをもっと活用できるようになりたい Deno / TypeScriptで何か作りたい という理由で、なんとなく「プログラミング言語的なものをClaudeと一緒に作ってみるか」と思いつきました。作業ログや学び的なものをせっかくなので残しておきます。 作成したのは以下: 基的に私は指示役の男としてClaudeにコードを書かせることに徹しています。また、また今回ChatGPT、Cursorなどその他の生成AI系サービスは一切使っておりません。 開発方針 今回、言語をリッチに作り込むことが目的ではないため、比較的言語仕様がシンプルなGo言語を極限まで劣化させた言語を作ることとします。名前はpoor-go と名付けました。コマンドや拡張子は pgoとします。 最小ゴールとして、以下の hello-world.pgo がコンパイルでき、実行すると hello wor

    Claude Projectsを活用して、Deno / TypeScriptで言語処理系を書いてみた話
  • Ollama で structured outputs (構造化出力)を試す|ぬこぬこ

    tl;drJSON Schema で指定したフォーマットで出力を制御可能になったよ cURL / Python / JavaScript のそれぞれで試してみたよ 具体的な実用例があったのでそれも動かしてみたよ 使う上での tips や今後どんな機能が追加されるかまとめたよ 公開されたブログの流れに準拠しつつ、意図がズレない範囲で翻訳、解説、コードの実行をしていきます。チュートリアルになっているので、よかったら手を動かして試してみてください。 Ollama が structured outputs をサポート。JSON Schema で定義したフォーマットに LLM の出力を制御するすることが可能になりました。Ollama の PythonJavaScript のそれぞれのライブラリにおいてもサポートするよう更新。 ブログでは structured outputs のユースケースとし

    Ollama で structured outputs (構造化出力)を試す|ぬこぬこ
  • LiteLLM を使って色々な LLM API サービスをいい感じに使いこなす

    この記事は Magic Moment Advent Calendar 2024 5 日目の記事です。 Magic Moment でプロダクトデータを活用した機能の開発・検討をしている @nagomiso です。 気づけば前回の記事から 1 年が経過していました。時間の流れが早すぎて驚きを隠せません。 ここ 1 年での変化としては体重が大幅に増えました。原因は間違いなくラーメンべ過ぎです。節制せねば… 🍜 はじめに Google が Gemini 1.5 Pro / Flush を公開したり OpenAI が GPT-4o / 4o mini, OpenAI o1 / o1 mini を公開したりと 2024 年も LLM の進化には目を見張るものがありました。 こうした進化によって開発で使える高性能な LLM API サービスが増えるのは喜ばしいことですがサービス毎に API が異な

    LiteLLM を使って色々な LLM API サービスをいい感じに使いこなす
  • 数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ) | テクノエッジ TechnoEdge

    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、大規模言語モデル(LLM)の数十億のパラメータの中でたった1つのパラメータを削除するだけで、モデルのテキスト生成能力が完全に崩壊することを発見した論文「The Super Weight in Large Language Models」に注目します。 研究チームは、このパラメータを「スーパーウェイト」と名付けました。70億のパラメータを持つMetaのLlama-7Bモデルでは、このスーパーウェイトをゼロにするだけで、モデルのテキスト生成能力が完全に失われ、ゼロショッ

    数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ) | テクノエッジ TechnoEdge
  • 日本語LLMまとめ

    語LLMまとめ ​[ English | Français | 日語 ] 日語LLM・海外LLMのパラメータ数の推移。日語モデルの情報は記事、海外モデルの情報は LifeArchitect.ai の Models table を参照しています(ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。この記事は、一般公開されている日語LLM(日語を中心に学習されたLLM)および日語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。 以下の点について、あらかじめご理解とご了承をお願いいたします 記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新

    日本語LLMまとめ
  • LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し

    SkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。 Skyvern - Automate Browser-Based Workflows with AI https://www.skyvern.com/ GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision https://github.com/Skyvern-AI/Skyvern Skyvernは

    LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
  • OpenAIのプロンプトジェネレーターで至高のプロンプトを生成する - Taste of Tech Topics

    こんにちはイワツカです。 欲の秋ということでサツマイモやキノコが美味しい季節ですね。 さて今回は、生成AIを使おうと思ってもプロンプトの書き方がよく分からず、生成AIから思ったような回答を得られない...なんて方におススメのOpenAIのプロンプトジェネレーター機能を紹介します。 1. プロンプトジェネレーターとは 使い方 2. ユースケースごとのプロンプトと結果比較 Pythonコードのリファクタリング プロンプトジェネレーターを使わない場合 プロンプトジェネレーターを使う場合 API設計 プロンプトジェネレーターを使わない場合 プロンプトジェネレーターを使う場合 ブログ作成 プロンプトジェネレーターを使わない場合 プロンプトジェネレーターを使う場合 3. まとめ 1. プロンプトジェネレーターとは プロンプトジェネレーターとは、その名の通り、AIに対する指示文(プロンプト)を自動的に

    OpenAIのプロンプトジェネレーターで至高のプロンプトを生成する - Taste of Tech Topics
  • AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita

    何が起きたのか 生成AIが好きな個人がなんでも出展できる、 「なんでも生成AI展示会」 というイベントがありまして、 11/16(土) 12:30 ~ 18:00にて「#生成AIなんでも展示会」を開催します🎉 個人の方が生成AIで作っているものを見ることができる・体験することができるイベントになっています! 申し込みURLは以下⬇️https://t.co/aNIQ6myJ4q 以下の方との共同主催です@sald_ra @GianMattya @miketako3 @Yanagi_1112 — ようさん (@ayousanz) September 28, 2024 人づてに出展しないか誘われたので、ストレス解消がてら9月頃から「マルチエージェントLLM(大規模言語モデル)オーケストレーション」というコンセプトで競馬予想をするシステムをシコシコと土日に作っておりました。 (ふだんは仕事でウ

    AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita
  • 会社の資料を今すぐDifyで要約しよう! - Qiita

    はじめに 最近、Qiitaに投稿される記事を見ていると、「Dify」という単語をよく目にするようになりました。記事の内容から、自分のPC上でChatGPTのような「チャットボット」を簡単に作成できるツールのようだと感じたため、今回はDifyの構築方法や操作感について確認してみることにしました。 Difyのインストール Difyのインストールと環境設定は、公式サイトの以下のページを参考に進めました。 今回はWindows OSでgitコマンドを実行できるように事前にインストールしておく必要があります。また、Docker Desktopもあらかじめインストールされていることが前提条件です。これらの手順については、多くのサイトで詳しく解説されているので、そちらを参考にしてください。 事前に必要なこと: 項目 説明

    会社の資料を今すぐDifyで要約しよう! - Qiita