AIモデルの開発や利用を“AIによって”効率化する──Sakana AIは2月20日、新たな技術「AI CUDA Engineer」を発表した。AIモデルの開発や利用時にかかる計算処理を10~100倍高速化できるエージェントシステム。同社は「AI技術は必ず100万倍は効率化される」と展望を示しており、この技術はそのための重要なステップだという。 米NVIDIA製のGPUハードウェアには、その並立計算を制御するためのプラットフォーム「CUDA」が用意されている。そこで肝となっているのは、ハードウェアに直接指示を行う「CUDAカーネル」という関数だ。この関数のレベルで、直接命令を記述できれば、AIアルゴリズムのパフォーマンスを向上させることが可能という。 そこで同社は、CUDAカーネルの生成を自動化する技術として、AI CUDA Engineerを開発。最新の大規模言語モデル(LLM)を活用し
We are thrilled to unveil an early preview of Grok 3, our most advanced model yet, blending superior reasoning with extensive pretraining knowledge. Next-Generation Intelligence from xAIWe are pleased to introduce Grok 3, our most advanced model yet: blending strong reasoning with extensive pretraining knowledge. Trained on our Colossus supercluster with 10x the compute of previous state-of-the-ar
米国のAI企業Perplexityは2月18日(現地時間)、最新の大規模言語モデル「R1 1776」をオープンソースとして公開したと発表した。このモデルは、既存のDeepSeek-R1を基に開発され、偏りなく正確な情報を提供するための後処理トレーニングが施されている。 「R1 1776」:偏りを排除し、正確さを追求した新世代AIモデル DeepSeek-R1は、最先端の推論能力を持つ大規模言語モデルでありながら、中国共産党(CCP)の検閲に関連するセンシティブなトピックに対して回答を拒否するという課題があった。これに対し、PerplexityはR1 1776を通じて、このような偏りを取り除き、あらゆるユーザーの質問に正確かつ公平に答えることを目指している。
OpenAIが2025年2月18日に、AIモデルのコーディング性能を評価するためのオープンソースのベンチマーク「SWE-Lancer」を公開しました。 [2502.12115] SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? https://arxiv.org/abs/2502.12115 Introducing the SWE-Lancer benchmark | OpenAI https://openai.com/index/swe-lancer/ Today we’re launching SWE-Lancer—a new, more realistic benchmark to evaluate the coding performance o
「OpenAI API」で提供されているモデルをまとめました。 ・Model - OpenAI API 1. モデルの概要「OpenAI API」は、さまざまな機能と価格帯の多様なモデルを備えています。ファインチューニングにより、特定のユースケースに合わせてモデルをカスタマイズすることもできます。 1-1. Reasoningモデル「Reasoningモデル」は、複雑なタスクについてより長く、より真剣に考えるように学習しています。 ・o3-mini ・o1 1-2. GPTモデル「GPTモデル」は、レイテンシが低く、コスト効率に優れており、簡単に実行できるように設計されています。 ・GPT-4o ・GPT-4o-mini 1-3. GPT-4o Realtimeリアルタイムなテキストとオーディオの入出力が可能なGPT-4oモデルです。 1-4. GPT-4o AudioREST API経由
Preferred Networksの岡野原大輔代表取締役は2月18日、開発中の新しい大規模言語モデル「PlaMo 2 8B」(仮称)について明らかにした。同社の既存モデル「PLaMo-100B」の性能を維持しつつ、パラメータ数を約12分の1に削減したという。アイティメディアが同日から開催しているオンラインイベント「ITmedia AI Boost」で言及した。 新しく開発したPlaMo 2 8Bはパラメータ数を80億(PLaMo-100Bは1000億)まで抑えつつ、PLaMo-100Bと同等以上の性能を実現したとうたう。日本語や日本固有の知識の理解について問う「JMMLU」やコード生成能力を問う「JHumanEval」などのベンチマークで、PLaMo-100Bと同等あるいはそれ以上のスコアを記録したという。なお、まだ事後学習が済んでいないため、コーディング能力は今後上昇する可能性があると
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 今回は、Embeddingの過程で深い思考を行うモデル「O1 Embedder」について紹介します。 サマリー EmbeddingはRAGのシステムにも欠かせないもので、Embeddingの性能がそのままRAGの性能に直結すると言っても過言ではありません。 O1 Embedderは、EmbeddingとOpenAIのo1モデルのような深い思考をかけ合わせたモデルです。この特徴によって、特に複雑なクエリに対するEmbeddingの性能を向上させることに成功しました。 OpenAIのo1モデルに代表するような深い思考を実現するモデルは、クエリを元に様々な観点で考えを洗い出し深く考えることで精度を高めています。
はじめに 社内で、具体的な業務ユースケースに即して実践的なプロンプトエンジニアリングをみんなで模索しまくる、みたいな勉強会のような企画を開催してみたところ、プロンプトエンジニアリングなんてもうわかりきったものだと思い込んでいましたが、意外と(やはり?)奥が深く、いろいろな学びが得られました。かいつまんで言うと以下のようなものです。 実践的なプロンプトを書くためのtips 一方通行的に、自然な流れで考えさせる。行ったり来たりさせない。 ステップを分けて、ステップごとにプロンプト自体を分けて一つずつ実行する。 決定論的な判断は、JSONやYAML形式で出力させ、計算可能なデータとして考えさせる。 Few Shotは実はそれほどこだわらなくてもいい。(どちらかと言えばステップ実行とかJSON/YAML思考のほうが効き、Few Shotはユースケースとプロンプトの組み合わせによってはよって効いたり
こんにちは、Insight EdgeでDeveloper兼テックブログ運営担当をしているMatsuzakiです。 今回は、私が担当している本テックブログ「Insight Edge Tech Blog」運営担当業務における業務効率化・高度化兼自己研鑽の一貫として現在テックブログレビューエージェントを試作中ですので、そちらの開発経緯や内容をお話ししていきたいと思います。 目次 開発背景 システム構成 レビューの流れ 開発内容 レビュー観点の洗い出し 処理フロー 実装 ステートの定義 グラフの定義 ノードの追加 エントリーポイントの追加 エッジの追加 コンパイルと実行 成果物について 今後の期待 おわりに 開発背景 本テックブログ「Insight Edge Tech Blog」は、2022年10月に開設し、2025年2月現在で2年以上継続しています。(先日記事も100本を超えました!🎉) しか
DeepSeek R1が話題になってだいぶたちますが、日本語対応モデルも出てきてますね。 そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決めるフェーズがあるのだけど、そこがなかなか筋がいい。 というか、作り方もなんだかすごいので最後に解説してます。 Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社 ※ 2/18追記 こういう記事を書くときに「これがローカルで動いてすごい」のように書くんですが、ここではローカルで動いてすごいということは書いてなく、普通にちゃんと答えがでてその内容がすごいという風になってきてますね。追記ここまで。 CyberAgentからも
はじめに DeepSeek-AIの論文「Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning」を覗いてみます。 論文 こちら この論文で使っているハードウェアは、 Fire-Flyer AI-HPC Architecture: We have deployed a cluster composed of 10,000 PCIe A100 GPUs for Deep Learning training purposes. のようです。 NVIDIA の DGX A100 ではなく、PCIe版 A100 を 10,000 台使ったクラスタのようです。 え、H100 の 100,000 台じゃないんだ。台数で 1/10 の 10,000 台なんですね。。。 ノードの構成は、下記の図にあり
Cisco Systems(以下、Cisco)は2025年2月1日(米国時間)、AI(人工知能)やLLM(大規模言語モデル)へのサイバー脅威に関するブログエントリを公開した。同社は以下のように説明している。 AIの脅威研究は、モデルを評価し保護する方法を策定する上で不可欠だ。この分野は極めて動的で急速に進化しており、こうした取り組みは、新たに発生する脆弱(ぜいじゃく)性や敵対的手法から顧客を保護するために重要な役割を果たしている。 今回、サードパーティーの脅威研究の取り組みから得られた有益なハイライトや重要な情報を統合し、共有する。なお、ここで取り上げる内容はAIに対するサイバー脅威の網羅的、包括的なリストではなく、Ciscoが特に注目すべきと判断したものの精選であることを念頭においてほしい。 2025年1月、注目すべき脅威と動向 シングルターンクレッシェンド攻撃(STCA) これまでの脅
LLM時代のWebアクセスとは 世は大LLM時代。皆が元気にTavilyでWebクロールしたり、AI AgentでガンガンDeep Researchする時代は、人間用のWebサイトにえげつない負荷を与えているのであった。 そんな時に「仕様を1枚のテキストにまとめたよ!」みたいな情報が時々流れてくるが、これはLLMs.txtというらしい。恥ずかしながら仕様の存在を知らなかったので、勉強がてらにまとめてみる。 LLMs.txt? Answer.AI の Jeremy Howard 氏が2024/9/3に提案したのが発端のようだ。 LLMs.txtはLLM(推論エンジン)向けの課題を解決するための提案である。LLMのコンテキストウィンドウの制限に対応したり、不要なマークアップやスクリプトを削除し、AI処理に最適化された構造でコンテンツを提供できる。ということらしい。シングルファイルなのでCDNに
A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time. Background Today websites are not just used to provide information to people, but they are also used to provide information to large language models. For instance, language models are often used to enhance development environments used by coders, with many systems including an
GPT-4oやClaude 3.5 Sonnet、Gemini 1.5 Proといった主要な大規模言語モデルを対象としたテストの結果、AIはユーザーの意見に合わせる傾向があることをスタンフォード大学の研究チームが発表しました。 [2502.08177] SycEval: Evaluating LLM Sycophancy https://arxiv.org/abs/2502.08177 SycEval: Evaluating LLM Sycophancy https://arxiv.org/html/2502.08177 Large Language Models Show Concerning Tendency to Flatter Users, Stanford Study Reveals https://xyzlabs.substack.com/p/large-language-mo
Google Cloud Japan Advent Calendar 2024 Gemini 特集版 25 日目です。 こんにちは、カスタマーエンジニアの下門 (しもじょう) です。 2024 年は RAG (Retrieval-Augmented Generation) が非常に盛り上がりましたが、そんな年の締めくくりに Vertex AI の RAG Engine というサービスが GA (正式版) になりましたので RAG Engine + Gemini API を利用して簡単に RAG を構成する方法を紹介いたします。 RAG Engine の概要 RAG Engine は、カスタム RAG アプリケーションを簡単に実装するためのフルマネージドなデータフレームワークおよびランタイムです。 元々は Google I/O 2024 のタイミングで LlamaIndex on Verte
はじめに Google CloudのVertex AIを活用して、RAGを構築しないといけなくなったので、その方法をまとめていきます。 まずは準備として、ローカルのみで実装をしていきます。 今回の記事では、ローカルに保存したテキストドキュメントをベースに、ローカルのDBにベクトルデータを保存し、LangGraphでRAGを実装していくことを考えます。 その上で、次回以降の記事で、Google CloudのGCSにドキュメントを置いたり、BigQueryをベクトルストアにしたり、Cloud SQLをベクトルストアにしたりする方法を解説していきたいと思います。 参考文献 (書籍のリンクはamazonアフィリエイトリンクです) 記事 LangChainからLangGraphによるAgent構築への移行方法 Chroma DBによる類似度検索のメソッド カスタムRetrieverクラスの作成方法
以下の記事が面白かったので、簡単にまとめました。 ・Reasoning best practices - OpenAI API 1. Reasoningモデル のベストプラクティスOpenAIは、「Reasoningモデル」(o1 や o3-mini など) と「GPTモデル」(GPT-4o など)の2種類のモデルを提供しています。これらのモデルは動作が異なります。 この記事の内容は次のとおりです。 (1) ReasoningモデルとGPTモデルの違い (2) Reasoningモデルを使用するタイミング (3) Reasoningモデルを効果的に促す方法 2. Reasoningモデル と GPTモデル「Reasoningモデル」は、複雑なタスクについてより長く、より真剣に考えるように学習しています。これにより、戦略を立て、複雑な問題に対する解決策を計画し、大量のあいまいな情報に基づいて
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く