misshikiのブックマーク / 2024年5月31日

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Large pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still limited, and hence on knowledge-intensive tasks, their performance lags behind task-specific architectures. Additionally, providing provenance for

misshiki 2024/05/31

Retriever-Augmented Generation（RAG）という用語の元論文みたい。

自然言語処理

リンク

社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

こんにちは。NEO(x) 機械学習エンジニアの宮脇（@catshun_）です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。実際こんな記事も話題になりましたね。本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの外部知識資源を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'

misshiki 2024/05/31

“コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述”

自然言語処理

リンク

“大は小を兼ねない”生成AI　注目集める「小規模言語モデル」（SLM）　そのメリットとは？

先日行われた、米Microsoftの開発者向けイベント「Microsoft Build 2024」。AI系技術を中心にさまざまな発表があったが、目玉の一つだったのが、SLM（Small Language Model）関連の新製品だ。ITmediaでも紹介記事が公開されているので、具体的な情報は以下を参照してほしい。この記事では、そもそもSLMとは何か、何が期待されているのかを整理してみよう。（関連記事：Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ）（関連記事：Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー） “大は小を兼ねない”「小規模言語モデル」（SLM）とは？ SLMは日本語で「小規模言語モデル」と訳されている。名前から分かるように、ChatGPTを始めとした生成AIア

misshiki 2024/05/31

“SLMは日本語で「小規模言語モデル」と訳されている。名前から分かるように、ChatGPTを始めとした生成AIアプリケーションのエンジンである「LLM」（大規模言語モデル）と対になる技術だ。”

自然言語処理

リンク

生成AIをアプリケーション開発に活用する企業は、コストやハルシネーションの問題にどう取り組んでいるのか

Amazon Web Services（AWS）は2023年4月に、大規模言語モデル（LLM）のフルマネージドサービス「Amazon Bedrock」のプレビュー版を公開した。プレビュー版の公開時点で導入を決め、1年にわたって同サービスを活用してきた企業の担当者らが、アプリケーション開発に生成AI（人工知能）を利用する際のポイントを語った。語ったのは、カナダのトロントを拠点とする顧客調査プラットフォームプロバイダーAlidaでチーフアーキテクトを務めるシャーウィン・チュー氏と、米国ニューヨーク州メルビルのContact center as a ServiceプロバイダーVerint Systemsでチーフサイエンティストを務めるイアン・ビーバー氏だ。 AlidaはなぜAmazon Bedrockを選んだのか関連記事最適な学習方法は？　安全にデータを使うには？　AWSが解説する「生成A

misshiki 2024/05/31

“Amazon Bedrockは、コンプライアンスとセキュリティのニーズを満たすだけでなく、LLMやトレーニングインフラを自社でホストする必要がなかったことも決め手になった”

リンク

テキスト生成AIのリスクを利用形態、想定ユースケースごとに解説　デジタル庁がガイドブックを公開

テキスト生成AIのリスクを利用形態、想定ユースケースごとに解説　デジタル庁がガイドブックを公開：テキスト生成AIのサービス開発者が対象デジタル庁は、「テキスト生成AI利活用におけるリスクへの対策ガイドブック（α版）」を公開した。政府情報システムを対象に、テキスト生成AI固有と思われるリスクに焦点を当て、留意点を紹介している。

misshiki 2024/05/31

人工知能

リンク

Mistral AI、コーディング用生成AIモデル「Codestral」リリース

米Microsoftが支援する仏Mistral AIは5月29日（現地時間）、同社としては初のコーディング向け生成AIモデル「Codestral」を発表した。コード生成タスクを明示的に設計されたオープンウェイト（モデルの重みを公開している）の生成AIモデルで、HuggingFaceからダウンロードし、MistralのAPIプラットフォームを通じて利用できる。 Python、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語の多様なデータセットでトレーニングされている。また、SwiftやFortranでも「優れた性能を発揮する」という。 3万2000トークンのコンテキストウィンドウを持つ220億パラメータモデル。コード生成の長期評価のRepoBenchでは、競合する米MetaのCode Llama（4000／700億）や中国DeepSeekのDeepSe

misshiki 2024/05/31

自然言語処理

リンク

ChatGPT-4oを専属マネージャーにしてサボり癖を直してもらった | ライフハッカー・ジャパン

多忙であればあるほど猛烈にやる気が出て、驚くほどの集中力を発揮できるのに、納期や締め切りに余裕があるとついついだらけてしまう私。オフィスでほかの人ががんばっている姿を見れば、影響されて集中できるのに、在宅ワーカーということもあってそれも叶わず困っていました。友人とオンライン上で仮想のワーキングスペースをつくり、黙々と作業してみたりもしましたが、生活スタイルが合わない日もあります。そこで頼ったのがChatGPT-4oの音声機能でした。

misshiki 2024/05/31

“。ChatGPT-4oに「あなたは専属編集者です。私はライターで原稿を執筆中ですが、見張っていてもらわないと書けないので10分おきに進捗状況の確認をしてもらえませんか？」と伝えます。”

リンク

オープンAI “ロシアなど拠点のグループ生成AIで世論操作” | NHK

生成AI、ChatGPTを手がけるアメリカの企業オープンAIは、ロシアや中国などを拠点とする5つのグループが自社の生成AIを世論の操作に利用していたと発表しました。日本に関する情報の拡散にも利用されたとされ、アメリカ大統領選挙などを前に生成AIによる世論操作の危険性を示しています。オープンAIは30日、AIによる世論操作をめぐる最新の傾向についての報告書を発表しました。それによりますと、ロシアや中国、イラン、それにイスラエルを拠点とする合わせて5つのグループが、秘密裏に自社の生成AIを世論操作に利用していたということです。生成AIは、SNSのアカウントや投稿する文章の作成、外国語への翻訳などに利用され、投稿の内容は、 ▽ロシアによるウクライナへの軍事侵攻や、 ▽ガザ地区でのイスラエルとイスラム組織ハマスの戦闘のほか、 ▽アメリカの政治情勢など、多岐にわたっていたとしています。この

misshiki 2024/05/31

“このうち、中国を拠点とするグループは、東京電力福島第一原子力発電所の処理水の放出を非難する文章を英語や日本語などでインターネット上に投稿していたということです。”

人工知能

リンク

OpenAI、ロシアや中国によるChatGPTなどのAIツール不正利用について報告　5件を阻止

米OpenAIは5月30日（現地時間）、「AI and Covert Influence Operations:Latest Trends」（AIと隠された影響工作:最新動向）と題した報告書（PDF）を公開した。この報告書によると、ロシア、中国、イラン、イスラエルを拠点とする複数の組織が、国民を操作するために同社のAIを利用している。同社は、こうしたオンラインキャンペーンを5件特定し、阻止したという。これらの組織は、ChatGPTを含むOpenAIのツールを使用して、複数の言語でSNSのコメントを生成したり、偽のアカウントの名前や経歴をでっち上げたり、画像を作成したり、コードをデバッグしたりしていたという。たとえばロシアのDoppelgangerは、OpenAIのツールを使ってロシア語の投稿を英語やフランスなどに翻訳し、SNSに投稿していた。OpenAIはその例として、コメントはウク

misshiki 2024/05/31

“この報告書によると、ロシア、中国、イラン、イスラエルを拠点とする複数の組織が、国民を操作するために同社のAIを利用している。”

リンク

Yahoo!知恵袋、「AI回答機能」にClaude 3を追加　「2種類の生成AIによる回答がつく」

LINEヤフーは5月30日、知恵共有サービス「Yahoo!知恵袋」の「AI回答機能」に米Anthropicの大規模言語モデル「Claude 3」を追加すると発表した。Web版では5月29日から、iOSアプリ版とAnadroidアプリ版は6月4日から提供する。 AI回答機能は、OpenAIの生成AIを使って2023年11月に提供を始めたサービス。現在は457カテゴリーの質問に対応し、これまでに75万件を超える質問に回答したという。新たにClaude 3にも対応したことで、1回の質問で複数のAIから回答がもらえるようになった。LINEヤフーは、「ユーザーの回答と2種類の生成AIによる回答がつくようになり、回答のバリエーションがさらに広がる」としている。ヤフー知恵袋は、参加者同士が知識を教えあうナレッジ共有・検索サービス。04年にβ版としてサービスを始め、翌05年から正式サービスになった。

misshiki 2024/05/31

“知恵共有サービス「Yahoo!知恵袋」の「AI回答機能」に米Anthropicの大規模言語モデル「Claude 3」を追加”

リンク

Easy Scraper

well, that's it. go try it out! also it's completely free for now because i'm currently focusing on other projects and don't have time to add in paid plans. enjoy and please leave a nice review if you like it <3

misshiki 2024/05/31

クリックだけで簡単にスクレイピングしてCSVやJSONファイルとしてダウンロードできる。

Chrome

リンク

はてなブックマーク

タグ

2024年5月31日のブックマーク (11件)

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

“大は小を兼ねない”生成AI　注目集める「小規模言語モデル」（SLM）　そのメリットとは？

生成AIをアプリケーション開発に活用する企業は、コストやハルシネーションの問題にどう取り組んでいるのか

テキスト生成AIのリスクを利用形態、想定ユースケースごとに解説　デジタル庁がガイドブックを公開

Mistral AI、コーディング用生成AIモデル「Codestral」リリース

ChatGPT-4oを専属マネージャーにしてサボり癖を直してもらった | ライフハッカー・ジャパン

オープンAI “ロシアなど拠点のグループ生成AIで世論操作” | NHK

OpenAI、ロシアや中国によるChatGPTなどのAIツール不正利用について報告　5件を阻止

Yahoo!知恵袋、「AI回答機能」にClaude 3を追加　「2種類の生成AIによる回答がつく」

Easy Scraper

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第3週）

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス