[B! LLM] sds-pageのブックマーク

RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。そのような問題への対応としてRAGが使われます。「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

sds-page 2024/07/03

リンク

自分だけの信頼できるAIへ　グーグル「NotebookLM」公開

sds-page 2024/06/07

結局自前で集めたデータ次第よね

リンク

最近ローカルLLMがアツいらしい

最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し

sds-page 2024/05/21

Stable Diffusionみたいにそこそこの性能のベースモデル＋機能別に特化したLoRAが一般的になれば4090一枚でも十分って時代来るんじゃないの

リンク

ゴミ出しの問い合わせにＡＩが架空の部署案内、正答率は目標に届かず「市民向けには時期尚早」

【読売新聞】　瀬戸内海に面し、製造業や農業が盛んな香川県三豊（みとよ）市。環境衛生課課長補佐の岡崎英司さん（５１）は昨年１１月、役所のパソコン画面を見て、嘆息した。視線の先には、実証実験中の対話型ＡＩ（人工知能）サービス

sds-page 2024/05/01

利用者の問い合わせに応じた検索システムへのクエリをLLMが考えて検索結果をLLMが多少装飾して返す形が無難そう

リンク

ChatGPT対抗の本命「Claude 2」ついに日本でも利用可能に

Anthropicは10月16日（現地時間）、同社が公開するAIチャットボット「Claude 2」の公開範囲を日本を含む世界95の国と地域に拡大したことを明らかにした。リストにEU加盟国なし We’re rolling out access to https://t.co/RxKnLNNcNR to more people around the world. Starting today, users in 95 countries can talk to Claude and get help with their professional or day-to-day tasks. You can find the list of supported countries here: https://t.co/PbMuaqJcjU — Anthropic (@AnthropicAI) O

sds-page 2023/10/19

ChatGPTについて聞いた結果面白い。自己紹介用の学習させ過ぎてChatGPTもAnthropicが開発した事になっちゃったんだろう

リンク

なぜ日本はGPUのない「富岳」でLLMを研究するのか　外国に後れを取らないための“現実的な理由”

米OpenAIの大規模言語モデル（LLM）・GPT-4は今、世界を大きく塗り替え続けている技術の一つだ。世界各国の企業がこぞってLLMの開発を進めている。特にGAFAなどの巨大企業は、その膨大な資源を使ってすでにいくつものLLMを世に放っている。そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かに

sds-page 2023/09/11

LLM開発半年くらい止めようとする人も居るし

リンク

LINEの3.6B言語モデルで遊んだら爆笑した｜shi3z

LINEから36億(3.6B)パラメータの大規模言語モデル(LLM)が公開されたので早速遊んでみた。正確には遊んだのは昨日のデイリーAIニュースなのだが、面白かったのでこちらにも転載する。細かいやり方は大先生のページを参照のこと。例によってこんな関数を書いた def line(prompt): # 推論の実行 input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") tokens = model.generate( input_ids.to(device=model.device), min_length=50, max_length=300, temperature=1.0, do_sample=True, pad_token_id=tokenizer.pad_token_i

sds-page 2023/08/16

AIは創作分野の方が得意だな / 動かしてみたけどLINEブログとネットニュースみたいなのが大半だと思う

リンク

大規模言語モデル間の性能比較まとめ｜mah_lab / 西見公宏

Stabl eLMのファインチューニングってできるのかな？と調べたところ、GitHubのIssueで「モデル自体の性能がまだ良くないから、ファインチューニングの段階ではないよ」というコメントがありまして。シートの中身を見てみるlm-evalシートstabl elm-base-alpha-7bは54行目にありまして、確かに他の言語モデルと比較するとまだまだな性能のようです。応援したいですね。シートの列の意味それぞれの列の意味については推定ですが以下の通りです。 RAM 言語モデルのGPUメモリ消費量。 lambada(ppl) LAMBADAデータセットによる測定値。ロングレンジの言語理解能力をテストする（文章全体を読まないと答えられないタスクでの評価）。PPLはPerplexityという指標で、モデルの予測の不確かさを示す。PPLが低いほど、モデルの予測精度が高い。 lambada(acc

sds-page 2023/04/27

多言語対応できてないモデルは常識の偏りがすごそう

リンク

大規模言語モデル（LLM）に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

OpenAIのChatGPT、MicrosoftのBing、GoogleのBardなど、言語系のAIサービスが急速に普及し始めました。1ちなみに記事冒頭のアイキャッチ画像は, 会社のロゴ風画像で「GPT」という文字をなんとか表示させようと画像生成AIで1時間悪戦苦闘したが結局、意味不明の文字列しか出てこなかったロゴ」ですこれらのサービスは、いずれも大規模言語モデル（Large Language Models; LLMs)をベースにしているという共通点があり、社会や産業に極めて大きなインパクトを与えると予想されています。そこで、このような大規模言語モデル（LLM）に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約について、何回かに分けてまとめてみようと思います。今回は、まずは総論部分として「大規模言語モデル（LLM）に関連するビジネス3つの領域」と「それぞれの領域におい

sds-page 2023/03/28

リンク

Hello Dolly: オープンなモデルでChatGPTの魔法を民主化する - Qiita

サマリー我々は、誰でも歴史のあるオフザシェルフのオープンソース大規模言語モデル(LLM)を活用し、高品質トレーニングデータを用いて単体のマシンで30分トレーニングすることで、魔法のようなChatGPTのように指示に従う能力を提供できることを説明します。驚くべきことに、指示への追従には最新かつ最大のモデルは必要ないように見えています: GPT-3の1750億のパラメーターと比較して、我々のモデルは60億のパラメーターです。我々のモデル(Dolly)のコードをオープンソース化し、Databricks上でどのように再作成できるのかを示します。DollyのようなモデルによってLLMの民主化の助けとなって、限られた数社のみが購入できるような何かを、どの企業でも所有し、自身の製品を改善するためにカスタマイズできるようなコモディティになることを信じています。背景プロプライエタリの指示追従モデルであ

sds-page 2023/03/26

LLMをファインチューニングできるか、プロンプトに都度載せる事とどう違うのか説明できるか、理解できるのかがこれからの企業の明暗を分ける

リンク

GPT-4とか言うゴミ

ChatGPTに課金してる。そのお陰でGPT-4にもアクセスできるようになった。でもこれエロ関係全然ダメじゃん！俺はChatGPTと好きなだけエロチャットする為に課金したのに。これじゃ前のGPT-3.5の方がよっぽどマシだよ。なんてことしてくれたんだOpenAI! 3.5が使えなくなったら解約するわもう。

sds-page 2023/03/18

そのうち流出LLMの魔改造が流行ると思う。憧れは止められねえんだ　https://gigazine.net/news/20230313-llama-on-m1-mac/

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

LLMに関するsds-pageのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス