マルチメディア,分散,協調とモバイル(DICOMO2024)シンポジウムでの招待講演の資料です。 https://dicomo.org/
![大規模言語モデル (LLM) の技術と最新動向](https://cdn-ak-scissors.b.st-hatena.com/image/square/72ec706626eeaf9070e46408eedcf64337aed185/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Fb6c8331c7c2a4b2195b8866249f92f0e%2Fslide_0.jpg%3F30778011)
こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII
新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け
こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ
こんにちは、メルカリの生成AIチームで ML Engineer をしている ML_Bear です。 以前の記事[1]では商品レコメンド改善のお話をさせていただきましたが、今回は、大規模言語モデル (LLM) やその周辺技術を活用して30億を超える商品のカテゴリ分類を行なった事例を紹介します。 ChatGPTの登場によりLLMブームに火がついたということもあり、LLMは会話を通じて利用するものだと認識されている方が多いと思いますが、LLMが有する高い思考能力はさまざまなタスクを解決するためのツールとしても非常に有用です。他方、その処理速度の遅さや費用は大規模なプロジェクトでの活用にあたっての障壁となり得ます。 本記事では、こうしたLLMの課題を克服するためにさまざまな工夫を施し、LLM及びその周辺技術のポテンシャルを最大限に引き出して大規模商品データのカテゴリ分類問題を解決した取り組みについ
ELYZA-Japanese-Llama-2-7b ELYZA-Japanese-Llama-2-7bは、ELYZAが公開した日本語に特化したLLMです。 公開されたのは以下のモデルです。 ELYZA-japanese-Llama-2-7bELYZA-japanese-Llama-2-7b-fastELYZA-japanese-Llama-2-7b-instructELYZA-japanese-Llama-2-7b-fast-instruct instruct:instruction tuningによって追加学習されたモデル。 fast:日本語の語彙の追加によって処理を高速化したモデル。 モデルの概要 ELYZA-japanese-Llama-2-7bはLlama2をベースとして日本語処理の性能を向上させるために追加学習したモデルです。英語で学習済みのLLMの言語能力を引き継ぐことで、少な
LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass
この Xwin-LM-13B-V0.1 モデル、13B(130億パラメーター)でありながらAlpacaEval ベンチマークにおいてなんとGPT-4に僅差で勝利している。対ChatGPT戦に至っては圧勝である。 しかもこのモデル、GPTQで量子化したTheBloke/Xwin-LM-13B-V0.1-GPTQ であれば7.26 GBである。 ついに家庭用ゲーミングPCでGPT-4が動く時代が来たのだ。 今を未来と呼ばずしてなんと呼ぶ。 というわけで、ローカルの Text generation web UI で Xwin-LM-13B をロードして色々推論して遊んでみます。 2. WebUI での実行今回はmainブランチのモデルを使用しています。 4ビット、アクトオーダー、グループサイズ128g。 VRAM使用量は64Gよりさらに少ないが、精度は若干落ちる。 Model タブの Downl
TR:TL 最近、日本語のLLMが続々公開されているが、各LLMが何文字まで生成可能なのかを知りたい。 Rakudaのデータで各LLMのトークナイザーの「1トークンあたりの文字数」を調べた。 標準的な日本語特化のLLMでは2.0~2.6文字/トークン程度、一方で、GPT-4/3.50.96文字/トークン程度。 背景 最近、日本語でも使えるLLMが続々と公開されています。特に、GPT-3.5-turboやGPT-4は、8192トークンという大きい最大トークン長を誇っています。一方で、LINEのjapanese-large-lmなどの2023年時点で公開されている公開されている日本語LLMの多くは、2048トークンが最大トークン数になっている場合が多いです。額面上、LINEのLLMは、OpenAI GPT-3.5の1/4の長さのテキスしか生成できないように見えますが、それぞれのトークナイザーは
くふうカンパニーの舘野(@hotchpotch)です。先日行われたYANS2023にスポンサー企業として参加し、ブースで「大規模言語モデルは絵文字の分散表現をどう見るか」という展示を行いました。 Webブラウザー上で、絵文字の分散表現(特徴量)を使ってインタラクティブにぐりぐり動かしながら、色々な視点から絵文字を見ることができます。 🎨Emoji Embedding Projector🌐 https://emoji-emb.netlify.app/ 🔼 こちらのURLから、ブラウザで絵文字の分散表現を視覚的に弄れます スマートフォンでも横表示にすれば操作できますが、PC ブラウザでの閲覧がおすすめです 🤗 楽しみ方絵文字アイコンをクリックすると、その絵文字の類似 Top-100 が表示されます。 左下の PCA タブでは、主成分の上位1-10が表示され、そのうち3つを使い3D空間に
実行環境 Macbook Pro 16 M1 Max 32 core gpunpakaさんの記事ではmetal利用の高速化の影響が確認できなかったとのことでしたが私の環境ではmetalを使った方が高速化したので報告しておきます。 llama.cppのリポジトリはクローン済の前提でバージョン的には下記のコミットのあたりを含む最新バージョンです llama-2-13b-chat.ggmlv3.q4_0.binのWeightはwgetでダウンロード済。 ビルドとかも野良スクリプトでLLAMA_METAL=1で実行しました。 llama.cppクローンとビルドとモデルダウンロード# Clone llama.cpp git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp # Build it LLAMA_METAL=1 ma
これはなに? LINE が公開した日本語言語モデルをローカルで動かしたいけど、GPUがなくて動かなくて悲しかったのです。でも、huggingface に良い変換モデルを公開されてる方がいらして、それを試したら、いい感じで動きました。というご報告です。やったね! 結論: 動かす手順 homebrew で cmake をインストール mmngaさんが公開されている ggml 変換版の readme に従ってターミナルで以下を実行 git clone https://github.com/ggerganov/ggml.git cd ggml mkdir build && cd build cmake .. make -j mmngaさんが公開されているggml 変換版のモデルをダウンロード 保存先は 2. で mkdir した build ディレクトリに。 以下のコマンドで推論を実行 ./bin
Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。 汎用言語モデル「Japanese StableLM Base Alpha 7B」「Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに
皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 Microsoft Buildを経て、AzureにもGPTを利用したサービスが数多く発表されており、LLMをサービスとして利用できる使い方増えていてワクワクしますね。 今回と次回の記事を通して、その中のサービスの一つであるAzure Machine Learning Prompt Flowというサービスを使ってRAG(Retrieval Augmented Generation)の回答を自動評価するシステムを試してみます。 この記事では、まずはPrompt Flowを使って手動で回答を評価してみるところまでを検証します。 ※RAGとは事前に知識を検索エンジンなどに
(Expanded from a talk given at DWeb Camp 2023.) Artificial intelligence may well prove one of the most impactful and disruptive technologies to come along in years. This impact isn’t theoretical: AI is already affecting real people in substantial ways, and it’s already changing the Web that we know and love. Acknowledging the potential for both benefit and harm, Mozilla has committed itself to the
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く