[B! LLM][日本語] akishin999のブックマーク

LLMに日本語テキストを学習させる意義

こちらのスライドは「第261回自然言語処理研究発表会」の発表で用いたものです。 Reference:

akishin999 2024/09/05

リンク

海外産LLMはどれだけ日本文化に詳しいのか？　最新研究から見える日本語LLMが大切な理由

この連載について AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。大規模言語モデル（LLM）の進化が加速する中、その文化的な理解力と適応能力が新たな課題として浮上しています。最新の研究結果が、多言語LLMの文化的バイアスと、ローカルな知識・文化の理解における限界を明らかにしました。日本企業のグローバル展開とAI活用戦略に大きな影響を与える可能性のある、注目すべき知見をお伝えします。ペンシルベニア大学の研究では、感情表現に焦点を当て、LLMが異なる文化間での感情の経験や表現の違いを適切に反映できているかを検証しました。そ

akishin999 2024/08/29

リンク

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました｜Baku

最近LLMコミュニティから生まれた小型MoEモデル「LightChatAssistant-2x7B」の日本語チャット性能がとても良いため、モデル作者さんが用いた手法（Chat Vector+MoEマージ）を後追いで勝手に検証しています。その過程で複数のモデルを試作したところ、7Bクラスとしてはベンチマークスコアがやたら高いモデルが出てきたので「Japanese-Starling-ChatV-7B」として公開してみました。以下はこのモデルの簡単な説明です。簡易評価日本語によるinstruction-tuningを行ったモデルの評価用データセットとして知られる「ELYZA-tasks-100」を用いて、ほかの有力な7Bクラスの日本語モデルとスコアを比較しました。その結果、GPT-4による評価において既存の日本語7Bモデルより大幅に高いスコア（3.42）を示すことが確認できました。単純に

akishin999 2024/04/18

リンク

ELYZAが新たな日本語LLMを開発　「GPT-3.5 Turboにも匹敵」　チャット形式のデモサイトも公開

東大発のAIスタートアップ企業であるELYZA（東京都文京区）は3月12日、700億パラメータの大規模言語モデル（LLM）「ELYZA-japanese-Llama-2-70b」を開発したと発表した。日本企業のLLMの性能を大きく上回り、グローバルモデルの性能にも匹敵するという。このLLMを試せるチャット形式のデモ版も公開している。同社が公開している日本語LLM性能を評価するベンチマーク「ELYZA Tasks 100」などで、開発したLLMの性能評価を行ったところ、日本企業が公開しているLLMの性能を大きく上回った。また、米OpenAIの「GPT-3.5 Turbo」シリーズや、米Anthropicの「Claude 2」シリーズ、米Googleの「Gemini 1.0 Pro」に匹敵する性能を達成したという。

akishin999 2024/03/13

リンク

日本語LLM の学習に関する技術記事まとめ｜npaka

日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。 2023年5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

akishin999 2024/02/27

リンク

推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日本語LLM, Karakuri-LMの秘密

推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日本語LLM, Karakuri-LMの秘密 2024.02.18 Updated by Ryo Shimizu on February 18, 2024, 10:08 am JST 2024年1月。国内の生成AIコミュニティに激震が走った。コンタクトセンター向けのチャットボット開発のパイオニアとして知られるカラクリ社が商用利用可能のオープンソースモデルとして公開したKarakuri-ln-70bの性能が高すぎると話題になったのだ。多くの日本語LLMと同様に数学能力に関するスコアは低いが、物語を記述する能力、日本語の質問に日本語で答えたり、答えをプログラムで扱い易いJSON形式にしたりする能力がこれまでの国産LLMに比べて桁違いに高かったのである。物語を記述する能力に関しては、一説によればGPT-4を凌駕するとも言わ

akishin999 2024/02/26

リンク

日本語LLMの学習に向けたデータ前処理

はじめに大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。本記事では、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法について解説します。言語検出 Webから大規模に収集したデータには、様々な言語が含まれます。日本語をターゲットとした言語モデルの学習のためには、日本語のデータのみを抽出する必要があります。言語検出のPythonライブラリとして、pycld3やlangdetectが有名ですが、2022/1/11にlinguaがリリースされています。開発者のベンチマークによると、性能は他のライブラリと比べて高いです。特にpycld3はp

akishin999 2024/01/23

リンク

日本語に強い大規模言語モデル「Swallow」を公開英語が得意な大規模言語モデルに日本語を教える

要点日本語能力に優れビジネスにも安心して活用できる大規模言語モデルを公開継続事前学習により大規模言語モデルの日本語能力を改善高度な日本語処理が求められる多くの場面で、生成AI 技術の利活用を推進概要東京工業大学（以下、東工大）情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人産業技術総合研究所（以下、産総研）は、日本語能力に優れた生成AIの基盤である大規模言語モデル[用語1]「Swallow」を公開した[参考リンク1]。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル（米Meta社 Llama 2）の日本語能力を拡張することで「Swallow」を構築した

akishin999 2023/12/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

LLMと日本語に関するakishin999のブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス