サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
プライムデーセール
www.sbintuitions.co.jp
概要 こんにちは、SB Intuitions株式会社インターンの塚越です。 日本語・英語合わせて約4.4T tokensを学習した日本語ModernBERTというモデルを構築・公開しました。 本記事では、その開発過程や評価結果についてお話しします。 我々が開発した日本語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、本記事公開時点では最も高い性能を達成しています。 開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod
概要 SB Intuitionsでは、日本語や日本の文化・慣習に強い大規模視覚言語モデル(Vision-Language Model; VLM)の開発を進めており、2025年3月に弊社の日本語大規模言語モデル(Large Language Model; LLM)のSarashina2をベースに開発したVLMであるSarashina2-Vision (8B・14B)を公開しました。 Sarashina2-Visionは、日本に関連する画像に基づいた専門的タスクの処理能力を測るベンチマークや日本語の複雑図表の理解能力を測る内製ベンチマークなど、複数の日本語ベンチマークにおいて国内最高の性能を実現しています。 この記事ではVLM学習チームがSarashina2-Visionのモデル構成と学習の詳細について紹介します。評価については別記事をご参照ください。 使い方 Sarashina2-Visio
概要 Tuningチームの清野舜、小林滉河、馬越雅人、入亮介です。 SB Intuitionsでは日本語に特化した大規模言語モデル(Large Language Model; LLM)の開発に取り組んでおり、これまでにSarashina1、Sarashina2シリーズや国内最大規模のMoEモデルを公開しています。 また、本記事に先立って、Sarashina2を更にブラッシュアップした事前学習済みモデルを公開しました。 この度、アカデミアや産業界におけるLLMの研究開発に更に貢献することを目的として、事後学習1を行った0.5B、1B、3Bモデル(Instructモデル)をMITライセンスのもとで公開します。 これらのモデルは事前学習モデルであるSarashina2.2-{0.5B, 1B, 3B}をもとに事後学習を行っており、同サイズ帯では日本語最高水準のベンチマークスコアを達成しています。
概要 Pretrainingチームの高瀬翔と李凌寒です。 弊チームでは日本語能力に主眼を置いた大規模言語モデルの構築に取り組んでおり、Sarashina2-70BやSarashina2.1-1Bのように、いくつか事前学習モデルも公開してきました。 これまで公開したモデルは日本の知識を問う質問応答タスクでは高い性能を達成している一方で、数学タスクやコーディングタスク、すなわち、文章題のような自然言語で提示された計算問題や、与えられた指示を満たすコードを生成するタスクの性能は芳しくありませんでした。 これは、CommonCrawlのようなウェブ文書の中に、数学・コーディングタスクの性能向上に寄与するデータが非常に少ないことに起因していると考えられます。 そこで、学習コーパスの中から数学・コーディング能力向上に寄与しそうなデータを抽出し複数回使用する(アップサンプリング)、また、これらのデータを
TL;DR Sarashina-Embedding-v1-1Bという日本語特化テキスト埋め込みモデルを開発し、モデルを公開. 12億パラメータの日本語言語モデルであるSarashina2.1-1Bを事前学習モデルとした日本語テキスト埋め込みモデル。 コンテキスト長は8192トークンで、日本語特化モデルとしては最大。 JMTEBベンチマークで最高水準のスコアを達成。特にRetrieval、Classification等でハイスコア。 公開ページ: https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b 図1: JMTEBベンチマークでのSarashina-Embedding-v1-1Bと先行モデルの平均スコア 概要 こんにちは、RAGコア構築チームの福地です。 Sarashina-Embedding-v1-1Bという日本語テ
概要 SB IntuitionsのSeng Pei Liew、李凌寒、高瀬翔です。 弊社では日本語能力に主眼を置いた大規模言語モデルの構築に取り組んでおり、パラメータの大規模化のための施策として、学習済みの70Bパラメータ*1をMixture-of-Experts(MoE)モデルに拡張し、事前学習を行ったモデルをSarashina2-8x70Bとして公開しました。 言語モデルの100Bパラメータ以上までの大規模化はまだ弊社でも試行錯誤の段階にあり、引き続き大規模なモデルの学習を行っていますが、 本記事では先日公開したSarashina2-8x70Bの性能やMoE、学習済モデルのMoEモデルへの拡張について紹介したいと思います。 Mixture-of-Expertsについて Sarashina2-8x70BモデルではTransformerにMoE層を組み込んだアーキテクチャを採用しています。
概要 SB Intuitionsの清野舜,李凌寒,高瀬翔です。 弊社では高品質な日本語大規模言語モデルの構築に取り組んでいます。 大規模言語モデルの構築は理論的にも経験的にもまだまだ発展途上の領域であり,学術界・産業界の日本語大規模言語モデルの研究開発促進のために,7B,13B,65BパラメータのモデルからなるSarashina1および,7B,13BパラメータのモデルからなるSarashina2を公開しました。 この記事ではSarashina1・2の詳細について解説します。 使い方 Sarashina1・2共にHuggingFace Hubにて,商用利用も可能なライセンス(MIT)のもと公開しています。 以下のようにtransformersライブラリからお試し頂けます。 なお,下記にあるように,tokenizerを呼び出す際にuse_fast=Falseを設定することで想定通りの挙動となり
TL;DR JMTEB とは 評価結果 はじめてのJMTEB ベンチマークを用いた分析例: 正規化に関する考察 おわりに 付録 TL;DR 日本語テキスト埋め込みベンチマークJMTEBを構築・公開しました。2024年5月現在,6タスク・16データセットで構成されています。 データセットをHuggingFaceで公開しています: https://huggingface.co/datasets/sbintuitions/JMTEB 使いやすい評価コードをGitHubで公開しています: https://github.com/sbintuitions/JMTEB ぜひ使ってみてください! JMTEB とは こんにちは,SB Intuitions の李聖哲,大萩雅也,李凌寒です。 今回紹介する日本語テキスト埋め込みベンチマーク(Japanese Massive Text Embedding Benc
傍観者ではなく、挑戦者へ 私たちは単なる技術の利用者や情報の受け手として存在するのではありません。時代と共に、新しい技術や知識、方法を取り入れ、挑戦し続けることで、真のイノベーションを追求しています。また、私たちのサービスは、単に便利なツールとしての役割だけではなく、新しい価値や可能性を創出するための手段として、お客様と共に進化していきます。 伝統的な価値を守りながら、 未来への新しい可能性を模索 私たちは、日本語に特化した大規模言語モデルの研究開発に力を入れています。私たちのモデルは、日本の文化や価値観を真に反映し、日本独自のニーズに合わせたサービスを提供することを目指しています。そして、私たちが大切にしているのは、データの安全性。日本語に特化した大規模言語モデルに関するデータは国内のデータセンターで厳格に管理され、高い安全性を持つ環境での開発・学習を実施しています。私たちの技術とサービ
このページを最初にブックマークしてみませんか?
『SB Intuitions株式会社』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く