並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 585件

新着順 人気順

コーパスとはの検索結果1 - 40 件 / 585件

  • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

      pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
    • もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」

      オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、LLM構築タイムアタック。 「GPT-4を作ってください」と言われたらどう答える? 秋葉拓哉氏:みなさん、こんにちは。秋葉と申します。それでは、発表させていただきたいと思います。 みなさん、さっそくですが、「GPT-4」ってすごいですよね。ここにいらっしゃっている方々はこれについては、もう疑いの余地なく、同意してくださるかなと思います。 では、質問なんですが、もし「GPT-4を作ってください。予算はあるんだよ」と上司に言われたら、どう答えますか? ということをちょっと聞いてみたいですね。 これはけっこう意

        もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
      • 225行のコードでGPTの仕組みを理解する

        概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下で、225行しかなくとても読みやすいです。 また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。 このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。 ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo

          225行のコードでGPTの仕組みを理解する
        • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

          カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

            GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
          • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

            大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

              RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
            • 東工大など、日本語に強い大規模言語モデル「Swallow」を無償で公開

              東京工業大学(東工大)と産業技術総合研究所(産総研)の両者は12月19日、現在公開されている中で、日本語に強い生成AIの基盤である「大規模言語モデル」(LLM)としては最大規模となる「Swallow」を、米・MetaのLLM「Llama 2」の日本語能力を拡張することで構築し、Webサイト「TokyoTech-LLM」にて一般公開したこと、またオープンで商用利用も可能なことを共同で発表した。 同成果は、東工大 情報理工学院 情報工学系の岡崎直観教授、同・横田理央教授、産総研の共同研究チームによるもの。今回、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研はモデル構築に必須である大規模計算資源としてAI橋渡しクラウド(ABCI)を提供すると同時に、主に継続学習によるモデルの日本語能力の改善を担当したとしている。 産総研のAI橋渡しクラウド「ABCI」(出所:東工

                東工大など、日本語に強い大規模言語モデル「Swallow」を無償で公開
              • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                  大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                • NISAは「ニーサ」なのか「ナイサ」なのか - 詩と創作・思索のひろば

                  [B! togetter] アメリカのVTuberさんが『日本人はカスコー(Costco)のことをコストコって言うんやで 発音かわゆす』みたいなお話をなさっていた「tを読まないんか」 このブコメに「NISAも英語読みならniceのようにナイサと呼ぶべき」というものがあり、それは違うんじゃね? と直感的には思ったものの、そんなに説明できる感覚でもないなと思ったので調べてみた。 結論としては「ニーサ」で問題はないだろうと思う。 英単語を構成する文字のうち子音をC、母音をVで表すことにする(一般的な表記のようです)。ここでは「CiCeという形で表される英単語のiにおける発音のルールが、CiCaという形式にも適用されるのか?」という疑問に否定的な回答をしたい。 そのために、 まずCiCaの形(NISA)をとる既知の英単語における "i" の発音がどのようであるか、 その後、CiCeの形(nice)

                    NISAは「ニーサ」なのか「ナイサ」なのか - 詩と創作・思索のひろば
                  • Azure OpenAI Serviceの世界へようこそ|父

                    はじめに賽は投げられた2022年11月にOpenAIが公開したAIチャットボットChatGPTは、それまでのチャットボットの常識を大きく凌駕するその余りの流暢な受け答えから瞬く間に技術系コミュニティで話題沸騰となり、わずか2ヶ月でアクティブユーザー数は1億人を超え、その影響範囲はすぐさま技術系コミュニティの内側にとどまるものではなくなりました。プログラマが、大学生が、研究者が、物書きがChatGPTを試してはその自然な回答に驚愕しました。翌23年4月には、東京大学理事・副学長で教育・情報担当の太田邦史博士がChatGPTやStable Diffusion等の「生成系AI」の急速な発展とその著しい品質の向上を受けて「人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれない」とする声明を発表しました。 人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれないのです。むし

                      Azure OpenAI Serviceの世界へようこそ|父
                    • 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.

                      本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。 ■「Llama-3-ELYZA-JP-70B」 700億パラメータモデル。「GPT-4」を上回る日本語性能を達成。無料で利用可能なデモを用意しています。 ■「Llama-3-ELYZA-JP-8B」 80億パラメータと軽量ながらも「GPT-3.5 Turbo」に匹敵する日本語性能を達成。モデルを商用利用可能な形で一般公開しました。 使用したAPIのバージョンなど、より詳細な評価結果については本記事の後段

                        「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.
                      • AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に

                        AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。 Data Provenance Initiative https://www.dataprovenance.org/consent-in-crisis-paper Data for A.I. Training Is Disappearing Fast, Study Shows - The New York Times https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html AIモデル

                          AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に
                        • GPT-4を凌駕する日本語対応チャットAIが登場。現状最強モデル「Claude 3」徹底解説|ChatGPT研究所

                          2024年3月4日(アメリカ現地時間)、Anthropicは現状、最高性能モデルの「Claude 3 Opus」を含む、新たな大規模言語モデルファミリー「Claude 3」を発表しました。 Claude 3シリーズはHaiku、Sonnet、Opusの3バージョンで提供され、新たに発表されたOpusはシリーズ中で最も高性能なモデルとされています。 この記事では、Claude 3ファミリーの特徴、各モデルの性能比較、利用方法、そしてGPT-4との比較に焦点を当てて解説します。 Claude とは?Anthropicが開発した大規模言語モデル「Claude」の最新バージョンが「Claude 3」です。実はClaude 3は3つのモデルから構成されるモデルファミリーで、以下の通り段階的に高度な能力を持っています。 Claude 3 Haiku Claude 3 Sonnet Claude 3 O

                            GPT-4を凌駕する日本語対応チャットAIが登場。現状最強モデル「Claude 3」徹底解説|ChatGPT研究所
                          • Googleのランキングアルゴリズム流出から考えるSEO - Qiita

                            めっちゃくちゃ久しぶりの記事です。 弊社のStampはTabisakiの運用を始めたこともあり、SEOに取り組む機会も増えてきました。そんなタイミングで、Googleの検索結果のランキングアルゴリズムが流出したとのことですので海外の記事をベースにAIで内容をまとめました。 ドメイン権威(Domain Authority) ドメイン権威(Domain Authority、DA)は、SEOの世界で広く使用される指標であり、特定のドメインが検索エンジンの結果ページ(SERP)でどれだけの影響力を持つかを測定するものです。この指標は主にMozが提供しているもので、0から100のスコアで表され、高いスコアほど検索結果でのランキングが高くなる可能性があるとされています。ドメイン権威は以下のような要因に基づいて計算されます。 リンクプロファイルの質と量: 外部サイトからのリンクの数と質。 ドメインの年齢

                              Googleのランキングアルゴリズム流出から考えるSEO - Qiita
                            • Meta、LLMコンパイラを公開——AIがプログラミングの常識を変えるかも - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                              Image credit: Hugging Face Meta は、「Meta Large Language Model (LLM) Compiler」を発表した。Meta Large Language Model (LLM) Compiler は、コードを最適化し、コンパイラ設計に革命を起こすために設計された、堅牢でオープンソースのモデル群だ。この技術革新は、開発者がコード最適化に取り組む方法を変革し、より速く、より効率的で、費用対効果の高いものにする可能性を秘めている。 LLM Compiler を開発した研究者たちは、大規模言語モデル(LLM)をコードやコンパイラの最適化に適用する際に、これまで十分に検討されてこなかった重要なギャップに対処した。LLVM-IR とアセンブリコードの5,460億トークンからなる膨大なコーパスでモデルをトレーニングすることで、コンパイラの中間表現、アセン

                                Meta、LLMコンパイラを公開——AIがプログラミングの常識を変えるかも - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                              • 文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレッシャーをかける感情付きプロンプトをはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップOpenAIの文字起こしAI「Whisper」を軽量かつ高速にするモデル「Distil-Whisper」 Hugging Faceが開発 3.2兆以上のトークンで学習された、130億のパラメータを持つオープン大規模言語モデル「Skywork」 テキストや画像から高品質な動画を生成するオープンソースモデル「VideoCrafter1」 中国テンセント含む研

                                  文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

                                  本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

                                    大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
                                  • ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

                                    はじめに こんにちは。ELYZAの研究開発チームの佐々木 (@hikomimo)、中村 (@tyo_yo_)、堀江 (@eemon18)、平川 (@h__must__) です。 先日弊社株式会社ELYZAでは以下のようなリリースをさせていただきました。 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 上記のリリースには、Metaの「Llama 2」をベースとした以下のモデルが含まれます。 日本語追加事前学習済みモデル ELYZA-japanese-Llama-2-7b ELYZA-japanese-Llama-2-7b-fast 上記の事前学習済みモデルに事後学習 (instruction tuning) を実施したモデル ELYZA-japanese-Llama-2-7b-instruct (デモ)

                                      ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編
                                    • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

                                      国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

                                        NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
                                      • “リンク切れ”――インターネットは砂上の図書館である | p2ptk[.]org

                                        以下の文章は、コリイ・ドクトロウの「Linkrot」という記事を翻訳したものである。 Pluralistic 過小評価されている認知的美徳がある。それは「対象の永続性(object permanence)」、つまり以前に物事をどのように認識したかを継続的に記憶していることだ。ライリー・クインがしばしば思い出させてくれるように、左派は「対象の永続性」のイデオロギーだ。左派であるということは、CIAが一時的にトランプを苦しめている時でさえも、CIAを嫌い、信用しないことであり、あるいは、かつて労働者が自分の賃金で家族を養えていたことを覚えていることだ。 https://pluralistic.net/2023/10/27/six-sells/#youre-holding-it-wrong 問題は、対象の永続性が難しいということだ。光陰矢の如し。事実を覚えておくのは難しく、それらの事実がどの順番

                                          “リンク切れ”――インターネットは砂上の図書館である | p2ptk[.]org
                                        • ビジュアルシンカーとは? ビジュアルシンキングの最新研究も紹介・日本人の6割が実践すべき英語学習方法とは!? - ポリグロットライフ | 言語まなび∞ラボ

                                          はじめに 今回は近年その存在が注目されているビジュアルシンカーについて考えていきたいと思います。視覚的戦略思考やビジュアルシンキングの最新研究を紹介しながら、視覚と記憶のメカニズムについても考察をすすめ、最後にビジュアルシンカーが実践すべき英語学習についても考えていきたいと思います。 ↓↓英語学習の動画を随時追加していくの登録お願いします。 www.youtube.com ビジュアルシンカー ビジュアルシンカーとは ビジュアルシンカーの特徴 ビジュアルシンキング ビジュアルシンキングとは ビジュアルシンキングの効果 アートの力 視覚的思考戦略(VTS)とは 視覚的思考戦略の効果 視覚と記憶 記憶の仕組み アイコニックメモリ 精緻化リハーサル 脳のイメージ形成 心的イメージの世界 心的イメージとは 概念メタファー ビジュアルで語彙と文法を強化する イメージスキーマ グラフィックオーガナイザー

                                            ビジュアルシンカーとは? ビジュアルシンキングの最新研究も紹介・日本人の6割が実践すべき英語学習方法とは!? - ポリグロットライフ | 言語まなび∞ラボ
                                          • モデルパラメータの算術 - ジョイジョイジョイ

                                            深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異なるパラメータベクトルとすると、 や をパラメータとして持つモデルはちゃんと機能します。本稿では、このようなモデルパラメータの算術を用いた手法とその背後にある理論について解説します。 モデルスープ タスクベクトル モデルパラメータとニューラルタンジェントカーネル おわりに モデルスープ モデルスープ [Wortsman+ ICML 2022] は複数のモデルパラメータを平均することで性能を上げる手法です。事前学習モデル からはじめて、様々なハイパーパラメータで訓練した結果のパラメータを とします。これらを平均したベクトル は個々のモデルよりも性能が高く、

                                              モデルパラメータの算術 - ジョイジョイジョイ
                                            • 科学論文の査読にLLMが使われている?誤字修正目的の範囲を超えての使用も スタンフォード大など調査【研究紹介】

                                              研究者らはLLMが使用されているかを調査するために、AIによって生成または修正されたコンテンツを効率的に調査するための新たなフレームワークを開発した。個々のテキストがAIによるものか人間によるものかを判定する従来のAIテキスト検出手法とは異なり、このフレームワークでは、テキスト全体(コーパス)の中でAIによるものがどのくらいの割合を占めているかを推定することに焦点を当てている。 具体的には、人間の専門家が書いた査読(以下、人間レビュー)とLLM(ここではGPT-4を使用)が生成した査読(以下、AIレビュー)を参照データとして使い、それらのデータから推定された単語の出現分布を比較することで、実際の査読コーパスにおけるLLMの使用割合を推定する。 ▲提案フレームワークの概要 実験では、2018年から2024年までのICLR、NeurIPS、EMNLP、CoRLなどのAI関連のトップカンファレン

                                                科学論文の査読にLLMが使われている?誤字修正目的の範囲を超えての使用も スタンフォード大など調査【研究紹介】
                                              • 日本語精度が高い130億パラメータの大規模言語モデル(LLM)を開発 | リコーグループ 企業・IR | リコー

                                                株式会社リコー(社長執行役員:大山 晃)は、日本企業の業務での活用を目的に、企業ごとのカスタマイズを容易に行える130億パラメータの大規模言語モデル*1(LLM)を開発しました。日本語と英語での学習において、その学習データの比率を工夫することで、日本語としての文法や回答が正確で日本語精度の高い、日本企業が持つ情報資産の活用に適したモデルを実現しました。ベンチマークツールを用いた性能検証*2の結果、日本語で利用できる130億パラメータを持つ日本語LLMにおいて、2024年1月4日現在で最も優れた結果を確認しました。 労働人口減少や高齢化を背景に、AIを活用した生産性向上や付加価値の高い働き方が企業成長の課題となっており、その課題解決の手段として、多くの企業がAIの業務活用に注目しています。しかし、AIを実際の業務に適用するためには、企業固有の用語や言い回しなどを含む大量のテキストデータをLL

                                                  日本語精度が高い130億パラメータの大規模言語モデル(LLM)を開発 | リコーグループ 企業・IR | リコー
                                                • 人類の知識・Wikipedia1GB分をできるだけ圧縮するヒュッター賞で114MBへの圧縮に成功

                                                  人工知能(AI)に関する研究の奨励を目的に、コンピューター科学者のマーカス・ヒュッター氏から資金提供を受けて2006年から行われている「ヒュッター賞」で、1GBのファイルを約114MBに圧縮することに成功したサウラブ・クマール氏が5187ユーロ(約82万円)の賞金を受け取りました。 500'000€ Prize for Compressing Human Knowledge http://prize.hutter1.net/ 「ヒュッター賞」は、「適切に圧縮できるということは賢い(インテリジェントな)動作と密接に関連している」という考えから、「賢さ(インテリジェンス)」というあいまいな概念をファイルサイズの数値に置き換え、AGI(汎用人工知能)への道として、できるだけ賢い圧縮プログラムの開発を奨励する目的でスタートしたものです。 賞金はコンピューター科学者のマーカス・ヒュッター氏が提供して

                                                    人類の知識・Wikipedia1GB分をできるだけ圧縮するヒュッター賞で114MBへの圧縮に成功
                                                  • 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.

                                                    700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました はじめにこの度 ELYZA は、新たに開発した700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」のデモを公開しました。「ELYZA-japanese-Llama-2-70b」は、前回までに引き続き、英語の言語能力に優れた Meta 社の「Llama 2」シリーズに日本語能力を拡張するプロジェクトの一環で得られた成果物です。 ELYZA が公開している日本語ベンチマーク ELYZA Tasks 100 を用いたブラインド性能評価では、公開されている日本語の大規模言語モデル (以下、LLM) を大きく上回っていることに加え、OpenAI 社の「GPT-3.5 Turboシリーズ」や Anthoropic 社の「Cla

                                                      700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.
                                                    • 中国が「習近平思想」に基づいて訓練されたAIモデルを開発

                                                      中国でインターネットの規制を行っている中国サイバースペース管理局の研究所が、習近平国家主席の政治哲学に基づいた「安全で信頼できる」大規模言語モデル(LLM)を開発しました。 China’s latest answer to OpenAI is ‘Chat Xi PT’ https://www.ft.com/content/43378c6e-664b-4885-a255-31325d632ee9 Sure, why not: China built a chatbot based on Xi Jinping https://www.engadget.com/sure-why-not-china-built-a-chatbot-based-on-xi-jinping-155828456.html China rolls out large language model AI based on

                                                        中国が「習近平思想」に基づいて訓練されたAIモデルを開発
                                                      • Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog

                                                        こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。 なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。 note.com おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本

                                                          Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog
                                                        • 日本語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日本語データに工夫

                                                          産業技術総合研究所と東京工業大学の研究チームは12月19日、日本語に強い大規模言語モデル(LLM)「Swallow」を公開した。米Metaが開発したLLM「Llama 2シリーズ」をベースに日本語能力を改善させたもの。ライセンスは「LLAMA 2 Community License」で、研究や商業目的で利用できる。 今回公開したのは、パラメータ数が70億(7B)、130億(13B)、700億(70B)のモデル3種類。Llama 2シリーズが持つ高い言語処理能力を維持しながら日本語能力を強化することを目指した。 このため、AIモデルに日本語の文字や単語などの語彙を追加し、新たに開発した日本語データで継続事前学習(学習済みのLLMに対して追加で事前学習を行う手法で、異なる言語などで言語モデルを活用するときに使われる)を行った。結果、日本語に関するベンチマークデータで、全モデルがベースモデルより

                                                            日本語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日本語データに工夫
                                                          • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

                                                            こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

                                                              色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
                                                            • 公開しているモデル・コーパス・ツール

                                                              LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass

                                                              • ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

                                                                同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。 LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。 研究者は、

                                                                  ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge
                                                                • 継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development

                                                                  この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n

                                                                    継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
                                                                  • LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開

                                                                    「japanese-large-lm」は、同社が以前から取り組んでいる日本語の大規模言語モデル「HyperCLOVA」の研究開発プロジェクトと並行して、Massive LM開発ユニットにより開発された。 なお、本モデルのライセンスは、商用利用が可能な「Apache License 2.0」となっている。 同モデルの訓練には、同社独自の大規模日本語Webコーパスが利用され、Web由来のテキスト特有のノイズを除去するために、同社NLPチームのメンバーが開発したOSSの「HojiChar」によるフィルタリング処理が適用されている。また、最終的な学習には約650GBのコーパスが利用されている。加えて本モデルでは、「3D Parallelism」「Activation Checkpointing」などの手法を用い、学習を高速化している。 学習したモデルの性能評価には、Perplexityスコア(PP

                                                                      LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開
                                                                    • 「めちゃめちゃ」「超」のような俗な強調言葉は、昔もあったのでしょうか - ことばの疑問 - ことば研究館

                                                                      「めちゃめちゃ」「超」など強調の言葉が便利でつい使ってしまいますが、日本語の歴史のなかでは俗な強調言葉はどんなものがあったのでしょうか。 「めちゃめちゃ」や「超」は、「今日の話めちゃめちゃよかった」「その服超かっこいい」のように、後に形容詞や形容動詞などの状態性を持つ語が来て、その状態の程度の甚だしさを表す程度副詞です。この類には「とても」「非常に」「随分」など様々な語がありますが、「程度の甚だしさ」を表す点では似たような意味を持つため、その使い分けを説明するのは簡単ではありません。渡辺実(『国語意味論』)が挙げたように、「うれしい」などの情意性形容詞との結びつきや、比較構文での用いられやすさ、評価のプラス・マイナスなどの尺度での使い分けが考えられますが、それ以外にも、俗な言い方なのか硬い文章語なのかというような文体的特徴も、各語の役割分担に大きく関わっていると考えられます。 例えば①「去

                                                                        「めちゃめちゃ」「超」のような俗な強調言葉は、昔もあったのでしょうか - ことばの疑問 - ことば研究館
                                                                      • サイバーエージェントが手がける日本語LLM開発 MLエンジニアが語る「Weights & Biases」の活用

                                                                        自社における日本語LLMの開発について発表したのは、株式会社サイバーエージェントの石上亮介氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、開発において得た知見や課題、Weights & Biasesの活用法について話しました。 登壇者の自己紹介とアジェンダの紹介 石上亮介氏:それではサイバーエージェントの石上から、「CyberAgentにおける日本語LLMの開発」というタイトルで発表いたします。 あらためまして自己紹介ですが、私は石上と申します。現在は、サイバーエージェントの基盤モデルプロジェクトのリードを担当しています。 基盤モデルというのは、大規模なAIでさまざまなタスクがこなせるという、いわゆるすごいAIなんですね。今日は特にLLMですね。大規模言語モデルについて、どういう取り組みをしているかをお話しいたします。 サイバーエージェントのLLMの

                                                                          サイバーエージェントが手がける日本語LLM開発 MLエンジニアが語る「Weights & Biases」の活用
                                                                        • LEIA: 言語間転移学習でLLMを賢くする新しい方法

                                                                          Studio Ousiaと理化学研究所に所属している山田育矢です。 この記事では、大規模言語モデル(LLM)の性能を向上させる新しい方法であるLEIA(Lightweight Entity-based Inter-language Adaptation)を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。 この度、英語・日本語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。 ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ

                                                                            LEIA: 言語間転移学習でLLMを賢くする新しい方法
                                                                          • 大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか?

                                                                            組織には構造化されたデータベースやきれいにフォーマットされたCSVのほか、何気なく書いたメールから複雑な技術マニュアルまでさまざまな形式のデータが大量に保存されています。検索拡張生成(RAG)は大規模言語モデル(LLM)を使用して全てのデータから適切な情報を引き出すための技術ですが、RAGを使用する際にデータの取り込みと前処理をどのように行うと効率的なのかを、RAG向けデータ前処理サービスを展開するUnstructuredが解説しました。 Understanding What Matters for LLM Ingestion and Preprocessing – Unstructured https://unstructured.io/blog/understanding-what-matters-for-llm-ingestion-and-preprocessing LLMを最大限に

                                                                              大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか?
                                                                            • ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート

                                                                              ソフトバンクは10月31日、「国内最大級」(同社)の生成AI開発用計算基盤の稼働を始めたと発表した。新設したAI子会社「SB Intuitions」とともに活用し、2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。 計算基盤は、AI向けスーパーコンピュータ「NVIDIA DGX SuperPOD」と、AIソフトウェアスイート「NVIDIA AI Enterprise」、NVIDIAのネットワーキングで構成された大規模クラスタで、「国内最大級の計算基盤」という。伊藤忠テクノソリューションズの協力を得て構築を進めた。 「ソフトバンクが日本語のデータセットを活用した高品質な国産LLMを開発することで、日本の商習慣や文化に適した生成AIサービスの提供を実現する」としている。 まずソフトバンクとSB Intuitionsで段階的に利用

                                                                                ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート
                                                                              • ゲームキャラ1万3000人を調べた結果「男性キャラは女性キャラの2倍セリフが多い」ことが判明

                                                                                スコットランドのグラスゴー大学とイギリスのカーディフ大学の研究者らは、ゲーム上における対話に関する史上最大規模の調査を実施しました。1万3000人以上のゲームキャラクターを集計した結果、「ゲームでは、男性が女性の2倍話している」ということが示されています。 Gender bias in video game dialogue https://royalsocietypublishing.org/doi/10.1098/rsos.221095#d1e902 Largest study of video games reveals male characters say twice as much as female characters https://phys.org/news/2023-05-largest-video-games-reveals-male.html イギリス王立協会オー

                                                                                  ゲームキャラ1万3000人を調べた結果「男性キャラは女性キャラの2倍セリフが多い」ことが判明
                                                                                • ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

                                                                                  Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日本語のテキストデータにより事前学習が行われました。 一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。 そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。 実際に、ビジネスに関連する知識を問うタスクで

                                                                                    ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開