並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 100件

新着順 人気順

日本語処理の検索結果1 - 40 件 / 100件

  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

      文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
    • 2019年末版 形態素解析器の比較 - Qiita

      形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

        2019年末版 形態素解析器の比較 - Qiita
      • NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長

        日本電信電話(NTT)は3月25日、独自に開発した大規模言語モデル(LLM)「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。 tsuzumiは、NTTが2023年11月に発表した国産LLMだ。特徴の1つはモデルを大幅に軽量化した点で、パラメーター数は軽量版で70億と、OpenAIが提供する「GPT-3」の25分の1程度しかない。これによって、1つのGPUで動作し、大規模ハードウェア不要で事務所内でのオンプレミス利用にも対応する。 2つ目の特徴は「世界トップレベルの日本語処理能力」だ。パラメーターを軽量化したにも関わらず、GPT3.5と日本語性能で比較した場合の勝率は8割を超え、英語においても高い処理能力を達成しているという。さらに、マルチモーダルにも対応し、パワーポイントの図表読解や聴覚も備える。 3つ

          NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長
        • NTT版大規模言語モデル「tsuzumi」 | NTT R&D Website

          近年、ChatGPTを始めとする大規模言語モデル*1に大きな注目が集まっておりますが、これらは膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギーは、原発1基1時間分の電力量が必要*2とも言われており、また、運用には大規模なGPUクラスタを必要とし様々な業界に特化するためのチューニングや推論にかかるコストが膨大であることから、サステナビリティおよび企業が学習環境を準備するための経済的負担面で課題があります。 NTTでは、これらの課題を解決する研究開発を進め、今回、軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi*2」を開発しました。「tsuzumi」のパラメタサイズは6~70億と軽量であるため、市中のクラウド提供型LLMの課題である学習やチューニングに必要となるコストを低減します。「tsuzumi」は英語と日本語に対応し

            NTT版大規模言語モデル「tsuzumi」 | NTT R&D Website
          • 名機PC-98いまだ現役 在庫1000台専門店に迫る:朝日新聞デジタル

            昭和から平成の始まりにかけて国内市場を席巻し、「キューハチ」と呼ばれ親しまれたNECの名パソコン「PC-98」シリーズ。リモートワーク隆盛のいまも、根強いニーズがあるという。トラブルに困ったユーザーが駆け込むという専門店を訪ね、いまだ現役の老ハードを取り巻く状況を探った。 PC-98は、NECが1980年代から販売していた16/32ビット機。当時としては高精細なグラフィックや優れた日本語処理を武器に、ピーク時の国内シェアは少なくともビジネス向けで8割、個人向けで5割以上あったとされる。 しかし、90年代中ごろからは、米マイクロソフトのウィンドウズOSに対応した世界共通規格の「PC/AT互換機」が台頭。PC-98は、国内向けに特化した独自のソフトや規格が足かせとなりシェアが急落し、2000年の「PC-9821Nr300/S8TB」が最終モデルとなった。 ところが、今でもオークションサイトには

              名機PC-98いまだ現役 在庫1000台専門店に迫る:朝日新聞デジタル
            • 日本語に強い大規模言語モデル「Swallow」を公開 英語が得意な大規模言語モデルに日本語を教える

              要点 日本語能力に優れビジネスにも安心して活用できる大規模言語モデルを公開 継続事前学習により大規模言語モデルの日本語能力を改善 高度な日本語処理が求められる多くの場面で、生成AI技術の利活用を推進 概要 東京工業大学(以下、東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人 産業技術総合研究所(以下、産総研)は、日本語能力に優れた生成AIの基盤である大規模言語モデル[用語1]「Swallow」を公開した[参考リンク1]。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。 東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル(米Meta社 Llama 2)の日本語能力を拡張することで「Swallow」を構築した

                日本語に強い大規模言語モデル「Swallow」を公開 英語が得意な大規模言語モデルに日本語を教える
              • 日本語処理にも革命!?分かち書きをせず高品質な事前学習を実現する CANINE がすごい 【論文速報】

                日本語処理にも革命!?分かち書きをせず高品質な事前学習を実現する CANINE がすごい 【論文速報】

                  日本語処理にも革命!?分かち書きをせず高品質な事前学習を実現する CANINE がすごい 【論文速報】
                • 人生で影響を受けた本100冊。英語(77) - Qiita

                  はじめに 下記には、typewriterまたはcomputerのkeyboardで全文写経した本は数冊(すべて英語)あります。 輪講で全部読んだ本、日本語と英語でも読んだ本などもそれぞれ10冊以上あります。 100回以上読んだ本が10冊以上あるような気がします。 影響を受けた本というよりは、愛読書かもしれません。 引用は、 https://bookmeter.com/users/121023 https://booklog.jp/users/kaizen https://www.amazon.co.jp/gp/profile/amzn1.account.AEZYBP27E36GZCMSST2PPBAVS3LQ/ref=cm_cr_dp_d_gw_tr に掲載している自分で書いたreviewです。 最初にあるところに記録し、それからamazonに転載し、10,000冊になった頃にNo.1 R

                    人生で影響を受けた本100冊。英語(77) - Qiita
                  • 『私たちが図書館について知っている二、三の事柄』批判

                    10月16日付け朝日新聞の書評欄に標記の本(中村文孝・小田光雄著、論創社, 2022年8月刊)の書評が出た(https://book.asahi.com/article/14744652)。「とんでもない本を手にとってしまった」で始まる記事の書き手はサンキュータツオという人である。これを要約しておこう。 図書館の数は1970年代からの半世紀で4倍近くになったのに対して、書店は、1990年代以降減り続けている。年間の書籍販売部数よりも図書館の個人貸出冊数の方が多くなった。本の購入はアマゾンをはじめとするネット購入と「公営無料貸本屋」である図書館が代行するようになった。こうなった理由が、図書館流通センター(TRC)のMARCの利便性にあるが、図書館が自らの存在意義を再定義し損ねた部分もあり、それによって職員は嘱託で済ませ専門性を育めることもない。おしゃれで新刊雑誌や書籍をお茶を飲みながら読める

                    • nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ

                      事業開発部の @himkt です.好きなニューラルネットは BiLSTM-CRF です. 普段はクックパッドアプリのつくれぽ検索機能の開発チームで自然言語処理をしています. 本稿では,レシピテキストからの料理用語抽出システム nerman について紹介します. nerman の由来は ner (固有表現抽出 = Named Entity Recognition) + man (する太郎) です. クックパッドに投稿されたレシピから料理に関する用語を自動抽出するシステムであり,AllenNLP と Optuna を組み合わせて作られています. (コードについてすべてを説明するのは難しいため,実際のコードを簡略化している箇所があります) 料理用語の自動抽出 料理レシピには様々な料理用語が出現します. 食材や調理器具はもちろん,調理動作や食材の分量なども料理用語とみなせます. 「切る」という調理

                        nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ
                      • 実践 自然言語処理

                        自然言語処理(Natural Language Processing:NLP)の本格的な実践書。過去10年間で起きたブレークスルーにより、NLPは小売、医療、金融、法律など、さまざまな分野での利用が増えてきました。急速に利用が拡大する中で、産業界でNLPを使ったシステムを構築するのに必要な知識を学べる講座や書籍は不足していました。本書を読むことで、NLPの要素技術やSNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法に加えて、NLPシステムを開発するためのベストプラクティスを詳しく学べます。 賞賛の声 序文 訳者まえがき まえがき 第I部 基礎 1章 自然言語処理入門 1.1 実世界での自然言語処理 1.1.1 NLPのタスク 1.2 言語とは何か 1.2.1 言語の構成要素 1.2.2 自然言語処理の難しさ 1.3 機械学習、ディープラーニング、そして自然言語処理の概要 1

                          実践 自然言語処理
                        • 名機PC-98いまだ現役 在庫1000台の修理販売ビジネスに迫る(朝日新聞デジタル) - Yahoo!ニュース

                          昭和から平成の始まりにかけて国内市場を席巻し、「キューハチ」と呼ばれ親しまれたNECの名パソコン「PC-98」シリーズ。リモートワーク隆盛のいまも、根強いニーズがあるという。トラブルに困ったユーザーが駆け込むという専門店を訪ね、いまだ現役の老ハードを取り巻く状況を探った。 【動画】在庫1000台の全貌……懐かしの起動音「ピポッ」も PC-98は、NECが1980年代から販売していた16/32ビット機。当時としては高精細なグラフィックや優れた日本語処理を武器に、ピーク時の国内シェアは少なくともビジネス向けで8割、個人向けで5割以上あったとされる。 しかし、90年代中ごろからは、米マイクロソフトのウィンドウズOSに対応した世界共通規格の「PC/AT互換機」が台頭。PC-98は、国内向けに特化した独自のソフトや規格が足かせとなりシェアが急落し、2000年の「PC-9821Nr300/S8TB」が

                            名機PC-98いまだ現役 在庫1000台の修理販売ビジネスに迫る(朝日新聞デジタル) - Yahoo!ニュース
                          • 1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ

                            NTTは2023年11月、同社が独自開発した大規模言語モデル(LLM)「tsuzumi」を2024年3月から提供開始すると発表した。 tsuzumiのコンセプトについて、NTT 執行役員 研究企画部門長の木下真吾氏は「専門知識を持った、パラメーターサイズの小さなLLMの実現だ。tsuzumiは、パラメーターサイズを抑えつつ、言語学習データの質と量を向上させることで、軽量化と専門性を両立した」と語った。 専門知識を持った軽量LLM「tsuzumi」 tsuzumiは、パラメーターサイズが6億または70億と軽量でありながら、「世界トップクラス」(同社)の日本語処理性能を持つLLMだ。軽量なため、1つのGPUやCPUで推論動作が可能で、学習やチューニングに必要な時間やコストを軽減できるという。日本語/英語に対応する他、表が含まれる誓約書や契約書といった図表文書の視覚読解など、さまざまな形式にも対

                              1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ
                            • 日本語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日本語データに工夫

                              産業技術総合研究所と東京工業大学の研究チームは12月19日、日本語に強い大規模言語モデル(LLM)「Swallow」を公開した。米Metaが開発したLLM「Llama 2シリーズ」をベースに日本語能力を改善させたもの。ライセンスは「LLAMA 2 Community License」で、研究や商業目的で利用できる。 今回公開したのは、パラメータ数が70億(7B)、130億(13B)、700億(70B)のモデル3種類。Llama 2シリーズが持つ高い言語処理能力を維持しながら日本語能力を強化することを目指した。 このため、AIモデルに日本語の文字や単語などの語彙を追加し、新たに開発した日本語データで継続事前学習(学習済みのLLMに対して追加で事前学習を行う手法で、異なる言語などで言語モデルを活用するときに使われる)を行った。結果、日本語に関するベンチマークデータで、全モデルがベースモデルより

                                日本語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日本語データに工夫
                              • 日本語LLMにおけるトークナイザーの重要性 | データアナリティクスラボ

                                ELYZA-Japanese-Llama-2-7b ELYZA-Japanese-Llama-2-7bは、ELYZAが公開した日本語に特化したLLMです。 公開されたのは以下のモデルです。 ELYZA-japanese-Llama-2-7bELYZA-japanese-Llama-2-7b-fastELYZA-japanese-Llama-2-7b-instructELYZA-japanese-Llama-2-7b-fast-instruct instruct:instruction tuningによって追加学習されたモデル。 fast:日本語の語彙の追加によって処理を高速化したモデル。 モデルの概要 ELYZA-japanese-Llama-2-7bはLlama2をベースとして日本語処理の性能を向上させるために追加学習したモデルです。英語で学習済みのLLMの言語能力を引き継ぐことで、少な

                                  日本語LLMにおけるトークナイザーの重要性 | データアナリティクスラボ
                                • 【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

                                  昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日本語処理の改善も大きく関わっていると考えられます。 実際、OpenAIのサイトによれば、日本語は平均して 1.4 倍の効率で(1.4倍少ないトークンで)表せるようになったとされています。 これは、GPT-4o が GPT-4 に比べて日本語をより 語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。 ところで、GPT-4o では 『風吹けば名無し』 という文字列を 1 つの語彙として扱うのをご存知でしょうか。 このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ

                                    【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる
                                  • ○ー○ー○○ー○ー○ーに当てはまる言葉をWikipediaから探してくるツールを自作した - Lambdaカクテル

                                    anond.hatelabo.jp 特定のリズムにあてはまる日本語を頑張って探したくなることがたまにある。そして、定期的に↑のような記事が流行っては、仕事が手につかなくなる!このままでは、○ー○ー○○ー○ー○ーを考える時間によって日本のGDPが押し下げられてしまう。 そこで機械の力を借りて特定のリズムを持った言葉を探せるようにした。 github.com 自分のマシンだと、だいたい2分で目当ての言葉を探してくれるようになった。 使い方 仕組み 素材選び リズム形式 実装 で、○ー○ー○○ー○ー○ーはなんなの 航空機抵当法 ローラースルーGOGO 西洋の命数法 包頭軌道交通 西寧軌道交通 No Need 2 Worry 総合治療効用 結語 使い方 基本的にリポジトリに書いてあるけれど、やることは2つ。Scalaなのでsbtが必要。 Wikipediaのデータを落としてきて解凍する sbt "

                                      ○ー○ー○○ー○ー○ーに当てはまる言葉をWikipediaから探してくるツールを自作した - Lambdaカクテル
                                    • KDDI、東大発AIベンチャー・ELYZAを連結子会社化 春以降、生成AI関連サービスを提供へ

                                      KDDIは3月18日、東大発のAIスタートアップ企業であるELYZA(東京都文京区)を連結子会社にすると発表した。資本業務提携を結び、4月1日をめどにKDDIグループがELYZAの株式の過半数を保有する。これにより、同社らは「生成AIの社会実装を加速させる」としている。 KDDIが43.4%、グループ会社のKDDI Digital Divergenceが10.0%のELYZAの株式を保有する。同社らは今後、生成AIの利用を担う組織を共同設置し、春以降に順次生成AI関連サービスを企業や自治体向けに提供する。具体的には「オープンモデル活用型の日本語汎用大規模言語モデル(LLM)開発」「領域特化型のLLM開発」「生成AIを活用したDX支援・AI SaaS」の3つを提供予定。 KDDIは資本業務提携の理由について「生成AI活用による業務効率化や生産性向上の実現が期待される一方、グローバルモデルの利

                                        KDDI、東大発AIベンチャー・ELYZAを連結子会社化 春以降、生成AI関連サービスを提供へ
                                      • NEC、独自の日本語大規模言語モデルを開発 パラメータ数130億、クラウドで運用可能 性能も世界トップクラス

                                        NECは7月6日、独自の日本語大規模言語モデル(LLM)を開発したと発表した。パラメータ数は130億で、クラウド/オンプレミス環境での運用が可能。性能面でも、世界トップクラスの日本語処理能力を実現しているという。

                                          NEC、独自の日本語大規模言語モデルを開発 パラメータ数130億、クラウドで運用可能 性能も世界トップクラス
                                        • 「新テスト」記述式問題採点をベネッセグループが落札。1民間企業に頼り切りの大学入試改革でいいのか?(おおたとしまさ) - エキスパート - Yahoo!ニュース

                                          8月30日、大学入試改革「新テスト」の記述式問題の採点業務をベネッセが落札したというニュースが話題になった。誰もが予想していたことであり、驚きはしないのだが、こうなることが半ばわかっていたからこそ「本当にこのまま改革を進めていいのか」と疑問の声が以前からあったのだ。 落札額は約61億6000万円と報道されている。その額が多いとみるか少ないとみるかはわからないが、問題はそこではない。 これで、記述式問題の採点、英語民間試験の実質的に数少ない選択肢の1つであるGTEC、今後大きな話題になるであろうeポートフォリオという、大学入試改革の目玉のすべてにベネッセが大きく関わることになる。大学入試改革受託業者と呼んでも過言ではない。 一方でベネッセは、全国の高校に模試や教材を営業している。大学入試改革の混乱のなかで、現場の教員たちは、もっともたしかな情報を握っているであろうベネッセの営業マンのいいなり

                                            「新テスト」記述式問題採点をベネッセグループが落札。1民間企業に頼り切りの大学入試改革でいいのか?(おおたとしまさ) - エキスパート - Yahoo!ニュース
                                          • 自然言語処理ライブラリspaCy/GiNZAのオンラインデモサイトを立ててみた - Qiita

                                            はじめに Mecabには形態素解析ウェブアプリUniDic-MeCabやMeCab/Unidic Demonstration といったオンラインデモサイトがありますが、2022年3月現在spaCy/GiNZAのデモサイトはなさそうなのでHerokuで立てました。 2022年11月Herokuの無料枠が終了したため、Render.comで立てました。 実際に動かしてみるとこんな感じです。 さっそく、オンラインで試したいという方は下記にアクセスしてみてください。 https://chai3.github.io/spacy-ginza-online-demonstration/ spaCy/GiNZAとは GiNZA は、Universal Dependencies(UD)に基づいたオープンソースな日本語処理ライブラリです。 spaCyというMITライセンスで商用レベルな自然言語処理フレームワー

                                              自然言語処理ライブラリspaCy/GiNZAのオンラインデモサイトを立ててみた - Qiita
                                            • スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について : 富士通

                                              PRESS RELEASE 2023年5月22日 東京工業大学 東北大学 富士通株式会社 理化学研究所 スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について 国立大学法人東京工業大学(注1)(以下、東京工業大学)、国立大学法人東北大学(注2)(以下、東北大学)、富士通株式会社(注3)(以下、富士通)、国立研究開発法人理化学研究所(注4)(以下、理化学研究所)は、「富岳」政策対応枠において、スーパーコンピュータ「富岳」を活用した大規模言語モデル(Large Language Model, LLM)(注5)の分散並列学習手法の研究開発を2023年5月から実施します。 大規模言語モデルは、ChatGPT(注6)をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後今回の研究開発の成果物を公開することで、アカデミアや企業が幅広

                                                スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について : 富士通
                                              • NTT、大規模言語モデル「tsuzumi」開発 24年3月に商用サービス提供へ

                                                NTTは、独自の大規模言語モデル「tsuzumi」を開発したと発表した。2024年3月に商用サービスとして提供を始める。 NTTは11月1日、独自の大規模言語モデル(LLM)「tsuzumi」を開発したと発表した。tsuzumiの特徴は「軽量でありながら世界トップレベルの日本語処理性能を持つこと」と同社は説明。2024年3月に商用サービスとして提供を始める。 tsuzumiでは、パラメータ数6億(超軽量版)と70億(軽量版)の2種類を用意。同社は「軽量版は1GPUで、超軽量版はCPUで高速に推論動作可能であり、チューニングや推論に必要なコストを抑えられる」と解説する。 NTTが試算したところ、GPUクラウドの利用料金への換算値では、学習コストは超軽量版で約300分の1、軽量版では25分の1に。推論コストは、超軽量版で約70分の1、軽量版で20分の1に軽減できたという。

                                                  NTT、大規模言語モデル「tsuzumi」開発 24年3月に商用サービス提供へ
                                                • GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics

                                                  急に冷え込んできてお布団が恋しい季節になってきました。 こんにちは。@Ssk1029Takashiです。 この記事は自然言語処理 Advent Calendarの6日目の記事になります。 qiita.com 全文検索システムは単語検索であることが多いですが、単語検索だけだと困ることもあります 症例検索を例にとって見てみましょう。 検索エンジンに以下の2つの文章が登録されているとします。 「ずっと胃がキリキリと痛い。ただ、熱は無く平熱のままだ。」 「昨日からとても頭が痛い。おまけに胃がむかむかする。」 この時、「胃が痛い」と検索したとき、通常の単語検索の場合だと両方ともヒットしてしまいますが、下の文章は意味としては異なる文章のためゴミになります。 この記事では、GiNZAとElasticsearchを使って意味的に正しい上の文章だけを拾ってくる仕組みを簡単に実現してみようと思います。 どうや

                                                    GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics
                                                  • 動き出した「日の丸LLM」プロジェクトの"中身"――日本学術会議の講演から探る

                                                    「ChatGPT」に代表される生成AIの基盤技術である大規模言語モデル(以下、LLM)の開発競争に注目が集まっている。現状では、ChatGPTを開発したOpenAIやGoogleなどの海外企業が先行しているが、日本でも日本語処理を重視したLLMを開発する動きが本格化してきた。 日本学術会議が日本情報学研究所(以下、NII)との共催で2023年9月14日に開催した公開シンポジウムで、その代表的な動きが明らかになった。今回はその内容を取り上げ、「日の丸LLM」の可能性を探る。 「日の丸LLM」研究開発プロジェクトは何を目指すのか 「生成AIの課題と今後」と題して開かれたそのシンポジウムから、NII所長の黒橋禎夫氏(日本学術会議連携会員、京都大学特定教授)による「大規模言語モデルを研究する基盤:LLM-jp」と題した講演内容のエッセンスを以下に紹介する。

                                                      動き出した「日の丸LLM」プロジェクトの"中身"――日本学術会議の講演から探る
                                                    • 国産LLMが抱える“開発コスト”の課題 海外勢に安さで勝てるか、ELYZA代表の危機感

                                                      東大発のAIスタートアップ企業ELYZA(東京都文京区)は3月12日、「GPT-3.5やGeminiに匹敵する」という日本語特化型の大規模言語モデル(LLM)を発表した。同社の曾根岡侑也代表は「今回のニュースは日本国内の状況を踏まえると本当に喜ばしいこと」と語った。一方、国内でのLLM開発ビジネスにおいて“資金面”が大きな課題になっているともこぼした。 今回発表したLLM「ELYZA-japanese-Llama-2-70b」は700億パラメータを持ち、日本語処理能力で米OpenAI製のGPT-4や、米Google製のGemini 1.0に匹敵する処理能力を有すると同社は強調する。曾根岡代表は「グローバルなプレイヤーが日本語処理の性能でリードしている中で、何か一矢報いよう(として到達した)」と話す。 新モデルの対話形式のデモンストレーションサイトを公開しており、誰でも試すことができる。また

                                                        国産LLMが抱える“開発コスト”の課題 海外勢に安さで勝てるか、ELYZA代表の危機感
                                                      • Sentencepiece の分割を MeCab っぽくする - Qiita

                                                        Sentencepieceは公開から約6年経ち、月間のpipダウンロード数が1000万を超え、開発者として嬉しい限りです。ただ、Sentencepieceを使用する際にMeCabなどの形態素解析器を前処理に使うケースが散見されます。単語分割をしたいというニーズは理解できますが、作者としてはあまり満足していません。多言語処理が一般的になり、しかもSentencepieceは言語非依存のシステムであるにもかかわらず、なぜベタな日本語処理に依存するのでしょうか。このような使い方は、精度が向上するかもしれませんが、以下のようなデメリットもあります。 形態素解析が入力した空白と、元からある空白を区別できないため、分割されたデータから元の文を復元することができません。(可逆処理ではない)。 形態素解析システムに依存するため、メンテナンス性や可搬性が低下します。正しいバージョンの辞書を維持し、管理するこ

                                                          Sentencepiece の分割を MeCab っぽくする - Qiita
                                                        • 「日本語の性能なら負けない」、NECが参入するコンパクト生成AIの勝ち筋

                                                          日本語の処理能力に注力した国産の生成AI(人工知能)が商用段階を迎えている。NECは2023年7月6日、独自に開発した大規模言語モデル(LLM)に基づく生成AIの法人向けサービスを2023年8月から提供すると発表した。 国産LLMの商用化は、自社事業に活用を始めたサイバーエージェントやrinna、顧客企業と2023年7月から実証を始めているAI開発ベンチャーのオルツなどに続く動きで、IT大手ではNECが初めてだ。大手では2023年度内の商用化を表明するNTTのほか、ソフトバンクや富士通なども開発を進めており、今後1年で選択肢は一気に増えそうだ。 これらの商用化の動きから、多くの国産LLMが狙うポジションも見えてきた。機械学習モデルのパラメーター数は数十億~数百億と、「ChatGPT」など先行するモデルに比べて10分の1かそれ以下のコンパクトな規模である。学習に要する計算能力や学習の時間を抑

                                                            「日本語の性能なら負けない」、NECが参入するコンパクト生成AIの勝ち筋
                                                          • NECが独自LLMで早くも成果、「GPT-4」上回る日本語性能

                                                            NECが生成AI(人工知能)分野で攻勢をかけている。「GPT-4」を上回る日本語処理性能を持った独自の大規模言語モデル(LLM)を開発し、社内外で活用を始めた。利用から半年たたずに様々な成果が出てきた。さらに多くのユーザーが利用できるようにオンプレミス向けのハードウエアも手がける。新たなアーキテクチャーを採用したLLMの研究開発も進める。 NECは2023年7月に生成AIサービス「NEC Generative AI Service」の提供を開始した。同サービスの特徴は、生成AIに関してワンストップで顧客にサービスを提供することである。NECの独自LLMを利用可能にするほか、プロンプトの作成や質問管理などを支援するソフトウエアをフレームワークとして提供する。加えて、LLM活用に向けたコンサルティングや教育、環境構築などを行う。 LLMの利用環境として、クラウドやデータセンター、オンプレミス用

                                                              NECが独自LLMで早くも成果、「GPT-4」上回る日本語性能
                                                            • Docker Composeを使ってLAMP環境を作る

                                                              Docker ComposeはLAMP環境も手軽に作ることができます。今回はApache、MySQL、PHPでLAMP環境を作ります。 はじめに 以前にDocker Composeを使ってWordPressが動作する環境を作る記事を掲載しました。 その環境もWordPressが動作するので広く見るとLAMP環境となりますが、WordPressの公式イメージがPHPとApacheの動作環境も含んでいるため、個別にイメージを設定する必要はありませんでした。 コンテナを起動すると同時にWordPress環境も作成されるので、WordPressを個別にインストールする必要もないし、WordPressに必要なPHPの環境も同時に作成されます。 利点としてはApacheやPHPを個別にイメージ設定する必要がないのもそうですが、WordPressの公式イメージが動作に必要なPHP環境を含んでいるため、別

                                                                Docker Composeを使ってLAMP環境を作る
                                                              • はじめての自然言語処理 pke によるキーフレーズ抽出 | オブジェクトの広場

                                                                前回は spaCy と GiNZA についてその概要と使い方を紹介しました。今回はキーフレーズ抽出の手法について解説し、spaCy ベースのキーフレーズ抽出処理ライブラリである pke を用い日本語データセットで実験した結果を紹介します。 1. はじめに 本記事ではキーフレーズ抽出について、その概要といくつかの抽出手法について説明します。記事の後半ではキーフレーズ抽出処理ライブラリである pke を用い、記事の前半で説明した各手法を日本語のデータセットに対して適用した精度比較試験を行った結果を紹介します。 2. キーフレーズ抽出 キーフレーズ抽出処理について簡単に説明すると、「文章からその主題を良く表現している句を抽出する技術」と言えるでしょう。日本語では「キーワード」のほうが一般的で通りのよい表現になりますが、処理としては「大統領|選挙」のように複数単語の連続を抽出するので、単語を意味す

                                                                  はじめての自然言語処理 pke によるキーフレーズ抽出 | オブジェクトの広場
                                                                • オライリー・ジャパンから『実践 自然言語処理』という本を出します - Ahogrammer

                                                                  このたび、オライリー・ジャパンより、『Practical Natural Language Processing』の翻訳書である『実践 自然言語処理』を出すことになりました。Amazonだと2月4日に発売のようです。表紙の鳥はオオハナインコで、オセアニアあたりに生息しています。 最近は日本語/英語に関わらず、自然言語処理に関連する書籍が増えてきて読むのを楽しみにしています。その中でも本書は、NLPの要素技術(単語埋め込み、テキスト分類、情報抽出、チャットボット、トピックモデルなど)の紹介に留まらず、SNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法やNLPシステムを開発するためのベストプラクティスを学べるのが特徴的だと思います。 きっかけ このような本を翻訳するきっかけになったのは、1年と少し前にオライリーの編集に「この本、良い本でしたよ」と何気なく紹介したことでした。そし

                                                                    オライリー・ジャパンから『実践 自然言語処理』という本を出します - Ahogrammer
                                                                  • 日本語精度が高い130億パラメーターのLLMを開発

                                                                    リコーは、日本語の精度が高い130億パラメーターの「大規模言語モデル(LLM)」を開発した。顧客の業種や業務に合わせたカスタムLLMを2024年春より順次、クラウド環境で提供する。 「学習に利用するコーパスの選定」など、独自工夫を盛り込む リコーは2024年1月、日本語の精度が高い130億パラメーターの「大規模言語モデル(LLM)」を開発したと発表した。顧客の業種や業務に合わせたカスタムLLMを2024年春より順次、クラウド環境で提供する。 リコーが開発したLLMは、Meta Platforms製「LLM Llama2-13B」をベースに、日本語と英語のオープンコーパスを追加学習させた。「学習に利用するコーパスの選定」や、「誤記や重複の修正などのデータクレンジング」「学習データの順序や割合を最適化するカリキュラム学習」など、リコー独自の工夫を盛り込んでいる。 学習の結果、特にNLI(自然言

                                                                      日本語精度が高い130億パラメーターのLLMを開発
                                                                    • GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics

                                                                      こんにちは。@Ssk1029Takashiです。 最近は家でもどうにかラーメンを食べられないかと試行錯誤しています。 タグ検索とは、キーワード検索とは違い、検索する前からユーザーが選択肢からキーワードをセレクトボックスなどで選んで、検索できる検索方法です。 通常のキーワード検索と違って、ユーザーが0からキーワードを考える必要がないため、効率的に情報を絞り込めます。 もしくは、キーワード検索と併用して使用することも可能です。 ただ、コンテンツごとにタグを設定するのはとても手間がかかります。 コンテンツ作成者も必ずしもタグを設定してくれるとは限りません。 このような時に、自動でタグ付けをしてくれる仕組みがあると楽にタグ検索を実現できます。 ただ、単純な形態素解析で名詞をタグとすると、ゴミが多くなってしまいます。 そこで、今回は、日本語処理ライブラリであるGiNZAの固有表現抽出機能とElast

                                                                        GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics
                                                                      • 三原昌平のデザイン全解説

                                                                        Appleのデザイン史-1 予期せぬ新旧交代 「電卓(電子卓上計算機)」という言葉がまだ輝きを失っていない時代の1972年、価格を一気に3分の1以下の12,800円とした衝撃的な「カシオ・ミニ(6桁)」が発売となった。商品は爆発的に売れ、10ヶ月で百万台を突破、「電卓」の大衆化の流れを決定的なものとした。さらに、雨後の筍のごとく出現していた多くの「電卓メーカー」が、これを機会に撤退せざるをえないという「電卓戦争」に一つのピリオドを打つ事件でもあった。 全世界がこの安価で電池で動作するコンパクトな「夢の電卓」に満足し、その使い勝手に酔いしれていた、その翌年、今度は思いがけない「電卓真打ち」候補が世界で一斉に発売された。タイプライターのメーカーとして名高い、デザインの国、イタリアのオリベッティ社の「Divisumma 18」である。それは同社の社運をかけた意欲的な商品であることは見ただけで、誰

                                                                        • 富士通のパソコン40年間ストーリー【1】第1号マシン「FM-8」の舞台裏

                                                                          富士通は1981年5月20日、同社初のパーソナルコンピュータ「FM-8」を発売。2021年5月20日で40年の節目を迎えた。FM-8以来、富士通のパソコンは常に最先端の技術を採用し続け、日本のユーザーに寄り添った製品を投入してきた。富士通の公表数字をもとに算出すると、40年の間に出荷したパソコンは、累計で1億4,000万台の規模に達する。 かつて富士通の社長と会長を務め、自らもパソコン開発に直接携わった経験を持つ富士通の山本正已シニアアドバイザーは、「富士通は技術の会社であり、その技術力をベースに世界一を目指すというDNAがある。どんな製品でも、どんな困難があっても、世界一を目指す姿勢を持っている」と前置きし、「富士通のパソコン事業の40年間は、自ら設計・開発・生産することで最先端の技術を採用し、高い信頼性を実現するとともに、創造性が高いエポックメイキングな製品を世に送り続けてきた歴史と言

                                                                            富士通のパソコン40年間ストーリー【1】第1号マシン「FM-8」の舞台裏
                                                                          • NTT版LLM「tsuzumi」サービス開始 軽量でも日本語処理はGPT-3.5超え

                                                                              NTT版LLM「tsuzumi」サービス開始 軽量でも日本語処理はGPT-3.5超え
                                                                            • 国産生成AIの開発活発 日本語対応や分野特化でチャットGPTに対抗

                                                                              自動で文章や画像などを作る生成AI(人工知能)を独自に開発する動きが、国内企業の間で活発化している。汎用性の高い生成AIでは米オープンAIの「チャットGPT」が先行するが、国内の通信・IT企業は日本語への対応力の高さや専門分野への特化など、海外勢の生成AIにはない性能を持たせる考え。顧客となる国内企業の業務に合わせて独自サービスを提供することで海外勢に対抗する。 「日本市場向けに専門性の高い生成AIを提供していく」。NECの吉崎敏文最高デジタル責任者(CDO)は6日の説明会でこう語った。同社は生成AIの基盤技術である「大規模言語モデル」を独自開発。日本語の文章を理解する力を高めた。企業の自社施設内のコンピューターでも稼働可能なため機微な顧客情報も扱える。金融やメーカーなど業界別に特化したサービスを提供し、今後3年間で500億円を生成AI関連で売り上げる考えだ。 国内では当初、昨年11月に登

                                                                                国産生成AIの開発活発 日本語対応や分野特化でチャットGPTに対抗
                                                                              • NTT、軽量で日本語処理性能に優れたLLM「tsuzumi」を開発、24年3月から商用サービス開始

                                                                                  NTT、軽量で日本語処理性能に優れたLLM「tsuzumi」を開発、24年3月から商用サービス開始 
                                                                                • 最近の日本語特化オープンLLMをつまみ食いする|shi3z

                                                                                  正月もいよいよ大詰め。 とはいえ、AIは待ってはくれない、ということで昨日から「デイリーAIニュース」を再開しています。今週だけ過去の特番を全て見れるスペシャル仕様になっているのでこの機会にぜひ去年のAIの流れと基礎知識を振り返ってみてください。 さて、昨年末は怒涛のようにいろんな日本語対応のオープンLLMが公開されました。 東工大のSwallow-70Bや、Elyza13B、LightblueのQarasu-14Bなどです。 僕がよく使う「Wikipediaの内容を要約して会話データセットを作る」というタスクをそれぞれのLLMにやってもらいました。その結果を書いておきます。 各テストの動作環境はうちの社長(AI)こと継之助です。現在のスペックは以下 ・GPU NVIDIA A100 80GBx8 ・256GB RAM ・20TB SSD(RAID0) ・20TB HDD(RAID0) ・

                                                                                    最近の日本語特化オープンLLMをつまみ食いする|shi3z