並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 836件

新着順 人気順

コーパスの検索結果201 - 240 件 / 836件

  • 大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

    はじめに 以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 昨今の自然言語処理界?では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています! ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。 そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため

      大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita
    • 日本語事前学習済みALBERTモデルを公開します

      2022/04/21 追記 本モデルのスピンオフ的な、トークナイザーを差し替えたものを新たに公開したのでお好みでどうぞ 本題 どうもこんばんは。 今回は掲題の通り、日本語事前学習済みALBERTモデルを公開したので、その過程やらなにやらを紹介します。(ほぼポエム) albert-base-japanese-v1 こちらがそのモデルです。 よければ使ってみてください。 ここから先はわりとどうでもいい話です。 ALBERTって? 詳しい話は論文なり解説記事なり読んでください。 大切なのはこれが「A Lite BERT」のことで、すごく雑に言えば「軽量化されたBERT」ということです。 なぜ事前学習済みモデルを作ったのか 結局のところ「自分がちょうど欲しいくらいの事前学習済みモデルがなかった」から作ったというDIY精神にほかなりません。 今回だと前提として「BERTはいいけどモデルサイズが大きく

        日本語事前学習済みALBERTモデルを公開します
      • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

        はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

          AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
        • 検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG

          はじめに こんにちは。検索基盤部の倉澤です。 検索機能におけるtypo(誤字脱字や綴り間違いなど)は難しい問題1とされています。typoの扱い方によってはユーザーに悪い検索体験を提供してしまう恐れがあります。例えば、typoを含む検索クエリを入力された時にユーザーが意図している検索結果を得ることができないといった問題があります。 例に漏れず、ZOZOTOWNでもtypoを含む検索クエリが入力された場合に検索結果が表示されないといった問題が発生しています。以下、「レディース」と入力するつもりが「レデース」と入力してしまった場合の検索結果です。 今回は日本語におけるtypoの一般的な解決策を調査・検証し、その結果・課題点を紹介します。手法の検証が容易であることを優先し、以下の2つの方法について検証しました。 Elasticsearchを用いてtypoを含む検索クエリでも検索結果を得る方法 ユー

            検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG
          • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

            以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

              ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
            • 4800万件の科学文献でトレーニングしたMetaのAI、わずか2日で公開停止に

              新型コロナウイルス感染症(COVID-19)のまん延が始まってから最初の1年間で、科学は急速な発展を見せた。その間に、COVID-19に関して10万本以上の論文が発表されたのだ。前例のない取り組みであり、前例のない膨大な新情報が発信された。 そうした研究を1つ残らず読んで理解するのは不可能だっただろう。人間には到底無理だ(そもそも、誰もそんな気にはならないだろう)。 しかし、「Galactica」なら、理論的には可能だ。 Galacticaは、Meta AI(旧Facebook Artificial Intelligence Research)が開発した人工知能(AI)で、機械学習を利用して「科学を整理する」ことを目指している。デモ版が先週オンラインでリリースされてから、ちょっとした話題になり、批判(疑似科学を生み出す、誇大宣伝だ、一般利用には早すぎる)が上がった。 このツールは、検索エン

                4800万件の科学文献でトレーニングしたMetaのAI、わずか2日で公開停止に
              • 画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中

                DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION https://laion.ai/blog/open-flamingo/ GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models https://github.com/mlfo

                  画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中
                • 日本語のオノマトペを3000個あつめてGAE/GoとFirebaseでサービスを作る - Qiita

                  https://matopee.com Firebaseを管理画面側に、GAEを公開側に使って、日本語のオノマトペを集めて辞典などとして公開するサービスを作っています。まだまだ不足だらけですが、まずは3200件ちょっと集めたオノマトペの五十音別全一覧を中心に公開しています。 オノマトペにも過不足がありますし、古語や方言はまだほぼ手つかずです。今後は地道に語義を増やし、分類し、論文や書籍、Webなどの参考情報を集め、幾つか毛色の違うコンテンツの準備をしよう、という状況です。 コメントで @scivola と @perpouh からいただいた以下のオノマトペなどを追加し、現在3340件になりました。 以下は語義付きで登録しました。 かこーん ぐすぐす しみじみ ちんちくりん てれてれ どんぶらこ 以下は登録のみ。 ざんぶ, じゃらん, じゃらーん, しゃらん, しゃりん, すぼっ, ぱったり,

                    日本語のオノマトペを3000個あつめてGAE/GoとFirebaseでサービスを作る - Qiita
                  • 国立情報学研究所における大規模言語モデル構築への協力について|国立国会図書館―National Diet Library

                    2024年1月29日、国立国会図書館は、国立国会図書館インターネット資料収集保存事業(WARP)において収集保存した数十億件のファイルのURLリストを提供することについて、国立情報学研究所(NII)と合意しました。 提供したURLリストは、NIIにおける大規模言語モデル(LLM)の構築を目的として、主にコーパス用データを収集するために利用される予定です。LLMの詳細については、NIIの「LLM勉強会」をご参照ください。 本件は、当館とNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」(平成7(1995)年4月19日)に基づく協力の一つです。

                    • Deep Learning において,漢字はどの単位で分割・エンコードされるべきなのだろう? - Qiita

                      subcharacterに関しては,BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで,さっと調べた感じだと見つけられませんでした。 論文間にまたがって分割単位が同じ部分がわかるように,分割ごとに色合いを変えた図を作成しました(見易さを優先し,作成した図の次元サイズ等は簡略化しています)。 論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。 言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は,shallow > deep > baselineとなった。 論文内で紹介されている漢字の4つのデータセットを見ると,同じ漢字でもそれぞ

                        Deep Learning において,漢字はどの単位で分割・エンコードされるべきなのだろう? - Qiita
                      • 自然言語処理界隈の巨人:Transformerモデルのご紹介 - Platinum Data Blog by BrainPad

                        本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 今回のブログでは、発展を続ける「自然言語処理」技術の中から、さまざまな自然言語処理の課題を非常に高い精度で解決する「Transformer」モデルをテーマに、なぜ分析精度が高いのかを解説します! はじめに こんにちは、アナリティクス本部アナリティクスサービス部の董です。 2017年に Google が発表した「attention is all you need」という論文で提案された「Transformer」は、機械翻訳や文章カテゴリの分類、文章生成等、さまざまな自然言語処理の課題を非常に高い精度で解決し、革命的な進歩で発展しています。当社でもTransformerモデルを業務に生かすことで、これまでは不可能だった分析が可能となっています。 本ブログでは、「なぜTransformerモデル

                          自然言語処理界隈の巨人:Transformerモデルのご紹介 - Platinum Data Blog by BrainPad
                        • ChatGPTの仕組みと社会へのインパクト

                          の仕組みと 社会へのインパクト 黒橋 禎夫 京都大学・教授/NII・所⾧特別補佐 第62回 大学等におけるオンライン教育とデジタル変革に関するサイバーシンポジウム(令和5年3月3日) ChatGPTとは • OpenAIが2022年11月に公開した大規模言語モデルに基 づくチャットボット • OpenAIは2015年末にサム・アルトマン、イーロン・マ スクらによって設立されたAI研究所。マイクロソフト も出資 • 自然言語からの画像生成モデルDALL-E、 音声認識モデルWhisperなども開発 • 本社はサンフランシスコ https://openai.com/ https://openai.com/dall-e-2/ An astronaut riding a horse in a photorealistic style 2 目 次 1. ChatGPTの振る舞い 2. Ch

                          • 日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました

                            大規模なデータセットを短期間で構築するために、データセット構築にはYahoo!クラウドソーシングを用いました。 以下に各データセットの概要を示します。 MARC-ja MARC-jaは商品レビューを入力として、ポジティブ(positive)かネガティブ(negative)かを推定するタスクです。多言語商品レビューコーパスMARC(Multilingual Amazon Reviews Corpus)[文献7]の日本語部分を用いて構築しています。検証・テストセットについては正解ラベルが妥当であるかをクラウドソーシングで判定し、ラベルをクリーニングしています(訓練セットは数が多いことからクリーニングはしておりません)。 JSTS/JNLI JSTS(Japanese Semantic Textual Similarity)とJNLI(Japanese Natural Language Infe

                              日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました
                            • リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習

                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米カーネギーメロン大学に所属する研究者らが発表した論文「A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech」は、より人間に近い会話の音声合成を生成できる学習モデルを提案した研究報告である。 テキストから音声合成を生成するText-to-Speech(TTS)システムは、合成した音声の品質を大幅に向上させた。しかし、TTSシステムのトレーニングに使用する標準コーパスは、ほとんどの場合、制御された環境で録音した読み上げや演技の音声

                                リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習
                              • huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる - Qiita

                                huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる自然言語処理PyTorchberttransformershuggingface はじめに huggingfaceのtransformersのライブラリを使ってBERTの事前学習をやってみました。日本語でBERTの事前学習をスクラッチで行っている記事が現段階であまり見当たらなかったですが、一通り動かすことができたので、メモがてら残しておきます。 BERTの事前学習をしてみたいけど、いまいちやり方がわからない人の一助になれば幸いです。 正直まだわかっていないところが多々ありますし、紹介する内容がセオリーな方法かもよくわかっていません。 あれこれ試している最中ですので、もっとこうしたほうがいいよ、みたいなアドバイスございましたらご教示いただけると幸いです! 参考文献

                                  huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる - Qiita
                                • 【ChatGPT活用事例】一部の投資家は日常業務にChatGPTを活用。ただし、導入に慎重な声も【テッククランチ】

                                  常識ある回答をする能力で瞬く間に広まったChatGPTは、確かに人々の心を打った。2022年12月に一般公開されたばかりのこのツールは、奥深いテーマに関する真面目な質問にもくだらない質問にも答えるほど賢く、作家や教育者、芸術家などによる討論の場にも登場するようになった。 しかし投資家にとって、ChatGPTの出現は次なる大きなAIツールへの投資を刺激するだけのものではない。この技術を自分のワークフローに組み込んで、より効率的に、より賢く、そしてよりコストをかけずに仕事をする方法を考えている人もいる。 面白いことに、多くの投資家は自分たちの仕事の単調な部分を人工知能に任せることには乗り気でなかった。結局のところ、付加価値と個性で動くビジネスにおいて、自分の仕事はAIによって代替できると誰が認めるだろう。 思い込みはさておき、多くのVCファームは案件発掘や投資支援など、長年にわたって業務の自動

                                    【ChatGPT活用事例】一部の投資家は日常業務にChatGPTを活用。ただし、導入に慎重な声も【テッククランチ】
                                  • language models まとめ

                                    Transcript Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Language Models まとめ 2020/05/26 DeNA Co., Ltd. Strictly confidential 1 Kosuke Sakami 目次 ▪ 前置き ▪ BERT の architecture (単語紹介) ▪ 紹介 ⁃ BERT ⁃ GPT-2 ⁃ Transformer-XL (実験なし) ⁃ XLNet ⁃ RoBERTa ⁃ ALBERT ⁃ T5 (実験なし) ⁃ BART ⁃ ELECTRA 前置き ▪ Language Models を紹介するよ! ⁃ 分類問題を想定します ▪ huggingface の transformers ライブラリの中から紹介していく ⁃ ForSequenceClassificati

                                      language models まとめ
                                    • 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー

                                      関連URL Tanuki-8x8B Tanuki-8B 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など 全体像 フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細 Japanese MT-Benchにおける性能の詳細とJasterに関する一部言及 ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月) ブラインドテスト形式で種々のモデル出力の優劣を人手で評価した結果と、各種ベンチマークとの関係性 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 開発の鍵となった合成データ戦略に至るまでの試行錯誤など Tanuki-8B,8x8Bの開発完了までに考えていたことと、「科学の基盤モデル」の構築に向けた考え 開発時

                                        大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー
                                      • 「辞書の編集ってアナログなんでしょ?」「いやいやいやいや……」 - z is for zokkon

                                        この記事は「書き手と編み手の Advent Calendar 2019」に参加しています。 adventar.org とある中堅出版社で10数年にわたり、2カ国語辞典(具体的には英和辞典と和英辞典)の編集という仕事をしてきました。「出版社」「編集」と一口に言っても、扱うジャンルはさまざまで、業務内容も実は会社によってかなり違っていたりします。とりわけ、辞書という出版物は限られた版元しか扱っていないので、あまり汎用性のある話はできないのですが、思うところあり、このあたりで少しまとめておきたいと思います。 三浦しをんさんの小説『舟を編む』は、映画化もされ今は文庫でも出ているのでご存じの方も多いと思いますが、国語辞書を刊行している老舗出版社の社員編集者を主人公とする作品です。これによって世間での辞書編集者のイメージが形作られた部分は少なからずあると思いますが、あれを読んで自分の仕事と違うと感じた

                                          「辞書の編集ってアナログなんでしょ?」「いやいやいやいや……」 - z is for zokkon
                                        • NICT BERT 日本語 Pre-trained モデル

                                          概要 このページでは、日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルをクリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)のもとで公開しています。 BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています [2]。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。 作成したBERTモデルの評価として、NICTで作成した (fine-tuning用) 学習データと評価データ (これらのデータは大規模Web情報分析システムWISDOM X、対災害SNS情報分析システムDISAANA、災害状況要

                                          • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

                                              End-to-End 音声認識のレスポンスを高速化する最小遅延学習
                                            • 日本語LLMをPPOでファインチューニングする - Qiita

                                              TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

                                                日本語LLMをPPOでファインチューニングする - Qiita
                                              • いただいたブコメから、有益な追加情報ならびに参考書& "if awkward" について調べてわかったこと - Hoarding Examples (英語例文等集積所)

                                                【後日追記】この件についてのエントリはカテゴリでまとめて一覧できるようにしてあります。【追記ここまで】 今回も引き続き変則的に。 一昨日11月18日のエントリは、はてなブックマークで現時点で768件のブクマをいただいています。ブコメは現時点で214件いただいています。ありがとうございます。1万字など軽く超えてしまっている長文記事であるにもかかわらず、ブコメという公開の場に言葉を書く前に中身をちゃんと読んでくださっている方ばかりで、感謝にたえません。私自身がはてブを非公開にしているのが申し訳ないです(これは、とあることがきっかけで、私の過去の断片的な発言をほじくり返して難癖をつけ、最近流行りの「ターフ」というレッテルを貼り付けようと待ち構えている人々の存在を察知したことによります。日本語圏の「ターフ」は本来のキリスト教社会の宗教保守の文脈から切り離されててわけがわからず、それゆえ、誰にでも貼

                                                  いただいたブコメから、有益な追加情報ならびに参考書& "if awkward" について調べてわかったこと - Hoarding Examples (英語例文等集積所)
                                                • 【更新停止】「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ

                                                  追記(2024/06/09) 下記の個人サイトのページに内容を引き継ぎ、以降の更新はそちらで行うことにしました。 ttagawa-dlit.info こちらの記事はもう更新しませんのでご注意ください。 はじめに この記事の来歴 この記事は元々ははてなグループのブログに書いた記事で、はてなグループの廃止によりこちらのブログに移しました。 dlit.hatenadiary.com しかしはてなグループからインポートした記事はどうにも編集がしにくいので、新しい記事にすることにします。上記の古い方の記事はそのままにはしておきますが、以降更新はしません。 この記事の目的 「ら抜き」と呼ばれる現象が言語学・日本語学の研究分野ではある程度説明がつく言語変化である(よく分からない変化ではない)として割と広く取り上げられてきたことを記録しておきたい、というのがこの記事を書き始めた動機としてあります。 そのた

                                                    【更新停止】「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ
                                                  • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

                                                    ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

                                                      ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
                                                    • はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

                                                      前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

                                                        はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
                                                      • 小説の書き出し以降をAIが自動生成してくれる「AIのべりすと」を使ってみた

                                                        Googleが開発する機械学習に特化した集積回路「TPU」を用いてオープンな研究のブレイクスルーを図るTPU Research Cloudを利用し、日本語最大級の68.7億パラメータ&約500GBのコーパスからフルスクラッチで訓練した小説生成人工知能(AI)が「AIのべりすと」です。「AIのべりすと」は小説の書き出し部分を5~6行入力するだけで、小説を作り上げることができるということで実際にどんな小説が出来上がるのか使ってみました。 AIのべりすと https://ai-novel.com/index.php 使い方は簡単で、トップページにある「最初からはじめる」をクリック。 無題の下にあるテキストボックスにテキストを入力して、「デフォルト AIに好きに書かせます」「セリフ セリフを優先」「ナラティブ 地の文を優先」のいずれかを選んで、「続きの文を書く」をクリック。今回はページを開いた際に

                                                          小説の書き出し以降をAIが自動生成してくれる「AIのべりすと」を使ってみた
                                                        • 「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る

                                                          「研究開発が一部の組織の寡占状態にあることは健全とは思えない」――。 米OpenAI(オープンAI)の「ChatGPT」など大規模言語モデル(LLM)が注目を集める中で、国立情報学研究所所長で京都大学特定教授の黒橋禎夫氏が2023年9月27日、「日経クロステックNEXT 東京 2023」(主催:日経BP、東京国際フォーラム)に登壇し、「OpenAIはもはやオープンではない」とLLM研究の課題を指摘。その上で日本の取り組みを紹介した。 自然言語処理研究は、一貫して機械翻訳向け 黒橋氏は「生成AIの仕組みと社会へのインパクト、データ基盤から知識基盤の時代へ」と題して基調講演を行った。まず自然言語処理の研究の歴史から、ChatGPTをはじめとしたLLMの影響について語った。 自然言語処理の研究はコンピューターの利用が始まった1940年代半ばから始まり、「一貫して機械翻訳がキラーアプリだった」と黒

                                                            「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る
                                                          • 中俣尚己の日本語チャンネル

                                                            日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。

                                                              中俣尚己の日本語チャンネル
                                                            • 【AIのべりすとインタビュー】小説を書くAIをひとりで作った日本人がいるらしい | オモコロ

                                                              「AIのべりすと」とは、小説を生成する人工知能。GPT-3をモデルとした、日本語の自然言語処理プロセッサです。『Tone Sphere』で知られるBit192 LabsのStaさんに、小説生成の仕組みや使い方についてインタビューしました。 自然言語処理AIって何? あの、単純な疑問なのですが「文章を書く人工知能」というのはいったいどうやって作っているんでしょうか? 想像もつかないのですが……。 こういうAIは「自然言語処理AI」といいます。たとえばTwitterで「しゅうまい君」というbotを見たことありませんか? あります! タイムラインを学習して謎のフレーズを言うbotですよね。 会社がお金出してくれるなら飲み会行きます — しゅうまい君 (@shuumai) December 11, 2019 全人類逆いっこく堂化計画 — しゅうまい君 (@shuumai) March 25, 20

                                                                【AIのべりすとインタビュー】小説を書くAIをひとりで作った日本人がいるらしい | オモコロ
                                                              • GitHub - Qithub-BOT/Qiita-SPAMS: ✅ 【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。

                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                  GitHub - Qithub-BOT/Qiita-SPAMS: ✅ 【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。
                                                                • 英語独習法「語彙は日本語訳で1万語、覚えても文脈の中で使えない」「自由自在に運用できる1,000語のほうが使える」

                                                                  岩波新書編集部 @Iwanami_Shinsho 【12月新刊その2/今井むつみ『英語独習法』】英語の達人をめざすなら高い語彙力が不可欠だ。多読や多聴は語彙力向上には向かない。語彙全体で日本語と英語の違いを自分で探究するのが合理的な勉強法だ。オンラインのコーパスや辞書を利用する実践的方法を紹介。 pic.twitter.com/TnT4VOvdWo K @k_green_tea 乱暴にまとめると、とにかく語彙と作文、ただし語彙は単語帳みたい日本語訳でパラパラ覚えてはダメ、辞書やコーパスを使って母語話者の認知で覚える、アウトプットは基本文法のライティング。 ということで、単語帳のリストを辞書やコーパスで一語一語調べたおし、瞬間英作文をやっていけば良さそう。 🇵🇸小倉雄一@船橋政治新聞 💙💛 @oguray いやー、単語は単独で覚えても意味がなくて、文脈のなかでの「使われ方」を学ぶべし

                                                                    英語独習法「語彙は日本語訳で1万語、覚えても文脈の中で使えない」「自由自在に運用できる1,000語のほうが使える」
                                                                  • Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る|DTMステーション

                                                                    株式会社インターネット 代表取締役 村上昇さんインタビュー --Megpoid製品、だいぶ久しぶりになりますが、どうしてこのタイミングでの登場となったのですか? 村上:昨年の秋ごろから、そろそろ出したいなと検討していました。喋りも、歌唱もどちらも進めたいと考えていました。ただ、昨今の技術進化などからさまざまなメーカーが参入し、エンジンも複数あるから、どれにしようか……と思って考えていたのです。そうした中、今年1月にエーアイさんから具体的な提案をいただいたんです。技術的な背景から、実際の工程なども含め、細かく話を詰めていくなか、これがよさそう、となったのです。 株式会社インターネットの代表取締役、村上昇さんにオンラインミーティングの形でインタビューした --トークもソングもとなると、CeVIO AIやSynthesizer V&voicepeakのほうが、スマートな気もしますが……。 村上:

                                                                      Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る|DTMステーション
                                                                    • 歌声から伴奏を生成するAI「SingSong」 Googleが技術開発

                                                                      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 Google Researchに所属する研究者らが発表した論文「SingSong: Generating musical accompaniments from singing」は、歌声からその歌に適した伴奏を生成する機械学習モデルを提案した研究報告である。入力した歌声に合わせてインストゥルメンタル音楽(インスト)を生成し、す入力の歌声と生成した楽器を合成した新たな音源を出力る。 SingSongは、音源分離とオーディオ生成の2つのモデルから構成される。まず既存の音源分離アルゴリズムを用い、大規模で多様な音楽コーパスをボーカルと楽器の音源のペアに分離し

                                                                        歌声から伴奏を生成するAI「SingSong」 Googleが技術開発
                                                                      • 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics

                                                                        2023/10/20 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築 ~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NIIエヌアイアイ、所長:黒橋 禎夫、東京都千代田区)は、本年5月から、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が参加するLLM勉強会(LLM-jp)を主宰しています。7月から、計算資源としてデータ活用社会創成プラットフォームmdx*1を活用し、パラメータ数*2130億の大規模言語モデル(LLM)の構築を開始しました。このたび、同LLMの事前学習及びチューニングが終了し、モデルを公開しましたので、お知らせします。 同モデルはLLM研究開発としては初期段階のものであり、モデルの性能を示す評価値はこれ

                                                                          130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics
                                                                        • 第6回 LLM 勉強会

                                                                          2023年11月29日(水)に国立情報学研究所にて第6回 LLM 勉強会を開催しました。 プログラム LLM-jp 状況報告(黒橋) [資料] LLMの安全対策サーベイと日本語データ(理研AIP 鈴木久美) [資料] ビジネスのドメインや最新情報に対応した130億パラメータの日本語事前学習モデルの開発(ストックマーク 近江) [資料] 医療における大規模言語モデルの可能性と進歩(東大 小寺) [資料] コーパス構築WG(河原) [資料] モデル構築WG(鈴木) [資料] 評価・チューニングWG(宮尾) [資料] 安全性WG(関根) [資料] 参加者 現地26名・オンライン150名程度

                                                                          • BERTを用いた教師なし文表現 - Retrieva TECH BLOG

                                                                            こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。 背景・概要 手法 要因 実験 NLIタスクによる実験 クラスタリングによる実験 終わりに 背景・概要 自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。 近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル

                                                                              BERTを用いた教師なし文表現 - Retrieva TECH BLOG
                                                                            • 【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】

                                                                              TOPニュースTechCrunch【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】 【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】 2022年12月26日 執筆者 Natasha Lomas TechCrunchシニアレポーター。silicon.com(現在はTechRepublicに統合)でビジネス・テクノロジーコーナー、CNET UKでスマートフォンレビューコーナーを担当した後、2012年9月に入社、ヨーロッパを拠点に活動している。フリーランスとしてThe GuardianやBBCなどにも寄稿している。 ChatGPTは自然言語処理(NLP)の技術を使ってより自然で直感的な方法でコンピュータとコミュニケーションが取れるように設計された、新しい

                                                                                【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】
                                                                              • 「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ

                                                                                本日、日本デジタル・ヒューマニティーズ学会(JADH)の年次国際学術大会JADH2020が終了しました。リアル開催の予定だったものがバーチャルに途中で変更になり、日程も少し後ろに動かして、それでもなんとかきちんと開催でき、それほど人数は多くないながらも意義のある議論が展開され、相互に認識を深められるとても良い学会になったと思いました。開催を引き受けてくださった大阪大学言語文化研究科の田畑智司先生、ホドシチェク・ボル先生には感謝すること至極です。また、キーノートスピーチを引き受けてくださった東国大学のKim Youngmin先生、IIT インドールのNirmala Menon先生、それから、休日を返上して参加してくださった発表者・参加者の方々のおかげで会も盛り上がりました。大変ありがたく思っております。JADHは、国際デジタル・ヒューマニティーズ連合(Alliance of Digital

                                                                                  「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ
                                                                                • ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog

                                                                                  Beatrust の ML Lead の Tatsuya(白川 達也)です。 機械学習はデータからの学習プロセスを経てデータに最適化した機能を提供する技術ですが、新しい機能の導入前の段階ではユーザーの行動ログデータなどが蓄積されていないため、機械学習ベースの機能を新規提供することには本質的な困難さがあります。 本記事は、Beatrust People における Tag Suggestion 機能を例に、そのような状況においてどのように機械学習ベースの機能を構築していったのかを記したものです。 本記事で書いたこと Beatrust における Tag Suggestion 機能の紹介 データがない状況でどうあがいたか 機能改善ポイント(Relevance、Importance、Diversity) 仲間を募集しています! なお、今回の記事は私のほかにもいつも Beatrust を手伝ってくれて

                                                                                    ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog