並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 815件

新着順 人気順

コーパスとはの検索結果201 - 240 件 / 815件

  • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

      ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
    • 本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG

      まえがき R&Dチームの徳田(@dakuton)です。 私の開発業務としては自然言語処理をメインとした業務ではありませんが、必要に応じてテキスト解析に携わることもあります。 今回は、がっつり自然言語処理やらないエンジニアからみたときのテキスト解析の使いどころを簡単にご紹介します。 業務での使いどころ 簡単に申し上げると、分類問題として解けそうなデータか?当たりをつけるためにテキスト解析を利用します。 私の業務では時系列データや定量データのような数値データなどをメインに取り扱っていますが、テキスト解析をあわせて行う必要が出てくる場合があります。 これは解析依頼をいただくデータが、数値情報に加えてテキスト情報が付随されているようなデータであることが多いためです。 例えば故障検知の場合、単に正常稼働時の数値データをもとに異常を定義するのではなく 過去レポート(故障時の部品や原因をまとめたテキスト

        本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG
      • 4800万件の科学文献でトレーニングしたMetaのAI、わずか2日で公開停止に

        新型コロナウイルス感染症(COVID-19)のまん延が始まってから最初の1年間で、科学は急速な発展を見せた。その間に、COVID-19に関して10万本以上の論文が発表されたのだ。前例のない取り組みであり、前例のない膨大な新情報が発信された。 そうした研究を1つ残らず読んで理解するのは不可能だっただろう。人間には到底無理だ(そもそも、誰もそんな気にはならないだろう)。 しかし、「Galactica」なら、理論的には可能だ。 Galacticaは、Meta AI(旧Facebook Artificial Intelligence Research)が開発した人工知能(AI)で、機械学習を利用して「科学を整理する」ことを目指している。デモ版が先週オンラインでリリースされてから、ちょっとした話題になり、批判(疑似科学を生み出す、誇大宣伝だ、一般利用には早すぎる)が上がった。 このツールは、検索エン

          4800万件の科学文献でトレーニングしたMetaのAI、わずか2日で公開停止に
        • 画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中

          DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION https://laion.ai/blog/open-flamingo/ GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models https://github.com/mlfo

            画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中
          • 日本語のオノマトペを3000個あつめてGAE/GoとFirebaseでサービスを作る - Qiita

            https://matopee.com Firebaseを管理画面側に、GAEを公開側に使って、日本語のオノマトペを集めて辞典などとして公開するサービスを作っています。まだまだ不足だらけですが、まずは3200件ちょっと集めたオノマトペの五十音別全一覧を中心に公開しています。 オノマトペにも過不足がありますし、古語や方言はまだほぼ手つかずです。今後は地道に語義を増やし、分類し、論文や書籍、Webなどの参考情報を集め、幾つか毛色の違うコンテンツの準備をしよう、という状況です。 コメントで @scivola と @perpouh からいただいた以下のオノマトペなどを追加し、現在3340件になりました。 以下は語義付きで登録しました。 かこーん ぐすぐす しみじみ ちんちくりん てれてれ どんぶらこ 以下は登録のみ。 ざんぶ, じゃらん, じゃらーん, しゃらん, しゃりん, すぼっ, ぱったり,

              日本語のオノマトペを3000個あつめてGAE/GoとFirebaseでサービスを作る - Qiita
            • 国立情報学研究所における大規模言語モデル構築への協力について|国立国会図書館―National Diet Library

              2024年1月29日、国立国会図書館は、国立国会図書館インターネット資料収集保存事業(WARP)において収集保存した数十億件のファイルのURLリストを提供することについて、国立情報学研究所(NII)と合意しました。 提供したURLリストは、NIIにおける大規模言語モデル(LLM)の構築を目的として、主にコーパス用データを収集するために利用される予定です。LLMの詳細については、NIIの「LLM勉強会」をご参照ください。 本件は、当館とNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」(平成7(1995)年4月19日)に基づく協力の一つです。

              • Deep Learning において,漢字はどの単位で分割・エンコードされるべきなのだろう? - Qiita

                subcharacterに関しては,BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで,さっと調べた感じだと見つけられませんでした。 論文間にまたがって分割単位が同じ部分がわかるように,分割ごとに色合いを変えた図を作成しました(見易さを優先し,作成した図の次元サイズ等は簡略化しています)。 論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。 言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は,shallow > deep > baselineとなった。 論文内で紹介されている漢字の4つのデータセットを見ると,同じ漢字でもそれぞ

                  Deep Learning において,漢字はどの単位で分割・エンコードされるべきなのだろう? - Qiita
                • 自然言語処理界隈の巨人:Transformerモデルのご紹介 - Platinum Data Blog by BrainPad

                  本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 今回のブログでは、発展を続ける「自然言語処理」技術の中から、さまざまな自然言語処理の課題を非常に高い精度で解決する「Transformer」モデルをテーマに、なぜ分析精度が高いのかを解説します! はじめに こんにちは、アナリティクス本部アナリティクスサービス部の董です。 2017年に Google が発表した「attention is all you need」という論文で提案された「Transformer」は、機械翻訳や文章カテゴリの分類、文章生成等、さまざまな自然言語処理の課題を非常に高い精度で解決し、革命的な進歩で発展しています。当社でもTransformerモデルを業務に生かすことで、これまでは不可能だった分析が可能となっています。 本ブログでは、「なぜTransformerモデル

                    自然言語処理界隈の巨人:Transformerモデルのご紹介 - Platinum Data Blog by BrainPad
                  • ChatGPTの仕組みと社会へのインパクト

                    の仕組みと 社会へのインパクト 黒橋 禎夫 京都大学・教授/NII・所⾧特別補佐 第62回 大学等におけるオンライン教育とデジタル変革に関するサイバーシンポジウム(令和5年3月3日) ChatGPTとは • OpenAIが2022年11月に公開した大規模言語モデルに基 づくチャットボット • OpenAIは2015年末にサム・アルトマン、イーロン・マ スクらによって設立されたAI研究所。マイクロソフト も出資 • 自然言語からの画像生成モデルDALL-E、 音声認識モデルWhisperなども開発 • 本社はサンフランシスコ https://openai.com/ https://openai.com/dall-e-2/ An astronaut riding a horse in a photorealistic style 2 目 次 1. ChatGPTの振る舞い 2. Ch

                    • 日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました

                      大規模なデータセットを短期間で構築するために、データセット構築にはYahoo!クラウドソーシングを用いました。 以下に各データセットの概要を示します。 MARC-ja MARC-jaは商品レビューを入力として、ポジティブ(positive)かネガティブ(negative)かを推定するタスクです。多言語商品レビューコーパスMARC(Multilingual Amazon Reviews Corpus)[文献7]の日本語部分を用いて構築しています。検証・テストセットについては正解ラベルが妥当であるかをクラウドソーシングで判定し、ラベルをクリーニングしています(訓練セットは数が多いことからクリーニングはしておりません)。 JSTS/JNLI JSTS(Japanese Semantic Textual Similarity)とJNLI(Japanese Natural Language Infe

                        日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました
                      • リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習

                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米カーネギーメロン大学に所属する研究者らが発表した論文「A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech」は、より人間に近い会話の音声合成を生成できる学習モデルを提案した研究報告である。 テキストから音声合成を生成するText-to-Speech(TTS)システムは、合成した音声の品質を大幅に向上させた。しかし、TTSシステムのトレーニングに使用する標準コーパスは、ほとんどの場合、制御された環境で録音した読み上げや演技の音声

                          リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習
                        • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

                          はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

                            AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
                          • 【ChatGPT活用事例】一部の投資家は日常業務にChatGPTを活用。ただし、導入に慎重な声も【テッククランチ】

                            常識ある回答をする能力で瞬く間に広まったChatGPTは、確かに人々の心を打った。2022年12月に一般公開されたばかりのこのツールは、奥深いテーマに関する真面目な質問にもくだらない質問にも答えるほど賢く、作家や教育者、芸術家などによる討論の場にも登場するようになった。 しかし投資家にとって、ChatGPTの出現は次なる大きなAIツールへの投資を刺激するだけのものではない。この技術を自分のワークフローに組み込んで、より効率的に、より賢く、そしてよりコストをかけずに仕事をする方法を考えている人もいる。 面白いことに、多くの投資家は自分たちの仕事の単調な部分を人工知能に任せることには乗り気でなかった。結局のところ、付加価値と個性で動くビジネスにおいて、自分の仕事はAIによって代替できると誰が認めるだろう。 思い込みはさておき、多くのVCファームは案件発掘や投資支援など、長年にわたって業務の自動

                              【ChatGPT活用事例】一部の投資家は日常業務にChatGPTを活用。ただし、導入に慎重な声も【テッククランチ】
                            • language models まとめ

                              Transcript Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Language Models まとめ 2020/05/26 DeNA Co., Ltd. Strictly confidential 1 Kosuke Sakami 目次 ▪ 前置き ▪ BERT の architecture (単語紹介) ▪ 紹介 ⁃ BERT ⁃ GPT-2 ⁃ Transformer-XL (実験なし) ⁃ XLNet ⁃ RoBERTa ⁃ ALBERT ⁃ T5 (実験なし) ⁃ BART ⁃ ELECTRA 前置き ▪ Language Models を紹介するよ! ⁃ 分類問題を想定します ▪ huggingface の transformers ライブラリの中から紹介していく ⁃ ForSequenceClassificati

                                language models まとめ
                              • 「辞書の編集ってアナログなんでしょ?」「いやいやいやいや……」 - z is for zokkon

                                この記事は「書き手と編み手の Advent Calendar 2019」に参加しています。 adventar.org とある中堅出版社で10数年にわたり、2カ国語辞典(具体的には英和辞典と和英辞典)の編集という仕事をしてきました。「出版社」「編集」と一口に言っても、扱うジャンルはさまざまで、業務内容も実は会社によってかなり違っていたりします。とりわけ、辞書という出版物は限られた版元しか扱っていないので、あまり汎用性のある話はできないのですが、思うところあり、このあたりで少しまとめておきたいと思います。 三浦しをんさんの小説『舟を編む』は、映画化もされ今は文庫でも出ているのでご存じの方も多いと思いますが、国語辞書を刊行している老舗出版社の社員編集者を主人公とする作品です。これによって世間での辞書編集者のイメージが形作られた部分は少なからずあると思いますが、あれを読んで自分の仕事と違うと感じた

                                  「辞書の編集ってアナログなんでしょ?」「いやいやいやいや……」 - z is for zokkon
                                • NICT BERT 日本語 Pre-trained モデル

                                  概要 このページでは、日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルをクリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)のもとで公開しています。 BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています [2]。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。 作成したBERTモデルの評価として、NICTで作成した (fine-tuning用) 学習データと評価データ (これらのデータは大規模Web情報分析システムWISDOM X、対災害SNS情報分析システムDISAANA、災害状況要

                                  • huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる - Qiita

                                    huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる自然言語処理PyTorchberttransformershuggingface はじめに huggingfaceのtransformersのライブラリを使ってBERTの事前学習をやってみました。日本語でBERTの事前学習をスクラッチで行っている記事が現段階であまり見当たらなかったですが、一通り動かすことができたので、メモがてら残しておきます。 BERTの事前学習をしてみたいけど、いまいちやり方がわからない人の一助になれば幸いです。 正直まだわかっていないところが多々ありますし、紹介する内容がセオリーな方法かもよくわかっていません。 あれこれ試している最中ですので、もっとこうしたほうがいいよ、みたいなアドバイスございましたらご教示いただけると幸いです! 参考文献

                                      huggingface / transformersを使って日本語BERTの事前学習を実施してオリジナルな言語モデルを作ってみる - Qiita
                                    • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

                                        End-to-End 音声認識のレスポンスを高速化する最小遅延学習
                                      • 日本語LLMをPPOでファインチューニングする - Qiita

                                        TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

                                          日本語LLMをPPOでファインチューニングする - Qiita
                                        • BERTを超えた自然言語処理の最新モデル「XLNet」

                                          3つの要点 ✔️ 自然言語処理でBERTを超える新しい事前学習モデルであるXLNetが登場 ✔️ マスク間の依存関係を学べないというBERTの弱点を、単語の並べ替えによって解決 ✔️ 長文読解タスクであるRACEで人を超えるスコアを達成 XLNet: Generalized Autoregressive Pretraining for Language Understanding written by Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le (Submitted on 19 Jun 2019 (v1), last revised 2 Jan 2020 (this version, v2)) Comments: Published by NIPS 2019.

                                            BERTを超えた自然言語処理の最新モデル「XLNet」
                                          • いただいたブコメから、有益な追加情報ならびに参考書& "if awkward" について調べてわかったこと - Hoarding Examples (英語例文等集積所)

                                            【後日追記】この件についてのエントリはカテゴリでまとめて一覧できるようにしてあります。【追記ここまで】 今回も引き続き変則的に。 一昨日11月18日のエントリは、はてなブックマークで現時点で768件のブクマをいただいています。ブコメは現時点で214件いただいています。ありがとうございます。1万字など軽く超えてしまっている長文記事であるにもかかわらず、ブコメという公開の場に言葉を書く前に中身をちゃんと読んでくださっている方ばかりで、感謝にたえません。私自身がはてブを非公開にしているのが申し訳ないです(これは、とあることがきっかけで、私の過去の断片的な発言をほじくり返して難癖をつけ、最近流行りの「ターフ」というレッテルを貼り付けようと待ち構えている人々の存在を察知したことによります。日本語圏の「ターフ」は本来のキリスト教社会の宗教保守の文脈から切り離されててわけがわからず、それゆえ、誰にでも貼

                                              いただいたブコメから、有益な追加情報ならびに参考書& "if awkward" について調べてわかったこと - Hoarding Examples (英語例文等集積所)
                                            • Wikipediaを活用した表記ゆれへの対応 - sola

                                              自然言語処理のタスクにおいて、表記ゆれの問題が常につきまといます。単純なパターンであれば単純なルールで対処が可能です。例えばアルファベットの大文字・小文字の混在であれば全て小文字に変換すれば良いし、半角文字と全角文字の混在であれば全て全角文字に変換すれば良いでしょう。 しかし、略語はどうでしょうか。例えばPCはおそらくパソコンのことですね。ただ、かしこまった文書だとパーソナルコンピュータと表記されているかもしれません。こうなってくると、単純なルールでの対処はもう難しいでしょう。 そこで、単語の正規化(名寄せ)が必要です。単語の正規化の話は、Sansanの発表資料に良くまとまっています。大きく分けて以下の方法が考えられます。 単語マスタを用意しておき、入力単語に対してレーベンシュタイン距離(編集距離)を計算して最も距離が小さい単語を採用する 方法としては単純で扱いやすい マスタの用意が必要

                                              • 「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ

                                                はじめに この記事の来歴 この記事の目的 入門書や概説書のコラム、簡単な解説など 専門書・研究論文 その他(未確認など) はじめに この記事の来歴 この記事は元々ははてなグループのブログに書いた記事で、はてなグループの廃止によりこちらのブログに移しました。 dlit.hatenadiary.com しかしはてなグループからインポートした記事はどうにも編集がしにくいので、新しい記事にすることにします。上記の古い方の記事はそのままにはしておきますが、以降更新はしません。 この記事の目的 「ら抜き」と呼ばれる現象が言語学・日本語学の研究分野ではある程度説明がつく言語変化である(よく分からない変化ではない)として割と広く取り上げられてきたことを記録しておきたい、というのがこの記事を書き始めた動機としてあります。 そのため、この記事のリストには下記の特徴があることに注意してお使いください。 読んでい

                                                  「ら抜き」に言及のある言語学・日本語学関連の書籍などのリスト - 誰がログ
                                                • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

                                                  ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

                                                    ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
                                                  • はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

                                                    前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

                                                      はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
                                                    • 小説の書き出し以降をAIが自動生成してくれる「AIのべりすと」を使ってみた

                                                      Googleが開発する機械学習に特化した集積回路「TPU」を用いてオープンな研究のブレイクスルーを図るTPU Research Cloudを利用し、日本語最大級の68.7億パラメータ&約500GBのコーパスからフルスクラッチで訓練した小説生成人工知能(AI)が「AIのべりすと」です。「AIのべりすと」は小説の書き出し部分を5~6行入力するだけで、小説を作り上げることができるということで実際にどんな小説が出来上がるのか使ってみました。 AIのべりすと https://ai-novel.com/index.php 使い方は簡単で、トップページにある「最初からはじめる」をクリック。 無題の下にあるテキストボックスにテキストを入力して、「デフォルト AIに好きに書かせます」「セリフ セリフを優先」「ナラティブ 地の文を優先」のいずれかを選んで、「続きの文を書く」をクリック。今回はページを開いた際に

                                                        小説の書き出し以降をAIが自動生成してくれる「AIのべりすと」を使ってみた
                                                      • 「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る

                                                        「研究開発が一部の組織の寡占状態にあることは健全とは思えない」――。 米OpenAI(オープンAI)の「ChatGPT」など大規模言語モデル(LLM)が注目を集める中で、国立情報学研究所所長で京都大学特定教授の黒橋禎夫氏が2023年9月27日、「日経クロステックNEXT 東京 2023」(主催:日経BP、東京国際フォーラム)に登壇し、「OpenAIはもはやオープンではない」とLLM研究の課題を指摘。その上で日本の取り組みを紹介した。 自然言語処理研究は、一貫して機械翻訳向け 黒橋氏は「生成AIの仕組みと社会へのインパクト、データ基盤から知識基盤の時代へ」と題して基調講演を行った。まず自然言語処理の研究の歴史から、ChatGPTをはじめとしたLLMの影響について語った。 自然言語処理の研究はコンピューターの利用が始まった1940年代半ばから始まり、「一貫して機械翻訳がキラーアプリだった」と黒

                                                          「OpenAIはもはやオープンではない」国立情報学研究所・黒橋所長がLLM研究語る
                                                        • 中俣尚己の日本語チャンネル

                                                          日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。

                                                            中俣尚己の日本語チャンネル
                                                          • 【AIのべりすとインタビュー】小説を書くAIをひとりで作った日本人がいるらしい | オモコロ

                                                            「AIのべりすと」とは、小説を生成する人工知能。GPT-3をモデルとした、日本語の自然言語処理プロセッサです。『Tone Sphere』で知られるBit192 LabsのStaさんに、小説生成の仕組みや使い方についてインタビューしました。 自然言語処理AIって何? あの、単純な疑問なのですが「文章を書く人工知能」というのはいったいどうやって作っているんでしょうか? 想像もつかないのですが……。 こういうAIは「自然言語処理AI」といいます。たとえばTwitterで「しゅうまい君」というbotを見たことありませんか? あります! タイムラインを学習して謎のフレーズを言うbotですよね。 会社がお金出してくれるなら飲み会行きます — しゅうまい君 (@shuumai) December 11, 2019 全人類逆いっこく堂化計画 — しゅうまい君 (@shuumai) March 25, 20

                                                              【AIのべりすとインタビュー】小説を書くAIをひとりで作った日本人がいるらしい | オモコロ
                                                            • 英語独習法「語彙は日本語訳で1万語、覚えても文脈の中で使えない」「自由自在に運用できる1,000語のほうが使える」

                                                              岩波新書編集部 @Iwanami_Shinsho 【12月新刊その2/今井むつみ『英語独習法』】英語の達人をめざすなら高い語彙力が不可欠だ。多読や多聴は語彙力向上には向かない。語彙全体で日本語と英語の違いを自分で探究するのが合理的な勉強法だ。オンラインのコーパスや辞書を利用する実践的方法を紹介。 pic.twitter.com/TnT4VOvdWo 2020-12-18 18:00:35 K @k_green_tea 乱暴にまとめると、とにかく語彙と作文、ただし語彙は単語帳みたい日本語訳でパラパラ覚えてはダメ、辞書やコーパスを使って母語話者の認知で覚える、アウトプットは基本文法のライティング。 ということで、単語帳のリストを辞書やコーパスで一語一語調べたおし、瞬間英作文をやっていけば良さそう。 2020-12-20 17:19:19 🇵🇸小倉雄一@船橋政治新聞 💙💛 @oguray

                                                                英語独習法「語彙は日本語訳で1万語、覚えても文脈の中で使えない」「自由自在に運用できる1,000語のほうが使える」
                                                              • Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る|DTMステーション

                                                                株式会社インターネット 代表取締役 村上昇さんインタビュー --Megpoid製品、だいぶ久しぶりになりますが、どうしてこのタイミングでの登場となったのですか? 村上:昨年の秋ごろから、そろそろ出したいなと検討していました。喋りも、歌唱もどちらも進めたいと考えていました。ただ、昨今の技術進化などからさまざまなメーカーが参入し、エンジンも複数あるから、どれにしようか……と思って考えていたのです。そうした中、今年1月にエーアイさんから具体的な提案をいただいたんです。技術的な背景から、実際の工程なども含め、細かく話を詰めていくなか、これがよさそう、となったのです。 株式会社インターネットの代表取締役、村上昇さんにオンラインミーティングの形でインタビューした --トークもソングもとなると、CeVIO AIやSynthesizer V&voicepeakのほうが、スマートな気もしますが……。 村上:

                                                                  Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る|DTMステーション
                                                                • 歌声から伴奏を生成するAI「SingSong」 Googleが技術開発

                                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 Google Researchに所属する研究者らが発表した論文「SingSong: Generating musical accompaniments from singing」は、歌声からその歌に適した伴奏を生成する機械学習モデルを提案した研究報告である。入力した歌声に合わせてインストゥルメンタル音楽(インスト)を生成し、す入力の歌声と生成した楽器を合成した新たな音源を出力る。 SingSongは、音源分離とオーディオ生成の2つのモデルから構成される。まず既存の音源分離アルゴリズムを用い、大規模で多様な音楽コーパスをボーカルと楽器の音源のペアに分離し

                                                                    歌声から伴奏を生成するAI「SingSong」 Googleが技術開発
                                                                  • 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics

                                                                    2023/10/20 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築 ~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NIIエヌアイアイ、所長:黒橋 禎夫、東京都千代田区)は、本年5月から、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が参加するLLM勉強会(LLM-jp)を主宰しています。7月から、計算資源としてデータ活用社会創成プラットフォームmdx*1を活用し、パラメータ数*2130億の大規模言語モデル(LLM)の構築を開始しました。このたび、同LLMの事前学習及びチューニングが終了し、モデルを公開しましたので、お知らせします。 同モデルはLLM研究開発としては初期段階のものであり、モデルの性能を示す評価値はこれ

                                                                      130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics
                                                                    • 【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】

                                                                      TOPニュースTechCrunch【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】 【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】 2022年12月26日 執筆者 Natasha Lomas TechCrunchシニアレポーター。silicon.com(現在はTechRepublicに統合)でビジネス・テクノロジーコーナー、CNET UKでスマートフォンレビューコーナーを担当した後、2012年9月に入社、ヨーロッパを拠点に活動している。フリーランスとしてThe GuardianやBBCなどにも寄稿している。 ChatGPTは自然言語処理(NLP)の技術を使ってより自然で直感的な方法でコンピュータとコミュニケーションが取れるように設計された、新しい

                                                                        【ChatGPT】質問に文章で答えるAI「ChatGPT」は何者?TechCrunch記者が聞いてみた【テッククランチ】
                                                                      • 第6回 LLM 勉強会

                                                                        2023年11月29日(水)に国立情報学研究所にて第6回 LLM 勉強会を開催しました。 プログラム LLM-jp 状況報告(黒橋) [資料] LLMの安全対策サーベイと日本語データ(理研AIP 鈴木久美) [資料] ビジネスのドメインや最新情報に対応した130億パラメータの日本語事前学習モデルの開発(ストックマーク 近江) [資料] 医療における大規模言語モデルの可能性と進歩(東大 小寺) [資料] コーパス構築WG(河原) [資料] モデル構築WG(鈴木) [資料] 評価・チューニングWG(宮尾) [資料] 安全性WG(関根) [資料] 参加者 現地26名・オンライン150名程度

                                                                        • BERTを用いた教師なし文表現 - Retrieva TECH BLOG

                                                                          こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。 背景・概要 手法 要因 実験 NLIタスクによる実験 クラスタリングによる実験 終わりに 背景・概要 自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。 近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル

                                                                            BERTを用いた教師なし文表現 - Retrieva TECH BLOG
                                                                          • 「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ

                                                                            本日、日本デジタル・ヒューマニティーズ学会(JADH)の年次国際学術大会JADH2020が終了しました。リアル開催の予定だったものがバーチャルに途中で変更になり、日程も少し後ろに動かして、それでもなんとかきちんと開催でき、それほど人数は多くないながらも意義のある議論が展開され、相互に認識を深められるとても良い学会になったと思いました。開催を引き受けてくださった大阪大学言語文化研究科の田畑智司先生、ホドシチェク・ボル先生には感謝すること至極です。また、キーノートスピーチを引き受けてくださった東国大学のKim Youngmin先生、IIT インドールのNirmala Menon先生、それから、休日を返上して参加してくださった発表者・参加者の方々のおかげで会も盛り上がりました。大変ありがたく思っております。JADHは、国際デジタル・ヒューマニティーズ連合(Alliance of Digital

                                                                              「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる - digitalnagasakiのブログ
                                                                            • ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog

                                                                              Beatrust の ML Lead の Tatsuya(白川 達也)です。 機械学習はデータからの学習プロセスを経てデータに最適化した機能を提供する技術ですが、新しい機能の導入前の段階ではユーザーの行動ログデータなどが蓄積されていないため、機械学習ベースの機能を新規提供することには本質的な困難さがあります。 本記事は、Beatrust People における Tag Suggestion 機能を例に、そのような状況においてどのように機械学習ベースの機能を構築していったのかを記したものです。 本記事で書いたこと Beatrust における Tag Suggestion 機能の紹介 データがない状況でどうあがいたか 機能改善ポイント(Relevance、Importance、Diversity) 仲間を募集しています! なお、今回の記事は私のほかにもいつも Beatrust を手伝ってくれて

                                                                                ローンチ前の Tag Suggestion 機能を機械学習で作る - Beatrust techBlog
                                                                              • Metaの「LLaMA」データセットを複製し構築、商業利用可能なオープンソース大規模言語モデル「RedPajama」とは - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                                                                Image credit: Together オープンソース AI にラクダ科の動物名をつけ続ける風習は、もう終わったのだろうか。 分散型クラウドとオープンソースモデルの構築に注力するカリフォルニア州メンローパークの企業 Together は17日、RedPajama(そう、Llama Llama Red Pajamaに名前が似ている)を発表した。 「多くの点で、AI は Linux の瞬間を迎えている」と同社はブログ投稿で述べ、Together の共同創業者でスタンフォード大学准教授であり、SambaNova、Snorkel.ai,、Factory の共同創業者の Chris Re 氏が書いた1月の投稿にリンクしている。 RedPajama は、Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research、MILA Québec

                                                                                  Metaの「LLaMA」データセットを複製し構築、商業利用可能なオープンソース大規模言語モデル「RedPajama」とは - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                                                                • ChatGPTから人工知能の軍事的応用を考える; 中国メディア - 黄大仙の blog

                                                                                  人工知能(AI)技術をベースにしたチャットプログラムとして、ChatGPTは登場以来、各方面から広く注目を集めています。ChatGPTは軍事分野にどんな変化をもたらすのか、AIは人間を追い越すのか。 そんな疑問を抱きながら、本記事ではChatGPTを取り上げ、AIの一般的な軍事利用について整理していきます。 中国ニュースサイト新浪新聞に掲載された記事より。 CnatGPTを使いこなす ChatGPTが注目されているのは、人間のフィードバックによってモデルのアルゴリズムを最適化する「RLHF」という新技術を導入し、AIモデルの出力が人間の常識や認知、価値観に収束するようになったからです。 簡単に言えば、ChatGPTはこれまでのAIモデルに比べて「より人間に近い」のです。この「人間らしさ」は、主に自然言語処理、つまり意味解析とテキスト生成の領域で発揮されます。 意味解析に関しては、これまでの

                                                                                    ChatGPTから人工知能の軍事的応用を考える; 中国メディア - 黄大仙の blog