並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 815件

新着順 人気順

コーパスとはの検索結果161 - 200 件 / 815件

  • 深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介 - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。今回はICLR2020 の論文を紹介します。 The International Conference on Learning Representations (ICLR) は機械学習の中でも特に深層学習 を専門とした国際会議です。 OpenReview.net によるopen peer reviewを採用しているので、submitされた論文はだれでも閲覧可能です。(ICLR2020 open review) 2020年はエチオピアで開催予定でしたが、COVID-19の影響でvirtual conferenceとなりました。 今回はNLP系の論文について5本紹介します。 すでに日本語ブログ記事で紹介されているような論文もありますが、自分が興味を持った部分を中心としてざっくりと紹介したいと思います。 以降、とくに記載がない場合、図は論文またはブログからの引用で

      深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介 - 株式会社ホクソエムのブログ
    • 公開しているモデル・コーパス・ツール

      LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass

      • ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

        同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。 LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。 研究者は、

          ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge
        • GiNZA version 4.0: 多言語依存構造解析技術への文節APIの統合 - Megagon Labs | リクルート AI研究機関

          Universal Dependenciesのもとで日本語文法に根ざした直感的な統語解析を可能にしたい。GiNZAが目指してきた自然言語処理のゴールにまた一歩近づきました。2020年8月16日にリリースした「GiNZA version 4.0」ですが、日本語の公式サポートが始まったspaCy version 2.3を土台とし、機能と性能を隅々までブラッシュアップしています。これまで以上に日本語の分析が容易になったGiNZA v4の文節APIについて詳しく解説します。 GiNZAでできること NLP(自然言語処理)技術は人が日常的に使う言葉を機械的に分析するための一連の解析処理に用いる技術の総称です。この「一連の解析処理」という部分が非常に重要で、例えば日本語の書き言葉の文であれば、最初に単語を区切ってからそれらを文節にまとめて係り受け関係を解釈する、という流れになります。英語の文の場合、単

            GiNZA version 4.0: 多言語依存構造解析技術への文節APIの統合 - Megagon Labs | リクルート AI研究機関
          • 系列ラベリングによる NPS コメントのポジティブ・ネガティブ部分の抽出 - クックパッド開発者ブログ

            こんにちは。研究開発部の深澤(@fukkaa1225)と申します。 クックパッドでは、顧客のロイヤルティを測る指標であるNPS(ネットプロモータースコア)のアンケートを毎月実施しています。 このNPSアンケートで集まってきたユーザの声(フリーコメント)は、クックパッドにとって大変貴重なものです。しかし、毎月多くの声が届くこともあり、担当者だけで目を通して集計するというのは難しくなってきました。そこで昨年、予め定義したカテゴリにコメントを自動で分類するシステムを構築し、既に稼働させています。 NPSアンケートを自動分類した話 - クックパッド開発者ブログ このシステムによって「いただいたコメントが何を話題にしているか」はある程度自動的に把握できるようになりました。次に課題となったのは、例えば「このコメントはレシピの多さに関するものである。でもその中にはポジティブな部分とネガティブな部分が混じ

              系列ラベリングによる NPS コメントのポジティブ・ネガティブ部分の抽出 - クックパッド開発者ブログ
            • End-to-End音声認識の計算量を削減した話

              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                End-to-End音声認識の計算量を削減した話
              • メルカリにおける機械学習による検索のリランキングへの道のり | メルカリエンジニアリング

                ※本記事は2023年1月1日に公開された記事の翻訳版です。 メルカリのマーケットプレイスにおける商品検索は、お客さまが欲しい物を発見する最も基本的な方法です。この中核となる機能は、テキストマッチングによる情報検索システムによって実現されています。 しかし最近、私たちは自問自答しました。お客さまの検索体験を向上させる、合理的な機械学習ベースのアプローチはあるのだろうか?という疑問が生まれました。メルカリアプリ上のお客さまの行動を、彼らにとってより関連性の高い検索結果についてのヒントとして捉えることはできないでしょうか?学習データにラベルを付け、単体のユーザークリックという行為をもとにした分析の限界を念頭に置きながら、モデルが学習するための、より情報量の多いコンテキストを構築できないでしょうか?ビジネスKPIとの関係を把握するために、どのようにデータラベリングを利用できるでしょうか? それは、

                  メルカリにおける機械学習による検索のリランキングへの道のり | メルカリエンジニアリング
                • LLM のデータセットまとめ|npaka

                  LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

                    LLM のデータセットまとめ|npaka
                  • 世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

                      世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
                    • 安倍晋三会話botを作っています+助言いただきたいです - イカれた男のイカれたブログ

                      不謹慎極まりないですが、安倍晋三氏の発言を学習データとして安倍晋三botなるものを製作しております。題材が安倍晋三氏なのは、発言に大きな特徴がある、国会での発言からそこそこの量のデータを容易に用意できる、国会議事録から簡単に対話コーパスを作成できる、というようにキャラクター対話botという題材に非常に適した存在であるからです。作成途中に痛ましい事件が起こりましたが、人間の欲求は止められねえということで、不道徳の誹りを甘んじて受けることとして、作成を続行しています。 以下に作成過程、作成状況を記載しますので、この分野に詳しい人おられましたら是非助言よろしくお願いいたします。ブログのコメント欄、もしくはメールアドレスとTwitterアカウントも掲載しておきますので、どの媒体でも構いませんのでマジでお願いします。ちなみに私は情報系ではないど素人門外漢なので(専攻は材料とかそっち系)、的外れなこと

                        安倍晋三会話botを作っています+助言いただきたいです - イカれた男のイカれたブログ
                      • Alpaca-loraを日本語タスクでファインチューニングする - Qiita

                        Alpaca-LoRAという家庭用GPUでも大規模言語モデルのFineTuningが可能なモデルが発表されました。 本記事では、livedoorニュースコーパスを使用してAlpaca-LoRAをFineTuningしてニュースのタイトルを考えさせるというタスクに挑戦してみます。 技術の概要 Alpacaとは Alpacaとは、先日Metaが発表したLLaMa 7Bをtext-davinci-003によるself-instructで生成されたデータを使用してFineTuningした言語モデル。 生成したデータは52K個で生成コストは500ドル以下と低コストです。 人間による予備評価では7Bという比較的小さなモデルにも関わらず、text-davinci-003に似た挙動を示すという報告があげられています。 Alpaca-LoRAとは Alpaca-LoRAとはAlpacaで作成したデータセット

                          Alpaca-loraを日本語タスクでファインチューニングする - Qiita
                        • 継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development

                          この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n

                            継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
                          • BARTを用いた新しい固有表現抽出手法の紹介

                            input,output 山田太郎は10月にXX株式会社に入社しました。,山田太郎は人名です。 山田太郎は10月にXX株式会社に入社しました。,10月は時間表現です。 山田太郎は10月にXX株式会社に入社しました。,XX株式会社は組織名です。 山田太郎は10月にXX株式会社に入社しました。,10月にXXは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,入社しましたは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,山田太郎は10月は固有表現ではありません。 加藤部長は昨日つけ麺を食べました。,加藤は人名です。 …… 学習 やっていることはすごく単純で、先ほど作ったデータセットのinputの文を入力としてoutputの文を出力するようにBARTを学習します。 推論 推論するときは全てのスパンでそれぞれテンプレートを埋めてみて、どれが一番しっく

                              BARTを用いた新しい固有表現抽出手法の紹介
                            • ウェイ(18)がビッグデータで導く†最強英会話フレーズ300選† - Qiita

                              英会話してる時に、 「あれ??言いたいことが口から出てこない...やばい」 ってシチュエーション、結構ありませんか? このビッグデータで日常英会話をを分析した「最強英会話フレーズ300選」さえあれば、英語で言いたいことがスラスラ話せる! 最悪、アメリカで一文無しになっても生存できる英語力が手に入るはずです。 きっかけ Chris(日本語二年目)「What the hell. Japanese is really freaking vague!(ふざけんな、この日本語とかいう言語難し過ぎだろw)」 ウェイ「Really?? Why are you confused?(まじ?どこらへんがわからないんだよ)」 Chris「For example, irregular verbs are. What's the difference between Infinitive and Negative.

                                ウェイ(18)がビッグデータで導く†最強英会話フレーズ300選† - Qiita
                              • LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開

                                「japanese-large-lm」は、同社が以前から取り組んでいる日本語の大規模言語モデル「HyperCLOVA」の研究開発プロジェクトと並行して、Massive LM開発ユニットにより開発された。 なお、本モデルのライセンスは、商用利用が可能な「Apache License 2.0」となっている。 同モデルの訓練には、同社独自の大規模日本語Webコーパスが利用され、Web由来のテキスト特有のノイズを除去するために、同社NLPチームのメンバーが開発したOSSの「HojiChar」によるフィルタリング処理が適用されている。また、最終的な学習には約650GBのコーパスが利用されている。加えて本モデルでは、「3D Parallelism」「Activation Checkpointing」などの手法を用い、学習を高速化している。 学習したモデルの性能評価には、Perplexityスコア(PP

                                  LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開
                                • 「めちゃめちゃ」「超」のような俗な強調言葉は、昔もあったのでしょうか - ことばの疑問 - ことば研究館

                                  「めちゃめちゃ」「超」など強調の言葉が便利でつい使ってしまいますが、日本語の歴史のなかでは俗な強調言葉はどんなものがあったのでしょうか。 「めちゃめちゃ」や「超」は、「今日の話めちゃめちゃよかった」「その服超かっこいい」のように、後に形容詞や形容動詞などの状態性を持つ語が来て、その状態の程度の甚だしさを表す程度副詞です。この類には「とても」「非常に」「随分」など様々な語がありますが、「程度の甚だしさ」を表す点では似たような意味を持つため、その使い分けを説明するのは簡単ではありません。渡辺実(『国語意味論』)が挙げたように、「うれしい」などの情意性形容詞との結びつきや、比較構文での用いられやすさ、評価のプラス・マイナスなどの尺度での使い分けが考えられますが、それ以外にも、俗な言い方なのか硬い文章語なのかというような文体的特徴も、各語の役割分担に大きく関わっていると考えられます。 例えば①「去

                                    「めちゃめちゃ」「超」のような俗な強調言葉は、昔もあったのでしょうか - ことばの疑問 - ことば研究館
                                  • サイバーエージェントが手がける日本語LLM開発 MLエンジニアが語る「Weights & Biases」の活用

                                    自社における日本語LLMの開発について発表したのは、株式会社サイバーエージェントの石上亮介氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、開発において得た知見や課題、Weights & Biasesの活用法について話しました。 登壇者の自己紹介とアジェンダの紹介 石上亮介氏:それではサイバーエージェントの石上から、「CyberAgentにおける日本語LLMの開発」というタイトルで発表いたします。 あらためまして自己紹介ですが、私は石上と申します。現在は、サイバーエージェントの基盤モデルプロジェクトのリードを担当しています。 基盤モデルというのは、大規模なAIでさまざまなタスクがこなせるという、いわゆるすごいAIなんですね。今日は特にLLMですね。大規模言語モデルについて、どういう取り組みをしているかをお話しいたします。 サイバーエージェントのLLMの

                                      サイバーエージェントが手がける日本語LLM開発 MLエンジニアが語る「Weights & Biases」の活用
                                    • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                                      前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                        はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                                      • 「AIに感情がある」と錯覚してしまうのは、そもそも脳についてわかっていないから | 「意識」の正体を知らないまま「意識」を語れない

                                        ChatGPTが世界的に大きな話題となっているいま、実際に使ってみた人も多いだろう。そしてAIが台頭するにつれて、一度は誰もが考えたことがあるはずだ──人工知能に感情や人格は生まれ得るのか? 2022年、AI倫理学者のブレイク・レモインが「AIにも感情がある」と主張して、グーグルを解雇されるという事態が起きた。彼の主張を足がかりに、感覚や感情を持つとはどういうことなのかを再考しよう。 ブレイク・レモインというグーグルの社員が、同社のAI言語モデルの1つ「ラムダ(LaMDA)」が有感性(sentient:感覚や感情を感じる能力)を持っていると主張し、休職処分となった後に解雇された。 彼は自身の懸念を公表し、ラムダと交わした対話テキストを公開している。レモインが「あなたにとって『魂』という言葉はどんな意味を持ちますか」と尋ねたとき、ラムダは「私にとって魂とは、意識と生命そのものの背後にある活力

                                          「AIに感情がある」と錯覚してしまうのは、そもそも脳についてわかっていないから | 「意識」の正体を知らないまま「意識」を語れない
                                        • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                                          ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

                                            Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                                          • LEIA: 言語間転移学習でLLMを賢くする新しい方法

                                            Studio Ousiaと理化学研究所に所属している山田育矢です。 この記事では、大規模言語モデル(LLM)の性能を向上させる新しい方法であるLEIA(Lightweight Entity-based Inter-language Adaptation)を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。 この度、英語・日本語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。 ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ

                                              LEIA: 言語間転移学習でLLMを賢くする新しい方法
                                            • 日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

                                              はじめにResearch部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。 近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。 そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。 BART とはBART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基本的に

                                                日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介
                                              • 大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか?

                                                組織には構造化されたデータベースやきれいにフォーマットされたCSVのほか、何気なく書いたメールから複雑な技術マニュアルまでさまざまな形式のデータが大量に保存されています。検索拡張生成(RAG)は大規模言語モデル(LLM)を使用して全てのデータから適切な情報を引き出すための技術ですが、RAGを使用する際にデータの取り込みと前処理をどのように行うと効率的なのかを、RAG向けデータ前処理サービスを展開するUnstructuredが解説しました。 Understanding What Matters for LLM Ingestion and Preprocessing – Unstructured https://unstructured.io/blog/understanding-what-matters-for-llm-ingestion-and-preprocessing LLMを最大限に

                                                  大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか?
                                                • ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium

                                                  この記事は,「情報検索・検索エンジン Advent Calendar 2019」23日目のエントリーです。モノは生煮えですが,背景含めて頑張って説明したいと思うので,ご容赦ください…。 目次 Apache Lucene とはLucene にベクトル検索を実装してみたベクトル検索版 MoreLikeThisUnsolved issues(積み残し)雰囲気だけ知りたいという方は,「ベクトル検索版 MoreLikeThis」 のところだけ眺めると良いかもしれません。 Apache Lucene とは Apache Lucene は,ピュア Java で書かれた,高速・スケーラブルな検索エンジンライブラリです。OSS 検索エンジンとして人気の高い Elasticsearch や Solr のコアエンジンとして使われているため [1],検索システムに携わっている方なら,名前は聞いたことがあるかもしれ

                                                    ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium
                                                  • ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート

                                                    ソフトバンクは10月31日、「国内最大級」(同社)の生成AI開発用計算基盤の稼働を始めたと発表した。新設したAI子会社「SB Intuitions」とともに活用し、2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。 計算基盤は、AI向けスーパーコンピュータ「NVIDIA DGX SuperPOD」と、AIソフトウェアスイート「NVIDIA AI Enterprise」、NVIDIAのネットワーキングで構成された大規模クラスタで、「国内最大級の計算基盤」という。伊藤忠テクノソリューションズの協力を得て構築を進めた。 「ソフトバンクが日本語のデータセットを活用した高品質な国産LLMを開発することで、日本の商習慣や文化に適した生成AIサービスの提供を実現する」としている。 まずソフトバンクとSB Intuitionsで段階的に利用

                                                      ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート
                                                    • 【お知らせ】AIトレンド・トップカンファレンス報告(NeurIPS2019)の無料オンライン公開について – 人工知能学会 (The Japanese Society for Artificial Intelligence)

                                                      AIトレンド・トップカンファレンス報告(NeurIPS2019)の無料オンライン公開について人工知能学会 企画委員会 全体概要 人工知能に関する最新の研究開発動向をお届けすべく、AIトップカンファレンス報告会を継続的に開催してきました。今回、NeurIPS 2019 (Thirty-third Conference on Neural Information Processing Systems、2019年12月8日 – 14日、バンクーバー) にレポータを派遣し、3月に報告会を開催予定でしたが、新型コロナウイルス感染症に関わる事情から、報告会を中止しました。一方、報告内容に関する関心は高く、多数の問い合わせを頂いておりました。この度、3件の講演に関して、オンライン公開の準備が整いましたので、スライド資料と、報告者による音声付きスライド映像を、無料で公開いたします。 公開終了日:6月23日

                                                      • テキストデータのかさましを実装する - 一休.com Developers Blog

                                                        はじめに データサイエンス部の平田です。 ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし(augmentation)を行うことがあります。 画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。 ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。 そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement:文中の単語の内n個、同義語に置き換える Random Insertion:文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand

                                                          テキストデータのかさましを実装する - 一休.com Developers Blog
                                                        • Shinnosuke Takamichi (高道 慎之介) - jvs_corpus

                                                          This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut

                                                            Shinnosuke Takamichi (高道 慎之介) - jvs_corpus
                                                          • トピックモデルを使って問い合わせ内容を分析した話 - Classi開発者ブログ

                                                            この記事はClassi developers Advent Calendar 2021の18日目の記事です。 昨日は基盤インフラチームのめるさんによる「バックエンドエンジニアが基盤インフラチームに異動して半年ほど経った話」でした。 こんにちは、データAI部でデータサイエンティストをしている高木です。 弊社では顧客である先生、生徒、保護者からClassiの機能や契約に関する問い合わせを日々頂いております。 これらの問い合わせの内容を分析し、Classiの現状の課題や今後解決していくための施策などを社内で検討しています。 今回は問い合わせ内容を言語処理技術の一つであるトピックモデルを使って分析した内容についてご紹介します。 なぜ分析する必要があったのか? Classiへの問い合わせやその対応の内容は、担当者によってテキスト化された状態で管理されています。 弊社のカスタマーサポート・カスタマーサ

                                                              トピックモデルを使って問い合わせ内容を分析した話 - Classi開発者ブログ
                                                            • 生TensorFlow七転八倒記(11):TensorFlow周りの最近のアップデートについて - 渋谷駅前で働くデータサイエンティストのブログ

                                                              2年ぐらい前に必要があって生TensorFlowとTensorFlow-Hubによる様々なモデルやフレームワーク並びに事前学習済みモデルの実装を試していたのですが、TF2の浸透に伴いそれらの多くの仕様が変更になっており、中には回らなくなっていたコードもあったので、それらを調べるついでに最近のTF-Hubのアップデートも覗いてきました。ということで、自分向けの備忘録として簡単にまとめておきます。 TensorFlow-Hubの事前学習モデル Estimatorクラス 余談 TensorFlow-Hubの事前学習モデル まず試したのがUniversal Sentence Encoderの多言語版。リンク先を見れば分かるように、16言語(アラビア語・簡体字中国語・繁体字中国語・英語・フランス語・ドイツ語・イタリア語・日本語・韓国語・オランダ語・ポーランド語・ポルトガル語・スペイン語・タイ語・トル

                                                                生TensorFlow七転八倒記(11):TensorFlow周りの最近のアップデートについて - 渋谷駅前で働くデータサイエンティストのブログ
                                                              • ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki

                                                                本記事は,自然言語処理 Advent Calendar 2019 - Qiitaの1日目の記事です. はじめに 今回の記事では,去年末ごろからPythonとCythonだけでチマチマ作った形態素解析器Taiyakiをベースに,形態素解析器の解説をしようかなと思います.この形態素解析器の完成はまだ程遠いんですが,ひとまず簡単な形態素解析はできるようになったのでここでお披露目しておきます.本記事は実質,Double-Arrayの辞書引きと最小コスト法に基づく形態素解析器の解説記事となっています. なぜ今更に形態素解析器を作ったかと問われると困ってしまうのですが,NLPerなら1つぐらい自作しても良いのかなってことと.形態素解析がどう動いているかって意外と知らなかったのが動機です.解説内容間違えてる可能性はあるので,見つけた方はコメント欄でご指摘いただけると嬉しいです. 作っているものは下記リポ

                                                                  ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki
                                                                • 『スーパーマリオ』のステージを生成するAI「MarioGPT」発表。注文どおりに多彩なステージを生成、ほぼすべてクリア可能 - AUTOMATON

                                                                  コペンハーゲンIT大学(IT University of Copenhagen)の研究チームは2月12日、「MarioGPT」の研究論文を公開した。「MarioGPT」とは、大規模言語モデル(LLM)を用いて『スーパーマリオブラザーズ』のステージを生成する試みだという。 Want to create your next game levels through natural language 🗣️🎮? Wait no more, we present: "MarioGPT: Open-Ended Text2Level Generation through Large Language Models". PDF: https://t.co/oZX5Jk1sX9 MarioGPT also predicts the player's path! pic.twitter.com/fMwSlq

                                                                    『スーパーマリオ』のステージを生成するAI「MarioGPT」発表。注文どおりに多彩なステージを生成、ほぼすべてクリア可能 - AUTOMATON
                                                                  • 低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

                                                                    ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現認識を上手くやるための方法だと考えればいい。手法としては言語モデルを事前学習して、それを使って固有表現認識するというもの。時代の異なる2つのデータセットに対して検証したところ、従来手法より良い結果となった。 昔のドイツ語に対する固有表現認識には3つの課題がある。一つはリソースの量が少ない点。現在よく使われているCoNLL 2003のデータセットと比べると、タグの付いたデータ量が少なく、その分難しくなっている。2つ目はテキ

                                                                      低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer
                                                                    • Stability AI、初のオープンソースRLHF LLMチャットボット、StableVicuna をリリース — Stability AI Japan

                                                                      Stability AI、初のオープンソースRLHF LLMチャットボット、StableVicuna をリリース 背景 ここ数ヶ月、チャットボットの開発・リリースが大きく進んでいます。昨年春のCharacter.aiのチャットボットから、11月のChatGPT、12月のBardまで、言語モデルをチャット用にチューニングすることで生まれるユーザー体験が話題になっています。オープンアクセスやオープンソースによる代替品の登場が、この関心をさらに高めています。 オープンソースチャットボットを取り巻く現在の環境 これらのチャットモデルの成功は、命令の微調整と人間のフィードバックによる強化学習(RLHF)という2つのトレーニングパラダイムに起因しています。trlX、trl、DeepSpeed Chat、ColossalAIなど、この種のモデルの学習を支援するオープンソースのフレームワークを構築するため

                                                                        Stability AI、初のオープンソースRLHF LLMチャットボット、StableVicuna をリリース — Stability AI Japan
                                                                      • タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた|DTMステーション

                                                                        ソフトバンクのロボット、Pepperやマツコロイドの声として音声合成エンジンが採用されたり、NTTドコモの音声対話アプリ「しゃべってキャラ」(現在のmy daiz)で採用されるとともに、AHSが発売してきた「VOICEROID」やソースネクストから販売している「かんたん!AITalk」などの音声読み上げソフトを開発してきたのが、2018年にマザーズへの上場を果たした日本の音声合成専門の技術開発会社、株式会社エーアイです。先日「音声合成メーカー自らが個人向けに発売したPCソフト、A.I.VOICEを試してみた」という記事を書いた際、同社にご挨拶で伺ったのですが、お会いした副社長である、廣飯伸一(ひろいしんいち)さんが、私がリクルートで会社員をしていたときの同期・同僚であったことが発覚! 世間は狭いというか、最近こうした偶然のようなことがよくあるのですが、廣飯さんとお会いしたのも20年ぶりくら

                                                                          タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた|DTMステーション
                                                                        • ゲームキャラ1万3000人を調べた結果「男性キャラは女性キャラの2倍セリフが多い」ことが判明

                                                                          スコットランドのグラスゴー大学とイギリスのカーディフ大学の研究者らは、ゲーム上における対話に関する史上最大規模の調査を実施しました。1万3000人以上のゲームキャラクターを集計した結果、「ゲームでは、男性が女性の2倍話している」ということが示されています。 Gender bias in video game dialogue https://royalsocietypublishing.org/doi/10.1098/rsos.221095#d1e902 Largest study of video games reveals male characters say twice as much as female characters https://phys.org/news/2023-05-largest-video-games-reveals-male.html イギリス王立協会オー

                                                                            ゲームキャラ1万3000人を調べた結果「男性キャラは女性キャラの2倍セリフが多い」ことが判明
                                                                          • ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

                                                                            Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日本語のテキストデータにより事前学習が行われました。 一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。 そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。 実際に、ビジネスに関連する知識を問うタスクで

                                                                              ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開
                                                                            • 大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

                                                                              はじめに 以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 昨今の自然言語処理界?では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています! ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。 そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため

                                                                                大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita
                                                                              • 日本語事前学習済みALBERTモデルを公開します

                                                                                2022/04/21 追記 本モデルのスピンオフ的な、トークナイザーを差し替えたものを新たに公開したのでお好みでどうぞ 本題 どうもこんばんは。 今回は掲題の通り、日本語事前学習済みALBERTモデルを公開したので、その過程やらなにやらを紹介します。(ほぼポエム) albert-base-japanese-v1 こちらがそのモデルです。 よければ使ってみてください。 ここから先はわりとどうでもいい話です。 ALBERTって? 詳しい話は論文なり解説記事なり読んでください。 大切なのはこれが「A Lite BERT」のことで、すごく雑に言えば「軽量化されたBERT」ということです。 なぜ事前学習済みモデルを作ったのか 結局のところ「自分がちょうど欲しいくらいの事前学習済みモデルがなかった」から作ったというDIY精神にほかなりません。 今回だと前提として「BERTはいいけどモデルサイズが大きく

                                                                                  日本語事前学習済みALBERTモデルを公開します
                                                                                • 検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG

                                                                                  はじめに こんにちは。検索基盤部の倉澤です。 検索機能におけるtypo(誤字脱字や綴り間違いなど)は難しい問題1とされています。typoの扱い方によってはユーザーに悪い検索体験を提供してしまう恐れがあります。例えば、typoを含む検索クエリを入力された時にユーザーが意図している検索結果を得ることができないといった問題があります。 例に漏れず、ZOZOTOWNでもtypoを含む検索クエリが入力された場合に検索結果が表示されないといった問題が発生しています。以下、「レディース」と入力するつもりが「レデース」と入力してしまった場合の検索結果です。 今回は日本語におけるtypoの一般的な解決策を調査・検証し、その結果・課題点を紹介します。手法の検証が容易であることを優先し、以下の2つの方法について検証しました。 Elasticsearchを用いてtypoを含む検索クエリでも検索結果を得る方法 ユー

                                                                                    検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG