並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 836件

新着順 人気順

コーパスの検索結果281 - 320 件 / 836件

  • 日本語対話コーパス一覧

    日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さんにご協力をいただき、水上 雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

    • ノア・スミス「どうして ChatGPT はひっきりなしにウソを言うの?」(2023年1月31日)

      ぼくは週にだいたい5本の記事を書いてる.すごくがんばれば,たぶん10本書けるだろう.でも,かなうことなら週に100本書けたら最高だ.面白い経済学論文を一つ残らず取り上げたり,世界で起きてるいろんなニュースを片っ端から議論したりできたらいいのにと思う.より多くの自分の考えを世の中に送り出すほど,その分だけしあわせになれる.(ご心配なく,週に100通も通知メールを送ったりなんかしないよ.100本書けるようになったときにはその週のダイジェスト版をまとめてあげよう.) 現実的に考えれば,自分の生産性を大幅に引き上げられそうな方法はひとつしかない.それは,人工知能の支援を利用することだ.GPT-3 みたいな大規模言語モデルのおかげで,いつの日か,ぼくの記事のかなりの割合を GPT みたいなチャットボットが書いてくれるようになるんじゃないかって希望が出てきた.ちょっとしたプロンプトを入力してあげれば,

        ノア・スミス「どうして ChatGPT はひっきりなしにウソを言うの?」(2023年1月31日)
      • コード補完AIのGitHub Copilotは著作権問題に加え「オープンソースコミュニティを破壊する危険性」がある

        2022年6月に一般公開されたコード補完サービスの「GitHub Copilot」は、プログラマーが書きたいコードを「提案」することでソフトウェア開発を高速化すると期待されていますが、著作権で保護されたコードを提案してくるといった問題点も指摘されています。新たにオープンソース開発者で弁護士のマシュー・バターリック氏が、「GitHub Copilotは著作権の問題を引き起こすだけでなく、オープンソースソフトウェアのコミュニティを破壊する危険性がある」と主張しました。 GitHub Copilot investigation · Joseph Saveri Law Firm & Matthew Butterick https://githubcopilotinvestigation.com/ ソフトウェア開発プラットフォームのGitHubを所有するMicrosoftと人工知能開発組織のOpen

          コード補完AIのGitHub Copilotは著作権問題に加え「オープンソースコミュニティを破壊する危険性」がある
        • 第378回NRIメディアフォーラム

          中国AI産業の最新動向及び 日本企業への示唆 第378回NRIメディアフォーラム 2024年8月22日 株式会社野村総合研究所 未来創発センター 戦略企画室 李 智慧 エキスパート 1 Copyright (C) Nomura Research Institute, Ltd. All rights reserved. 序章 米中「ハイテク戦争」の最前線 第1部 イノベーションの主戦場 第1章 現地で見たファーウェイ(華為技術)復活 第2章 世界展開を急ぐバイトダンス(字節跳動) 第3章 急成長するチャイナ生成AI 第2部 ハイテク分野の「鉄のカーテン」とチャイナ・イノベーション 第4章 技術包囲網の突破に挑む中国 第5章 米中が激突する大技術競争時代 第6章 分断されるテクノロジー勢力圏 第3部 デジタル・チャイナの現在地 第7章 デジタル技術を使った社会管理の光と影 第8章 デジタル化が

          • 自然言語文のアノテーションをHackした話 - Qiita

            概要 @enullperです。 YANS2019のアノテーションハッカソンに参加して優勝してきました。 アノテーションといえば地道に一つ一つデータを付与していくイメージがあると思いますが、今回は「アノテーションをハックする」ことをチームのテーマとして如何に効率的に大量の良質なデータを用意するかを考えました。 作業の効率化の結果、以下のことを達成しました。 与えられた生文データ全て(5519件)に擬似ラベル(後述の手法によって自動的に付与されたラベル)を付与 そのうち400文を 2人✖️3時間 で修正 Cross Validation において「全文に擬似ラベルを付与して一部を人手で修正」のデータセットによって訓練されたモデルの性能が「全文に擬似ラベル付与(修正なし)」のデータセットで訓練されたものの性能を上回ることを確認 運営側の用意したテストデータで優勝! アノテーションとは IT用語辞

              自然言語文のアノテーションをHackした話 - Qiita
            • ABEJA GPTモデルにおけるアーキテクチャの工夫 - ABEJA Tech Blog

              1. はじめに 2. 先行研究からの学び 3. 前提 4. アーキテクチャ変更候補 活性化関数の変更 (SwishGLU) Transformer layerの並列化 biasパラメータ除去 Input-Output Embeddingの共有 (Weight tying) 5. 小規模モデルでの実験 実験設定 Transformer layerの並列化 SwishGLUの適用 Bias parameterの除去 bias削除の実験 最初もしくは最後のbiasだけを残す Input-Output Embeddingの共有 (Weight tying) 6. 中規模モデルでの実験 実験設定 モデルサイズでの比較 Shared Input output embeddings (weight tying) Transformer layerの並列化 SwishGLUの適用 7. 13Bパラメーター

                ABEJA GPTモデルにおけるアーキテクチャの工夫 - ABEJA Tech Blog
              • 「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録

                「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。 以下、発表メモを共有します。 発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417 財務・非財務一体型の企業分析に向けて from Takahiro Kubo TISで企業分析に取り組む@icoxfog417さんの発表 TISが公開したデータセットを用いた、Nishikaというプラットフォームで「財務・非財務情報を活用した株主価値予測」コンペ*2も開催中 企業分析の中で、非財務情報の活用は進んでいるとは言いづらい

                  「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録
                • EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ

                  ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択されたEMNLPの論文は682本 (+システム/デモ論文45本) です。 (年々増えています。) 今回は、EMNLP2019の論文から、いくつか気になったものを紹介します。 前回に引き続き、検証系の論文とデータ構築についての論文をメインに扱います。 以降、記載する図表は、明記しない限り、論文から引用しています。 1. ner and pos when nothing is capitalized 2. A Little Annotation does a

                    EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ
                  • Qdrant ベクトル検索エンジン

                    この記事はオープンソースのベクトル検索エンジンQdrant(クワッドラント)の使い方と類似記事検索についての前編になります。 初心者向けにコンセプトの理解を優先し、難しい用語の使用はあえて避けています。 使用するもの Qdrant オープンソースベクトル検索エンジン (Rust実装) GiNZA spaCy ドキュメントのベクトル化 livedoorニュースコーパス ライブドアのニュース記事 (株式会社ロンウィット) Python 3.10 Qdrantとは? オープンソースのRust製ベクトル検索エンジンです。クライアントはPython SDK、REST API、gRPCで接続できます。クラウドサービス版も準備中のようです。 Qdrantを使用したデモサイトもあります。 ベクトル検索エンジンとは? みなさんが思い浮かべる検索エンジンはキーワードを使用して検索するものでしょう。検索ボックス

                      Qdrant ベクトル検索エンジン
                    • 日本の古典和歌を埋め込みベクトルで分析する|yhkondo

                      今年もアドベントの季節が来ました。この記事は、まつーらとしお氏の主催する、アドベントカレンダー「言語学な人々」2023の12月16日のエントリーとして書かれました。今年は、カレンダー増刷で、黒木邦彦氏主催の、別館(言語学なるひとびと)もあります。どちらもご覧下さい。 和歌集の歌風の分析日本の古典和歌集には、それぞれの性格があります。『万葉集』は自然を歌っていて、「素朴」な歌もあるが、『古今集』は、宮中の「優雅」な伝統を反映している、など、言い方はいろいろあり得ますが、それぞれ異なった歌風を持っていることは間違いありません。それを、コンピュータ、特にAIで分析してみるというのがこのエントリーの内容です。日本語学会の機関誌『日本語の研究』19巻3号(2023年12月)に掲載した拙論(「和歌集の歌風の言語的差異の記述ー大規模言語モデルによる分析−」)の解説記事となります(来年6月にはJSTAGE

                        日本の古典和歌を埋め込みベクトルで分析する|yhkondo
                      • 【PyTorch】BERTの使い方 - 日本語pre-trained modelsをfine tuningして分類問題を解く - Qiita

                        【PyTorch】BERTの使い方 - 日本語pre-trained modelsをfine tuningして分類問題を解くPython自然言語処理機械学習PyTorchbert はじめに 自然言語処理の様々なタスクでSOTAを更新しているBERTですが、Google本家がGithubで公開しているものはTensorflowをベースに実装されています。 PyTorch使いの人はPyTorch版を使いたいところですが、PyTorch版は作っていないのでHuggingFaceが作ったやつを使ってね、ただし我々は開発に関与していないので詳しいことは彼らに訊いてね!とQAに書かれています。 HuggingFace製のBERTですが、2019年12月までは日本語のpre-trained modelsがありませんでした。 そのため、英語では気軽に試せたのですが、日本語ではpre-trained mod

                          【PyTorch】BERTの使い方 - 日本語pre-trained modelsをfine tuningして分類問題を解く - Qiita
                        • ログデータと言語モデルを用いた同義語辞書の自動構築 | メルカリエンジニアリング

                          こんにちは、メルカリの検索チームで機械学習エンジニアとしてインターンをしていた塚越駿 ( @hpp_ricecake ) です。インターンでは、メルカリのログデータと言語モデルを用いて同義語辞書を自動構築するというタスクに取り組みました。 メルカリではすでに同義語辞書を用いた検索システムの改善が行われていますが、定期的なアップデートに課題が存在したため、今回は日々自動で蓄積される検索クエリと商品データから自動で辞書を構築できる手法を実装しました。本記事では、その結果についてご紹介いたします。 同義語辞書について 同義語(synonym)とは、ある語に対して、表層的には異なるものの本質的に同じものを表している語のことを表します。検索システムを構築するにあたって、適切な同義語辞書を用いれば検索システムの再現率(recall)を向上させることができるため、質の高い同義語辞書を整備することは非常に

                            ログデータと言語モデルを用いた同義語辞書の自動構築 | メルカリエンジニアリング
                          • 生成AIに関する拙い考察 - にゃんころころ猫だまり

                            書く書く詐欺 まもなく3月も終わろうとしておりますのに、生成AIについてはのちほど・・・と記したっきり、またまた日にちが経ってしまいました。説明に添える画像を生成し始めたら、もう止まらない。アレヤコレヤからドンドン脱線して、関係ないものをトコトン作って、沼に入り浸っておりました。このままですと書く書く詐欺になってしまいそうなので、いったん生成を断って、ご案内させていただきます と、申しましても、たかだか2か月ほどのキャリアでございます。さらに長文になってしまいましたので、テキトーにお読み飛ばしくださいませ Image Creator まずは、画像生成AIツールからご紹介。ワタクシが利用しているのは、MicrosoftのbingのWebサービス「Image Creator」でございます。ChatGPTのOpen AI社が開発した「DALL-E3 」を利用してイメージを生成してくれます 生成A

                              生成AIに関する拙い考察 - にゃんころころ猫だまり
                            • Shinnosuke Takamichi (高道 慎之介) - 東京大学を離れるにあたって

                              博士課程当時,研究職に就くつもりはありませんでした.理由は2つ. 1つは,研究より教育が好きなこと.保育士や塾講師をやっていたこともあり,子どもたちが喜んでくれる職に就きたかったのです.今も,教育のコンテンツとして研究をやっています. もう1つは,単純に研究の才能を持たなかったこと.悲しい.研究をやっていく上では,様々な能力が必要とされます.いわゆる研究活動,広報活動,資金繰り活動あたりですかね.どれをとっても,まあ人並みの域を越えてない自覚がありました. D3当時,博士論文研究を辞めて自由に研究している時期でした.補足すると,D2終了時点で学位取得の見通しができたので,最後の1年は博士論文の研究をせず,自由研究で遊んでいました.で,ゆったり就職活動をやっていました.以下,その履歴です. 学振PD: (書類が面倒で) 出さなかった.結果論で就職できましたが,やっておくべきだった 企業・研究

                              • OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法

                                OpenAIから、かなりすごい音声認識モデル Whisperが発表されました。特出すべき点は、教師付き音声68万時間という、かなりヤバめのデータ量で訓練しており、英語では商用の音声認識システムや人間の書き起こしに匹敵する性能とのことです。 社内でも日本語、ブルガリア語、韓国語で試してみましたが、すごい精度でした。日本語の場合、漢字の間違いが多々ありましたが、発音は大体あってそうでした。ブルガリア語は、ロシア語で認識されていました。韓国語は、完璧でした。 しかし、Githubに公開されたコードを見てみると、訓練コードが含まれておらず、公開の予定もないそうです。そこで、本記事では、Whisperの解説に加えて、Fine Tuningの方法を解説します。 ※ Fine Tungingを何となくで作成しているので、正確なコードではないです。気付いた点がありましたら、コメントください。 全てのコード

                                  OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法
                                • 「機械学習を使って30分で固有表現抽出器を作るチュートリアル」を写経しました - nikkie-ftnextの日記

                                  はじめに わーい、ホッテントリ、わーい!🙌1 nikkieです。 固有表現抽出(NER)タスクをCRF(Conditional Random Fields2)で解く実装の理解を深めたく、チュートリアルで素振りしました。 目次 はじめに 目次 Hironsanによるチュートリアル 素振り成果物 チュートリアルの概要 使うデータ 素性(特徴量)抽出 CRFsuiteを訓練 モデルの評価、結果の再現! 終わりに Hironsanによるチュートリアル 素振りに選んだチュートリアルはこちら。 Hironsan(中山光樹さん)は機械学習やPython本の著者・訳者3であり、doccanoの非常に活動的なコントリビューターとも認識しています。 信頼できる方が過去に書いたチュートリアルであり、Qiita上でいいねやストックが多く(500超え)、CRFでNERを解くというドンピシャな内容だったので、最初に

                                    「機械学習を使って30分で固有表現抽出器を作るチュートリアル」を写経しました - nikkie-ftnextの日記
                                  • 東京オリンピック開始1週間のテレビ番組(主にNHK)雑感 - 誰がログ

                                    はじめに オリンピックが開始してから1週間のNHKの番組がホスト国のメインの放送としてはあまりにもひどいと思ったので簡単に記録しておきます。なお,NHKの番組にずっと張り付いているわけではなく,仕事・家事育児の合間に見ているだけですので私が見ていないところで下記で述べるようなこととは違う放送が十分行われている可能性はあります。また,民放で良い番組が放送されている可能性もあります。 なお,私はスポーツは好きだけど今回の東京オリンピック・パラリンピックには反対という立場ですので,厳しめのバイアスがかかっている可能性はあります。 また始まった直後にこんなことを書きましたので dlit.hatenadiary.com もともと良い印象は持たないまま見ていたということもあります。この時,もうオリンピックについては書かないと書いているのですけれど,さすがにひどさが予想を超えてきたので… ところでなんで

                                      東京オリンピック開始1週間のテレビ番組(主にNHK)雑感 - 誰がログ
                                    • 自然言語理解とそのモデリング - Reproc.pnz

                                      はじめに さいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム( GPT-3 とか)を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成できることがわかってきた今日このごろ、そうしたシステムが本当に「言語理解」なるものを実現しているのかということが焦点です。これは言語理解である、言語理解ではない、そもそも言語理解ってなんやねん……などなど、考えさせられる議論が論文やブログ記事などで展開されています。読んでいても何もわからん……状態になったので、ともかく自分の理解を整理してみようというのがこの記事を書き始めた動機です。 こうした議論から得られる帰結(あるいは教訓)のひとつは、結局は理想的な言語理解なるものを定義しようと試みても決着しないので、具体的にどういった振る舞いがそれに含まれるのか

                                        自然言語理解とそのモデリング - Reproc.pnz
                                      • 情報検索とその周辺 - stop-the-world

                                        これは、情報検索・検索エンジン Advent Calendar 2019 の 1 日目の記事です。 情報検索・検索エンジン Advent Calendar を作った経緯 情報検索、検索エンジン周りのアドベントカレンダー誰か— すずどら (@sz_dr) November 6, 2019 情報検索はまだないんでしたっけ?作るといっぱい書く人いそうですけど— Jun Ohtani (@johtani) November 6, 2019 という流れで @johtani さんから「つくってよ!」と言われて作ったのが、このアドベントカレンダーです。 そういうわけなので、このアドベントカレンダーには、これといったルールや、こういうテーマで書いてほしい、といった要望はありません。そもそも情報検索は非常に学際的な分野ですし。 ただ、なにかしらのガイドラインなりテーマの例はあったほうが参加しやすいだろうと考

                                          情報検索とその周辺 - stop-the-world
                                        • 「AIによる差別」の現状とは?事例、原因、世界各地の取り組みを紹介 | AI専門ニュースメディア AINOW

                                          AIの社会実装が進むにつれて注目されるようになった問題のひとつとして、AIが差別的な判断をくだしてしまう「AIによる差別」があります。 学習する膨大なデータを通して、AIが人間の潜在的な差別の傾向を読み取り、助長してしまうなど、これからもAIが意図せず差別を行ってしまう可能性は否定できません。公平なAIシステムを作るために、議論を積み重ね、時にはルールで制限することも重要です。 こうした問題に対して、人工知能学会倫理委員会が2019年12月10日に『機械学習と公平性に関する声明』を発表し、2020年1月9日には「機械学習と公平性」をテーマにしたシンポジウムを開催するなどの動きも見られます。 以上のような動向をふまえて、今回は「AIによる差別」の事例、その原因、そして世界各地の取り組みについて解説します。あわせて「AIによる差別」に対して講じるべき対策と「信頼できるAI」を普及させるために必

                                            「AIによる差別」の現状とは?事例、原因、世界各地の取り組みを紹介 | AI専門ニュースメディア AINOW
                                          • Metaがコードのコンパイルや最適化を行える商用利用可能な大規模言語モデル「Meta Large Language Model Compiler」をリリース

                                            Metaがコードをコンパイルしつつ最適化するという大規模言語モデル「Meta Large Language Model Compiler」をリリースしました。モデルは商用利用可能で、Hugging Faceにてホストされています。 Meta Large Language Model Compiler: Foundation Models of Compiler Optimization | Research - AI at Meta https://ai.meta.com/research/publications/meta-large-language-model-compiler-foundation-models-of-compiler-optimization/ Today we’re announcing Meta LLM Compiler, a family of models

                                              Metaがコードのコンパイルや最適化を行える商用利用可能な大規模言語モデル「Meta Large Language Model Compiler」をリリース
                                            • 大規模言語モデル(LLM)のエンジン:データセットの解説 - Platinum Data Blog by BrainPad

                                              本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 この記事では、大規模言語モデルのデータセットのソース、収集方法、その信頼性と倫理性、そしてデータのクリーニングと前処理についての詳細を解説します。 近年に公開された大規模言語モデルの年表 *1 こんにちは、アナリティクスサービス部の金です。 今回の話題は、ビジネスや研究における大規模言語モデル(Large Language Models、略してLLM)の根幹を成すデータセットです。データセットの内容と構成は、大規模言語モデルの振る舞いに大きく影響を与えます。 この記事

                                                大規模言語モデル(LLM)のエンジン:データセットの解説 - Platinum Data Blog by BrainPad
                                              • Googleが大規模言語モデル「PaLM 2」を発表、すでに25のGoogleサービスに導入済み

                                                Googleが大規模言語モデル(LLM)「PaLM」の次世代バージョンとなる「PaLM 2」を発表しました。PaLM 2はすでにGoogleのさまざまなサービスに導入されており、チャットAIのBardでもPaLM 2がすでに利用されているとのことです。 Google Japan Blog: Bard が日本語に対応 https://japan.googleblog.com/2023/05/bard.html Google AI PaLM 2 – Google AI https://ai.google/discover/palm2 Google AI: What to know about the PaLM 2 large language model https://blog.google/technology/ai/google-palm-2-ai-large-language-mode

                                                  Googleが大規模言語モデル「PaLM 2」を発表、すでに25のGoogleサービスに導入済み
                                                • 【注意喚起】第三者のQiitaのコピー記事で飯を食っているかもしれないサイトについて... - Qiita

                                                  見つけた タイトルをそのままGoogleで検索したら同じ記事が出てきました。 Qiitaの色んな方の記事タイトルをGoogleで検索したら全く同じタイトルの記事がやや高確率で検索上位に出てきました。 私は怪しいと思ったので、軽く調べることにしました。 そのサイト のんのん技術ブログ 怪しい 別ドメイン(←まぁ本人かもしれんし...) タイトルと記事が全く同じ 投稿記事元のユーザがバラバラ →同一人物が運営しているとは思えない サイト運営者の情報不足 Aboutページ→信頼性がない プライバシーポリシー→なし お問い合わせ→連絡手段なし 広告ばっかり タイトルと記事が全く同じ 左←問題のサイト 右→Qiita プライバシーの保護のため、ぼかしています。 リンクも画像ソースも同じ。 多少デザインを加えていますね。 投稿記事元のユーザがバラバラ どれだけコピーされているか相手の記事の一部を示しま

                                                    【注意喚起】第三者のQiitaのコピー記事で飯を食っているかもしれないサイトについて... - Qiita
                                                  • 英米豪8サイトのWord of the Year 2019総まとめ【英単語で振り返る2019年!】 - 崖っぷち舞台役者が婚活を始めたら英語がペラペラになりました

                                                    こんにちは。 2020年が始まったところですが、皆さん、Word of the Yearというものがあるのをご存知でしょうか。イギリス、アメリカ、オーストラリアなどの辞書サイトや団体が、その年を表す英単語を選ぶものです。 日本でも、今年の漢字というのがありますよね。 それぞれ、検索回数、有識者による選定、一般ユーザーによる投票など、様々な基準により選出されていますが、どれもその1年を代表する英単語が選ばれており、非常に興味深いです。さらに、時事英語と一緒に、英語圏の最新の話題や社会問題を知ることができて、スピーキングやライティングの試験対策にもピッタリなんです! 今回は、英単語で振り返る2019年と題して、英米豪8つのサイト(American Dialect Society, Australian National Dictionary Centre, Cambridge Dictiona

                                                      英米豪8サイトのWord of the Year 2019総まとめ【英単語で振り返る2019年!】 - 崖っぷち舞台役者が婚活を始めたら英語がペラペラになりました
                                                    • 捨ててしまうのはもったいない!BERTの出力を組み合わせて文ベクトルを作るSBERT-WK

                                                      3つの要点 ✔️ BERT の埋め込み表現が各層で異なる情報を捉えていることを実証 ✔️ 各層の情報を統合して文ベクトルを構成する手法を提案 ✔️ 提案手法で主要なタスクでの精度向上を達成 SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word Models written by Bin Wang, C.-C. Jay Kuo (Submitted on 16 Feb 2020 (v1), last revised 1 Jun 2020 (this version, v2)) Comments: Accepted at arXiv Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM) Of

                                                        捨ててしまうのはもったいない!BERTの出力を組み合わせて文ベクトルを作るSBERT-WK
                                                      • ファッション領域における検索ログの特徴分析とカテゴリ分類器作成の可能性 - ZOZO TECH BLOG

                                                        はじめに こんにちは、ZOZO研究所福岡の下所です。 検索チームでWEARの検索ログの解析を行なっているのですが、その中でファッション業界に限らず、多くの言語学者・データ解析者がインターネット上での文字解析、特に新語の理解に苦労していることを知りました。特に日本語のように表現が曖昧で流動的な言語を理解することに多くの労力を要しているように感じました。 例えば読者の皆さんは、「かわぱんつ」というキーワードを見て何を想起されますか?私は「革のパンツ」を思い描きました。しかし、昨今のファッション用語ではこれは「かわいいパンツ」としても通用するのです…! この例のような困難なカテゴリ分類の問題が存在した時に、WEARのファッション用語に的を絞ることで、質の高い組織化を行えるよう研究を行いました。まだまだ課題は多いですが、近い将来、業界の大規模データの活用が簡素かつ高精度の状態で利用できるよう、この

                                                          ファッション領域における検索ログの特徴分析とカテゴリ分類器作成の可能性 - ZOZO TECH BLOG
                                                        • 東工大と産総研、英語の言語理解や対話で高い能力を持つ大規模言語モデル「Swallow」を公開 #SwallowLLM|AICU media

                                                          今回公開したLLMは、英語の言語理解や対話で高い能力を持つ大規模言語モデル・米Meta社「Llama 2」の日本語能力を拡張することで「Swallow」を構築。拡張前の Llama2 のの高い言語処理能力を維持しながら日本語能力を強化するため、言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。今回、パラメータ数が70億パラメータ「7B」、130億パラメータ「13B」、700億パラメータ「70B」であるモデルを公開した。 📢 大規模言語モデル「Swallow」をHugging Face上で公開しました。東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでLlama 2 7B, 13B, 70Bの日本語能力を引き上げました。13Bと70BのオープンなLLMの中で日本語の最高

                                                            東工大と産総研、英語の言語理解や対話で高い能力を持つ大規模言語モデル「Swallow」を公開 #SwallowLLM|AICU media
                                                          • 今週のニュース(8月21日から27日まで) - switch news

                                                            Twitter/Youri 8月も終わりに近づき、すこしずつ暑さもしのぎやすくなってきましたね。 今週もさまざまなニュースがありましたので、さっそくお届けしてまいります。 まずは8月22日に公開した記事です。こちらはなんと、両手足を使って、絵を描いてしまうアーティストについてです。 youtu.be この女性アーティストはオランダの出身で、独学で両手足を使って描く方法を学んだそうです。 switch-news.com 次はとても大きな蛾の話題です。アメリカでは、今まで確認されてこなかった蛾が見つかったそうです。 Washington State Department of Agriculture Ag Briefs しかもこの蛾が非常に大きく、「アトラス蛾」と呼ばれる東南アジア原産の蛾とされ、どのようにアメリカへ入ってきたのか、謎とされています。 switch-news.com 24日には

                                                              今週のニュース(8月21日から27日まで) - switch news
                                                            • RVCのモデルを日本語向けに事前学習する - Qiita

                                                              こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記 続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記 これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習

                                                                RVCのモデルを日本語向けに事前学習する - Qiita
                                                              • 機械学習エンジニアのためのTransformers

                                                                「Hugging Face Transformers」を使った自然言語処理の解説書。2017年の登場以来、Transformerと呼ばれるアーキテクチャを使った大規模なモデルが急速に普及しています。本書では、Hugging Faceの開発者らが、「Hugging Face Transformers」を使って、これらの大規模モデルを学習しスケールする方法をわかりやすく紹介します。テキスト分類、固有表現認識、テキスト生成、要約、質問応答といったタスクだけでなく、蒸留、量子化、枝刈り、ONNX Runtimeといったモデルの高速化技術、ラベル付きデータが少ないときに使えるゼロショット学習や少数事例学習、その他、多言語転移やドメイン適応といった類書では扱っていない技術についても解説しています。 賞賛の声 序文 訳者まえがき まえがき 1章 入門Transformers 1.1 エンコーダ・デコーダ

                                                                  機械学習エンジニアのためのTransformers
                                                                • 単一のAIモデルで200言語を翻訳: 高品質機械翻訳のブレイクスルー

                                                                  Meta AIは、単一のAIモデルとして初めて200の言語を翻訳できるNLLB-200を開発しました。その今までにない品質の高さは、言語ごとの詳細な評価によって実証されています。 また、新たな評価データセットのFLORES-200を開発し、NLLB-200のパフォーマンスを言語ごとに測定して、翻訳品質の高さを確認しています。NLLB-200は、これまでの最高水準のパフォーマンスを平均44%上回っています。 Meta AIは現在、このプロジェクトから得たモデリングの手法や学習成果を活用して、Facebook、Instagram、Wikipediaの翻訳品質を改善し、翻訳対象を拡大しています。 Meta AIでは、他の研究者が自分たちの翻訳ツールを改善したりMeta AIの取り組みを活用したりできるようにするため、NLLB-200モデル、FLORES-200、モデル学習コード、および学習データ

                                                                    単一のAIモデルで200言語を翻訳: 高品質機械翻訳のブレイクスルー
                                                                  • Geminiの技術レポートを読み解く〜生成AIの最前線|Ray | 旅する魔法使い

                                                                    Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。 断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。 どんな生成AIモデル? 定量的な評価は? 具体例は? Gemini - Technical Report はじめに革新的な技術が登場したとき、技術レポートや論文をしっかりと読むことが、急がば回れの近道です。華々しいデモ動画や断片的な二次情報の記事を読んでも、表層的な情報に踊らされて、技術の真の姿を読み解くことはできません。 Geminiに関しては、オープンソースではなく論文もありませんが、技術レポートが公開されています。しかし、60ページの大作であり、英語で書かれているため、多くの人が読むのをためらうでしょう。

                                                                      Geminiの技術レポートを読み解く〜生成AIの最前線|Ray | 旅する魔法使い
                                                                    • AIで生成したプログラムの使用が招くリスク--考えられる法的責任

                                                                      David Gewirtz (Special to ZDNET.com) 翻訳校正: 川村インターナショナル 2023-06-28 07:30 今回も引き続き、AI生成コードを使用することの法的意味を探っていく。米ZDNETの記事へのコメントで、この難問に取り組むきっかけを与えてくれた@pbug5612に心から感謝したい。 このシリーズの最初の記事では、「ChatGPT」などのAIチャットボットによって作成されたコードの所有権に注目した。今回の記事では、法的責任の問題を取り上げる。 機能面での法的責任 この議論の枠組み作りにあたって話を聞いたのが、長年にわたりInternet Press Guildのメンバーを務める弁護士のRichard Santalesa氏だ。テクノロジージャーナリズムのキャリアを持つSantalesa氏は、この問題を法律とテクノロジーの両面から理解している(同氏はSm

                                                                        AIで生成したプログラムの使用が招くリスク--考えられる法的責任
                                                                      • LINEが日本語の大規模汎用言語モデルの構築を推進~LINE AIカンパニートップの砂金信一郎氏とNLPチームを率いる佐藤敏紀氏に訊く、大規模汎用言語モデルがもたらす価値 | gihyo.jp

                                                                        LINE テクノロジー&エンジニアリング大全 LINEが日本語の大規模汎用言語モデルの構築を推進~LINE AIカンパニートップの砂金信一郎氏とNLPチームを率いる佐藤敏紀氏に訊く、大規模汎用言語モデルがもたらす価値 インタビュイー LINE AIカンパニーCEO 砂金信一郎氏(左⁠)⁠、 LINE株式会社NLP Development Team, Engineering Manager 佐藤敏紀氏(右) 日本語に特化した大規模汎用言語モデルとして、LINEで開発を進めているのが「HyperCLOVA」です。文章の作成や要約、人間との自然な対話などを実現するものであり、AIの適用範囲を大きく広げる可能性を秘めた技術だと言えます。このHyperCLOVAの開発背景や具体的な用途、今後の展開などについて、LINEの砂金信一郎氏と佐藤敏紀氏にお話を伺いました。 AIの民主化に寄与する大規模汎用言

                                                                          LINEが日本語の大規模汎用言語モデルの構築を推進~LINE AIカンパニートップの砂金信一郎氏とNLPチームを率いる佐藤敏紀氏に訊く、大規模汎用言語モデルがもたらす価値 | gihyo.jp
                                                                        • 創作に用いられる生成モデル発展の4段階と、ChatGPTに見る現在と今後|piqcy

                                                                          ChatGPTやStable Diffusionを代表として、知性や経験を持つ人間かのように画像やテキストを生成する「生成モデル」が注目されています。Gartnerの2022年のレポートでは、これまで人間が経験や思考に基づき行っていたアウトプットを、それらなしに生成できる破壊的なテクノロジーと定義されています。本記事では、こうした創作に用いられる生成モデルの発展を4段階で定義し、ChatGPTを先端とし現在と今後の在り方を展望します。 創作に用いられる生成モデルの発展段階本記事では、Gartnerが提唱するような人間の創作を模倣する用途で使われる生成モデルについて議論します。人間がアウトプットを行うプロセスを次図のように企画、調査、設計、制作、推敲の5段階で定義します。 制作のプロセスと、生成モデルの対応範囲「制作」から「推敲」に使える生成モデルを1.0、「設計」から「制作」、場合によって

                                                                            創作に用いられる生成モデル発展の4段階と、ChatGPTに見る現在と今後|piqcy
                                                                          • 時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog

                                                                            はじめに こんにちは、DSOC研究開発部の橋本です。最近買ってよかったな、と思ったものは「詰め替えそのまま」です。これはシャンプーやトリートメントの詰め替えをそのままホルダーにかけて使うことができるようになるグッズで、文字通り(比較的安い)詰め替えをそのまま・簡単に使えるようになる点、お風呂の床に詰め替えを置かなくて済むようになる点という2つの点から非常に良いです。気になる人はぜひググって買ってみてください。 詰め替えそのままの話はさておき、今回時間依存性を考慮したword embeddingsの話をします。 時間に依存するword embeddingsの必要性 現在では、word embeddingsはもはや一般的なツールになりつつあると思います。学習済みのword embeddingsを適用して特徴量とし、何かしらの機械学習アルゴリズムにかける、というのもよく行われていると思います。し

                                                                              時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog
                                                                            • 学習効率本の英語部分を大幅に増強しました|ふろむだ@分裂勘違い君劇場

                                                                              『最新研究からわかる 学習効率の高め方』の英語部分を大幅に増強しました。 本書の旧版を購入された方は無料でダウンロードできます。 以下、ご興味のあるところだけ、お読みください。 (1)今回のアップグレードの概要今どき、英文ライティングはDeepLを使ってやるのが普通です。 そんな時代に「DeepLを使わずに英文ライティングするスキル」を身に着けてなんの意味があるのでしょうか? エクセルでデータ集計する時代に、そろばんを習うようなものじゃないでしょうか? 機械通訳ソフトの性能もどんどん上がってきています。 英会話スキルなんてなくても、世界中の人と母語で自由に会話できるのも時間の問題じゃないでしょうか? そんな時代に英会話スキルを身につけて何の意味があるのでしょうか? しかし、そういう時代においてなお必要とされる英語力もあります。 むしろ、そういう時代にこそますます必要とされる英語力もあります

                                                                                学習効率本の英語部分を大幅に増強しました|ふろむだ@分裂勘違い君劇場
                                                                              • 「LLM-jp Toxicity Dataset」の公開

                                                                                日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset 本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。 詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for

                                                                                • 一般財団法人人文情報学研究所(監修)石田友梨/大向一輝/小風綾乃/永崎研宣/宮川 創/渡邉要一郞(編)『人文学のためのテキストデータ構築入門 TEIガイドラインに準拠した取り組みにむけて』(文学通信)

                                                                                  文学通信|多様な情報をつなげ、多くの「問い」を世に生み出す出版社 日本語・日本文学の研究書を中心に、人文学書全般を刊行する出版社、文学通信のブログ。 文学だけにこだわらず周辺領域も含め、意欲的に刊行していきます。 出版活動と同様に、webでも積極的に活動することで、多様な情報をつなげ、多くの「問い」を世に生み出していきたいと思います。 〒113-0022 東京都文京区千駄木2-31-3 サンウッド文京千駄木フラッツ1階101 電話03-5939-9027 FAX03-5939-9094 info@bungaku-report.com インボイス登録番号:T4011501023591 ホーム 一般財団法人人文情報学研究所(監修)石田友梨/大向一輝/小風綾乃/永崎研宣/宮川 創/渡邉要一郞(編)『人文学のためのテキストデータ構築入門 TEIガイドラインに準拠した取り組みにむけて』(文学通信)

                                                                                    一般財団法人人文情報学研究所(監修)石田友梨/大向一輝/小風綾乃/永崎研宣/宮川 創/渡邉要一郞(編)『人文学のためのテキストデータ構築入門 TEIガイドラインに準拠した取り組みにむけて』(文学通信)