並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 36 件 / 36件

新着順 人気順

コーパスとはの検索結果1 - 36 件 / 36件

  • コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ

    はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英

      コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
    • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

      無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

        無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
      • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

        国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

          NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
        • 大規模日本語ビジネスニュースコーパスを学習したALBERT(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

          はじめに 以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 今回は、ALBERTの日本語事前学習済モデルを公開します。 さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。 事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。

            大規模日本語ビジネスニュースコーパスを学習したALBERT(MeCab+Sentencepiece利用)モデルの紹介 - Qiita
          • 公開しているモデル・コーパス・ツール

            LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass

            • 世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

                世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
              • 日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

                はじめにResearch部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。 近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。 そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。 BART とはBART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基本的に

                  日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介
                • 大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

                  はじめに 以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 昨今の自然言語処理界?では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています! ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。 そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため

                    大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita
                  • 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

                    『第6回 Data-Centric AI勉強会』(2024年2月9日)にて発表 https://dcai-jp.connpass.com/event/307402/ 東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

                      東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
                    • 現代日本語書き言葉均衡コーパス検索システム (BCCWJ):Version 1.1

                      • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita

                        はじめに 以前、日本語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。 前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。 そこで、今回はBERTに続いて、ELMoの日本語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。 自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。 例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。 あのキャラクターは人気がある。 この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル

                          大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita
                        • 日本語対話コーパス一覧

                          日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さんにご協力をいただき、水上雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

                          • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの利用方法と精度比較検証 - Qiita

                            こんにちは、ストックマークの kaerururu (@kaeru_nantoka) です。 今回は、 1 ) 弊社の森長がビジネスドメインのニュース記事で学習し、先日ご紹介した 事前学習済みELMo を Google Colaboratory 上で動かす方法のご紹介 2 ) 単語単位埋め込みモデルと文字単位・単語単位埋め込みモデル、両モデルの精度比較検証 について書いていきます。 精度比較検証のソースコードは私の GitHub リポジトリ に置いておりますので、よろしければご覧ください。 目次 ELMo とは ELMo を Google Colaboratory で使う 単語単位埋め込みモデルと文字単位・単語単位埋め込みモデル、両モデルの精度比較検証 まとめ 1. ELMo とは 森長の こちらの記事 をご参照ください。 2. ELMo を Google Colaboratory で使う

                              大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの利用方法と精度比較検証 - Qiita
                            • 「コーパス」とは?自然言語を扱うAIのカラクリ

                              今では当たり前のように言葉を扱う人工知能(AI)ですが、その道程は決して平坦なものではありませんでした。また、クイズで人間に勝ったことで知られるIBMの「Watson(ワトソン)」のように、人間の言葉を理解しているように見えるAIも存在しますが、その実態はどのようなものなのでしょうか。自然言語を操るAIについて、基本的なところを解説しましょう。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執

                                「コーパス」とは?自然言語を扱うAIのカラクリ
                              • 日本語日常会話コーパス | 大規模日常会話コーパスに基づく話し言葉の多角的研究

                                オンライン検索システム『中納言』(無償・要申請) 形態論情報(短単位・長単位)での検索と文字列検索ができます。検索箇所の音声は視聴できますがダウンロードはできません。また映像の視聴・ダウンロードはできません。 以下にアクセスして登録してください。 有償版(要契約) 利用契約を結んだ上で音声・映像・転記・各種アノテーション・ツール・メタ情報等がご利用いただけます。 契約の詳細は以下をご覧ください。

                                • Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog

                                  ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。 データセットの概要 Common Crawlについて warcとwet データセット作成方針 前処理の流れ 1. 日本語の簡易判定、w

                                    Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog
                                  • GitHub - hottolink/hottoSNS-bert: hottoSNS-BERT: 大規模SNSコーパスによる文分散表現モデル

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - hottolink/hottoSNS-bert: hottoSNS-BERT: 大規模SNSコーパスによる文分散表現モデル
                                    • つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠) | つくよみちゃん公式サイト

                                      ✨つくよみちゃんコーパス公開!✨ ■Vol.1 声優統計コーパス(JVSコーパス準拠) ⇒https://t.co/tfqAFxQEds 高音ウィスパー系の14歳前後のアニメキャラクター風ボイスを目指して作りました。 一部の言葉にふりがなやアクセント記号を追加した台本も同梱しています。(詳しい説明もあります) pic.twitter.com/VtJ6ji2Qu3 — つくよみちゃん®【フリー素材キャラクター】 (@TYC_Project) February 26, 2021 ■マルチクリエイター・夢前黎(Rei Yumesaki)がプロデュースするフリー素材キャラクター「つくよみちゃん」(CV.夢前黎)の公式音声コーパスです。 ■高音ウィスパー系の14歳前後のアニメキャラクター風ボイスを目指して作りました。音声合成による「キャラ声」「アニメ声」の再現を目指している方向けの素材です。 ■個人

                                        つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠) | つくよみちゃん公式サイト
                                      • GitHub - 1never/open2ch-dialogue-corpus: おーぷん2ちゃんねるをクロールして作成した対話コーパス

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - 1never/open2ch-dialogue-corpus: おーぷん2ちゃんねるをクロールして作成した対話コーパス
                                        • 自作ウェブアプリを使って自分でJVS/声優統計コーパスの読み上げを録音した話

                                          概要 以下の記事で「簡単に原稿を読み上げて録音できるウェブアプリケーションをStreamlitで作った」というツールの紹介をしました。 ソフトウェア開発界隈ではEat your Own Dog foodという言葉があるように、作ったからには自分で試してみないとねということで、私も自分の声の音声データを作成してみました。この記事では、自作の原稿読み上げウェブアプリケーションを自分で利用しながら感じた使用感や、音声データ収集の難しさについて雑多に書いてみようと思います。 読み上げ対象 今回はJVSコーパスにおけるvoiceactress100を読み上げました。これは声優統計コーパスが作成した音素バランス文100文に対して、句読点情報が付与されたものです(参考)。また、読み上げ時にはルビ情報が付加された以下のサイトに掲載されているテキストを利用しました。 読み仮名(ルビ)つき声優統計コーパス音素

                                            自作ウェブアプリを使って自分でJVS/声優統計コーパスの読み上げを録音した話
                                          • GitHub - mmorise/ita-corpus: ITAコーパスの文章リスト

                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                              GitHub - mmorise/ita-corpus: ITAコーパスの文章リスト
                                            • プロ話者 (声優・俳優など) 100 名から得られたコーパスである JVS (Japanese versatile speech) corpus が東大の高道助教によって公開されました - 糞糞糞ネット弁慶

                                              音声合成研究のために,コーパスをリリースしました.100名のプロ話者(声優・俳優)× 100発話(パラレル)を含んでいます.今すぐダウンロードできます!!https://t.co/FJXrl3owrX https://t.co/qGuUCSqIyA— Shinnosuke Takamichi (高道 慎之介) (@forthshinji) August 17, 2019 Shinnosuke Takamichi (高道 慎之介) - jvs_corpus このブログを読んでいる人間は全員知っているとは思いますが,東京大学の高道助教によって JVS (Japanese versatile speech) corpus が公開されました. JVS corpus は 100名のプロ話者から得られた様々な音声が含まれていますが,特に "parallel100" ... 話者間で共通する読み上げ音声

                                                プロ話者 (声優・俳優など) 100 名から得られたコーパスである JVS (Japanese versatile speech) corpus が東大の高道助教によって公開されました - 糞糞糞ネット弁慶
                                              • NDLラボ、振り仮名のデータセット「振り仮名注釈コーパス」(2種類)を公開

                                                2021年9月21日、国立国会図書館(NDL)のNDLラボが、振り仮名のデータセット「振り仮名注釈コーパス」2種類をGitHubで公開しました。 日本語のテキストを分かち書きにした上で、分割した箇所に振り仮名を付与したもので、青空文庫の公開作品のテキストデータに対し、視覚障害者情報総合ネットワーク「サピエ」が視覚障害者に提供している点字データに由来する振り仮名を付与して作成したものと、国立国会図書館が提供する書誌データを元に作成したものの2種類を公開したものです。 振り仮名注釈コーパスの公開について(NDLラボ, 2021/9/21) https://lab.ndl.go.jp/news/2021/2021-09-21/ 青空文庫及びサピエの点字データから作成した振り仮名のデータセット(GitHub) https://github.com/ndl-lab/huriganacorpus-ao

                                                  NDLラボ、振り仮名のデータセット「振り仮名注釈コーパス」(2種類)を公開
                                                • 声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨 - 糞糞糞ネット弁慶

                                                  声優統計コーパスの音素バランス文,および音声データについて告知します. 告知 今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスの voiceactress100 (以降, voiceactress100 と呼びます) の使用を推奨します. 声優統計コーパスのバランス文と voiceactress100 は一部の単語が異なっており,完全な互換性がありません voiceactress100 は声優統計コーパスバランス文を音声処理の研究者が洗練したものです 声優統計コーパスの一部の読みはバランス文と一致していません.また,アクセントや句読点位置も統一されていません 上記の理由により,今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく voiceactress100 の使用を推奨し

                                                    声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨 - 糞糞糞ネット弁慶
                                                  • 日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog

                                                    こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Speech Recognition (Kim et al., 2023)*1という論文で、音声認識タスクで高い性能を発揮するE-Branchformerという新しい深層学習モデルが提案されました。論文中では英語の音声コーパスを用いて音声認識精度が評価されていますが、日本語についての評価は行われていません。 End-to-end音声処理ツールキットESPnetのversion 202301からこのE-Branchformerが利

                                                      日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog
                                                    • 概要 現代日本語書き言葉均衡コーパス(BCCWJ)

                                                      ホーム 現代日本語書き言葉均衡コーパス(BCCWJ) 概要 概要 Introduction to BCCWJ 『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。 すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さらに文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。 『現代日本語書き言葉均衡コーパス』はオンライン版(無償:少納言・中納言での公開)およびオフライン版(有償)にて計三通りの方法で公開しています

                                                      • LLM 向け日本語データセット(コーパス)の整備メモ

                                                        背景 LLM 向けに日本語データセット(日本語コーパス)を用意したい. 最近の主流(?)は web からテキスト取得(主には cc100ja など, Commoncrawl(web をクロールしてアーカイブしているもの)を利用しているもの)であるが, ただそのままだと無駄なテキストがあるので(e.g. "月を選択 2022年11月 2022年10月 2022年9月 2022年8月 2022年7月 2022年6月 2022年5月 2022年4月 ... " とか), あと文章が途中で切れたりほかの文章と混在していたり(div タグレイアウトが原因であろうか)などで, クリーニングが必須となっている. クリーニングして一定の品質を保っていれば, あとは end-to-end にテキストデータを LLM に与えて学習させればいい感じになる... はず. 手っ取り早くやる とりあえず OSCAR

                                                          LLM 向け日本語データセット(コーパス)の整備メモ
                                                        • GitHub - megagonlabs/asdc: Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - megagonlabs/asdc: Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
                                                          • プログラミング英語コーパス検索 | プログラミング英語検定

                                                            実際に使われている英語サンプルを検索できます。使い方などの詳細はこちらをご覧ください。 検索対象とテキストを入力 ※ アルファベットの大文字と小文字は区別します。

                                                              プログラミング英語コーパス検索 | プログラミング英語検定
                                                            • NAIST 誤用コーパス - Qiita

                                                              このうち、「対訳作文 DB」について、誤りタイプの情報を XML 形式で付与したものが NAIST 誤用コーパスになります。「対訳作文 DB」は国立国語研究所で収集・公開されているデータベースで、さまざまな国・地域の日本語学習者の書いた課題作文に対する手書き原稿に対して、一部に添削情報が付与されています。この添削情報には誤りタイプが付与されていないので、それに誤りタイプを付与した、というものです。 日本語学習者コーパスに対する文法誤りのタイプは、上記の中でも寺村誤用例集データベースや日本語学習者作文コーパス、国際日本語学習者作文コーパスおよび「なたね」には付与されているのですが、寺村誤用例集データベースには誤用に対する正用例がアノテートされていないので、誤り検出の評価には使えるものの誤り訂正の評価には使えませんし、日本語学習者作文コーパスは正用例がアノテートされているものの「文法」「文字」

                                                                NAIST 誤用コーパス - Qiita
                                                              • J-FIG 日本語レトリックコーパス

                                                                日本語レトリックコーパス(The Corpus of Japanese Figurative Language: J-FIG)は、典拠のある日本語のテクストから抽出され、言語学、および修辞学を背景とした分析の情報が付与されているレトリックの用例を、ウェブで容易に参照することができる言語コーパスです。 文献として引用する際は、以下の論文をご参照ください。(参考:データ利用ガイドライン) Komatsubara, Tetsuta. 2021. The Corpus of Japanese Figurative Language: Toward a comprehensive framework for describing figurative language. Journal of Intercultural Studies 55: 107-134. Graduate School of

                                                                • TV録画から自動構築した音声コーパス『 LaboroTVSpeech 』を開発&公開

                                                                  TV録画から自動構築した音声コーパス『 LaboroTVSpeech 』を開発&公開日本語音声コーパスとして最大規模 2,000時間の音声データから構成 株式会社Laboro.AIは、ワンセグTV録画から抽出した約2,000時間の音声データから構成される音声コーパス『LaboroTVSpeech』を開発し、学術研究用に無償公開いたしました。 <今回のポイント> ✔︎ 日本語音声コーパスとしては最大規模の約2,000時間のデータ ✔︎ TV番組に含まれる音声と字幕データから、音声コーパスを自動構築するシステムを開発 ✔︎ 既存の音声コーパスより優れた誤認識率を達成し、商用の音声認識APIにも匹敵する精度を確認 オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CE

                                                                    TV録画から自動構築した音声コーパス『 LaboroTVSpeech 』を開発&公開
                                                                  • 7月13日 コーパスクリスティ旅行計画 - ZigZagDog’s diary

                                                                    水族館でイルカもポーズを取ってくれました。 みなさま、ご無沙汰しています。 一ヶ月近くもブログから離れてしまっていました。 コメントにメッセージなども頂いてありがとうございました。ご心配をおかけしましたが、元気です。 息子の学校の学年カレンダーを入手したので、そして、もうすぐ母と甥っ子が日本からやってくるので旅行の計画を立てたり、知り合いの旅行に合わせて空港の送り迎えなど諸用が増え落ち着いて座る時間から遠のいていました。とは言え、うたた寝💤は欠かさなかったので、ブログに向き合えなかったのは、ぐうたらしていたせいでも有ります。 本当は書きたい事があるのですが、それを書こうかどうしようか迷い中、頭の中だけが忙しくなって結論が出なくて一ヶ月も経ってしまいました。これは少し寝かせてから書こうと思います。他にも毎日書きたいことが浮かんではいましたが、書かないでいると忘れてしまいますね、またぼちぼち

                                                                      7月13日 コーパスクリスティ旅行計画 - ZigZagDog’s diary
                                                                    • 大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG

                                                                      どうもこんにちは!新型コロナウイルスの影響で卒業式が中止になった、2020年新卒入社予定の山口です。 今回はGoogle Cloud Speech-to-Text API(以下GST)を大規模コーパスで精度検証した結果と、GSTアップデートの検証内容について共有していけたらと思います。 大規模コーパスでGSTの精度検証を行う JVS (Japanese versatile speech) corpusについて 精度検証について 認識精度の比較 音量ごとによる精度の比較 アップデート検証 話者識別 句読点 2つを同時に試してみると まとめ JVS (Japanese versatile speech) corpus ライセンス表記 過去のGSTに関する記事もどうぞ tech-blog.optim.co.jp tech-blog.optim.co.jp 大規模コーパスでGSTの精度検証を行う

                                                                        大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG
                                                                      • Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

                                                                        0. はじめに こんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。 今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。 1. 開発環境 AWS EC2 (インスタンスタイプ: r5.8xlarge) Python 3.10系 2. Pythonパッケージ transformers scikit-learn 3. 広告文の準重複問題 テキスト広告では、キャッチコピーや宣伝文を少しだけ修正して複数回配信し、その効果を測定することがよくあります。また、シリーズ商品の説明文を同じテンプレートに従って大量に作成することも一般的です。 それゆえに、広告文を収集してテキストコーパスを作ると、準重複サンプル、つまり完全には重複

                                                                          Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除
                                                                        • 【自然言語処理】フリーで使える大規模な日本語テキストコーパス

                                                                            【自然言語処理】フリーで使える大規模な日本語テキストコーパス
                                                                          1