最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日本の自然言語処理界隈では、文分散表現モデルであるBERTの日本語を含む多言語モデルが公開になったばかりなので、日本語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日本語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 本言語資源に関しては、2019年6
SCDVのコードはGithubで公開されている(https://github.com/dheeraj7596/SCDV )ほか、ベンチマークとなるデータセットに対する適用方法がそのままあるので、今回のデータセットを使うにあたっては資産をほとんどそのまま使うことができました。python2だった部分をpython3に対応させるのがちょっと手間でしたが... リポジトリ全体はこちら: fufufukakaka/SCDV python3に対応させて20newsgroupを実行しているのがこちら livedoorニュースコーパスで実験しているのがこちら ノートブック、雑にやってしまったので適宜必要なところはコードを貼っていきながら解説します。 まずはword2vecを学習させる+単語ベクトル空間を可視化 まずはword2vecを学習させていきます。livedoorニュースコーパスはテキストファイル
コーパスと自然言語処理を読みました。 これは記憶の失われを防ぐためのメモです。 概要 どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ 近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそう といいつつこの本には深の話題はほとんど出てこないけど・・・ メモ 第1章 コーパスと自然言語処理 前置き的なやつ 第2章 コーパスアノテーション基準 アノテーション間の互換性は大切 人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式(本文の外に本文の位置とアノテーションを書く) 短単位・長単位 主なコーパス:BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス 第3章 形態素解析・品詞タグ付与・固有表現解析 コーパスっていうより一般的
概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ
はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C
はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ
このホームページの内容の一部または全部を無断で複製、転載することを禁じます。 Copyright © 2020 SANSEIDO publishing co.,ltd. All Rights Reserved.
無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス
English Page 本コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成
Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を
国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月
日本声優統計学会 サークル「日本声優統計学会」の最後の活動として,読んでくださった方々への恩返しの意味を込め, id:repose と id:MagnesiumRibbon で声優統計コーパスを上記ページにて公開しました. 概要 声優統計コーパスは diphone の出現頻度を考慮しながら独自に構築した音素バランス文 その音素バランス文をプロの女性声優 3 名が 3 パターンの感情表現(ニュートラル,喜び,怒り)で読み上げた総長約 2 時間,総ファイルサイズ 720 MB,計900個の音声ファイル の 2 つで構成されています. 音素バランス文については表示 - 継承 4.0 国際 (CC BY-SA 4.0)で公開しています. 音声ファイルについては研究・分析目的でのみ無償で利用可能です. 音素バランス文 音素バランス文は日本語版 Wikipedia の本文データを元に構築しています.
概要 本コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました. 本コーパスには以下のような特徴があります. 施設名へのアノテーション付与 : いわゆる「地名」(市区町村名など)だけではなく,「施設名」(駅名等)に対してもエンティティを付与しています. 一般名詞からなる表現にも付与 : 「特定の場所を著者が想定している」表現というと,すぐに思い浮かぶのは都道府県名・駅名などの固有名詞ですが,上図における「バス停」のように,一般名詞であっても,特定の場所を指し示す表現が存在するため,それらへもアノテーション
コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。 「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。 大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国
はじめに 以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 今回は、ALBERTの日本語事前学習済モデルを公開します。 さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。 事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。
『日本語話し言葉コーパス』は、日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、国立国語研究所・ 情報通信研究機構(旧通信総合研究所)・ 東京工業大学 が共同開発した、質・量ともに世界最高水準の話し言葉データベースです。本コーパスは音声言語情報処理、自然言語処理、 日本語学、言語学、音声学、心理学、社会学、日本語教育、辞書編纂など幅広い領域で利用されています。 2011.11.28『日本語話し言葉コーパス』第3刷の受付を開始しました。(更新:2011/11/28) 2011.02.18在庫がなくなりましたので、一旦受付を中止します。(更新:2011/2/18) 2008.05.02『日本語話し言葉コーパス』第2刷の受付を開始しました(更新:2008/05/02) 2008.03.24報告書『日本語話し言葉コーパスの構築法』がダウンロードできるよ
$Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明
概要 日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ
LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass
オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています.Python による日本語自然言語処理というわけで,NLTKで日本語でコーパスを扱う環境を整えました. NLTKのインストール公式サイトを見ながらインストールする.最新版はNLTK2.0で,オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています.Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが,うまくいかなかったのでパッケージをダウンロードしました. コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします.$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注
投野由紀夫先生のコーパス英語の書籍は他にもいろいろあるし、実用性という点では本書「コーパス100!で英会話|コーパス・フレーズ練習帳」(参照)以外にもお薦めしたい本はある。でも、この本は少し毛色が違い、知的にも面白い。たぶん、英語が苦手な人にとっても英語が得意な人にとっても、へぇと改めて思うところが多いのではないか。高校生も社会人にも興味深い内容だろう。 コーパスというのは、文例を集めたデータベースのことで、自然言語の解析で、実際の言語現象からという方法論をとる際に基点となるものだ。その分、どのようにコーパスを形成するかが難しいとも言えるし、投野先生の専門はそこにあるのではないかと思うが、学問的な部分の著書は見かけないのが少し残念でもある。余談だが、コーパスには屍体という意味もあり、現代英語では解剖学用語の含みがあるが、モーツアルトのアヴェ・ヴェルム・コルプス(Ave verum corp
対訳コーパスとは 対訳コーパスは、オープンソースで公開されているプロダクトの日英対訳を検索できるサービスです。多くのオープンソースプロジェクトは多言語対応されています。しかし、開発者の母語以外の言語に対応するには、その言語の知識が必要になり、開発者のある種の負担になります。こうした、多言語対応の作業をサポートするために作られたのがこのサービスです。 コーパスのデータは、日本のみならず海外でも広く使われており、GPLで公開されているオープンソースCMSのXOOPS2やそのモジュールの言語ファイルを中心に構成されています。翻訳者は、こうした過去の翻訳財産を活用することで、効率的に多言語化の作業を進めることができることでしょう。 日英対訳コーパスAPI 本コーパスの対訳データはJSON APIからも利用できます。 今のところコール数制限はかけていません。 APIやデータの利用は自己責任でお願いし
2007/05/28 「風景」と「光景」の意味や使い方の違いは? そんな疑問に答えるためには、用例辞典が役立つ。しかし、文例が少なかったり具体的な使い分けの方法が分からなかったりといったことも少なくない。こうした問題に役立つのは本物の文例を集めた実例集だ。人々が実際にどのように言葉を使っているのかを、その言語の母語話者が話したり書いたりした文例を集めることで解明する。 そうした文例集は言語学や情報処理の研究者の間では「コーパス」(corpus)と呼ばれている。コーパスを用いれば、例えば「風景」は、ほかの語彙と結びついて「心象風景」「研修風景」「風景鑑賞」などの合成語を作るのに対して、「光景」のほうは、「日常的光景」「歴史的光景」といった「的」を伴う3例をのぞいて合成語をほとんど作らないという違いが、すぐに分かる。 品詞情報や係り受けといった文法情報を付加することで、言語研究や辞書編纂といっ
はじめに 以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 昨今の自然言語処理界?では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています! ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。 そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため
グーグルでコーパス検索!「Google 英文ライティング」 2010-02-17-3 [English][Book] 書店でこんな本を見かけました。 ウェブ全体をコーパスとみなしてウェブ検索を用例検索として活用するという本です。 ■遠田和子 / Google 英文ライティング - 英語がどんどん書けるようになる本 店頭でざっと目を通してみただけなのですが、ダブルクオートで囲ってフレーズ検索したりアスタリスクでワイルドカード検索したりして英作文に役立てるという、7年前の2003年に出た「翻訳に役立つGoogle活用テクニック」と同じようなコンセプトですね。 ■安藤進 / 翻訳に役立つGoogle活用テクニック その「翻訳に役立つGoogle活用テクニック」の読書メモより[2003-11-25-3]: 紹介されているテクニックの一部: - 単数形と複数形が区別されるので可算不可算の判定に。 -
声優統計コーパスというものがある。 日本声優統計学会 プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶 音素バランス文という、音声言語研究では非常になんかいい例文があって、それをプロの声優に読み上げてもらうことで、テキストマイニング、音声研究に役立てようというデータベース。 基本的に利用、解析、ダウンロードは無料で、「同人誌や論文などで利用される場合」となぜか同人誌のほうが論文に先んじて書かれる始末。 声優は女性声優3人が、100の音素バランス文を普通に、喜んで、怒って、の3つの感情パターンで読み上げているため、音声の感情の研究にも使える。 BGM のない、アフレコ音声なので、音声合成などにも使えそうである。 ここで、音素バランス文の構築自体は、別の話なので上のリンクからたぶん関連記事に辿れるとお
INTERNET Watchの記事によれば、 国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる 約1,000万語分を試験公開したそうだ。 公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。2011年の完成時には1億語を越えるデータを目標としている。 検索デモをツンツンとやってみたが、 書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。
はじめに 昨年、Google社から自然言語汎用言語モデル「BERT」が公開(※1)されてから、自然言語処理分野でのさらなる盛り上がりを感じているストックマークの森長です。 ※1) https://github.com/google-research/bert 上記ページでは、BERTの事前学習済モデルやサンプルスクリプトが公開されていますので、気軽にBERTを利用することができ、大変ありがたいです! しかし、日本語で利用してみたい場合、以下のハードルがあります。 Google社から公開されている事前学習済モデルには、日本語専用モデルがなく、104言語で学習されたMultilingual(多言語)モデルを利用しなければならない。 Multilingualモデルは、多言語対応のためかtokenizerがあまり日本語に適しているとは言えず、日本語文をトークン化した場合、トークンが文字単位ぐらいま
京都大学テキストコーパス † 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。 さらに、社説記事を除く約2万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 ↑ ダウンロード † GitHubリポジトリ: https://github.com/ku-nlp/KyotoCorpus 過去のバージョン 京都大学テキストコーパス Version 4.0 (7,990,765 bytes) 形態素・構文情報のタグ付け基準マニュアル 格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル ※ これらの
* Use UTF-8 for character encoding. このページの文字コードはUTF-8を使用しています。 Updated: 2005-04-02 5:44 am 統計解析言語 R で多変量解析を行う ―英語コーパス学会第24回大会ワークショップ付録― 田畑 智司(大阪大学) 0. はじめに Rのダウンロード 日本のミラーサイト(1)筑波大学 Rのインストール Mac OS Xの場合 (群馬大学・青木先生によるインストールガイド) LinuxおよびWindowsの場合(多摩大学・山本義郎先生によるインストールガイド) Rのレファレンス・マニュアル 舟尾暢男氏によるR-tips集。素晴らしい入門書。 R-intro 日本語版(森 厚 氏による日本語訳) Rによる統計処理(上記の青木先生による) 1. データ 注意:以下4点のデータはタブ区切りになっていますので,コピー&ペー
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く