タイトル「コーパスとは」を検索

1 - 40 件 / 284件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスとはの検索結果1 - 40 件 / 284件

258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
- 919 users
- internet.watch.impress.co.jp
- 学び
- 2017/03/06
テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり〜langstatの研究日誌〜
- 452 users
- hatena.blog
- テクノロジー
- 2012/05/04
人生3回目の上京、心細い私を励ましてくれたエンタメたち「実家を出て都会に行く」という意味で、私は人生で3回上京している。まあそのうち1回は東京ではなく関西への旅立ちだったのだが、昔は京は関西にあったし（？）、3回の上京を経験していると言っていいでしょう。数えたところ私は今回が人生で14回目の引っ越しだ。こ…
日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布｜#ホットリンク
- 239 users
- www.hottolink.co.jp
- テクノロジー
- 2019/03/04
最終更新日：2023年6月12日 R&D部の榊です。当社のR&D部では，研究開発上で利用する様々なリソースを部内で共有しています。今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。なので、それについてご説明したいと思います。なお、最近の日本の自然言語処理界隈では、文分散表現モデルであるBERTの日本語を含む多言語モデルが公開になったばかりなので、日本語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。ですが、日本語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。本言語資源に関しては、2019年6
- Word2Vec
- あとで読む
- 自然言語処理
- nlp
- 機械学習
- コーパス
- 日本語
- web
- Corpus
- データ
文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
- 104 users
- qiita.com/fufufukakaka
- テクノロジー
- 2017/11/12
SCDVのコードはGithubで公開されている(https://github.com/dheeraj7596/SCDV )ほか、ベンチマークとなるデータセットに対する適用方法がそのままあるので、今回のデータセットを使うにあたっては資産をほとんどそのまま使うことができました。python2だった部分をpython3に対応させるのがちょっと手間でしたが... リポジトリ全体はこちら: fufufukakaka/SCDV python3に対応させて20newsgroupを実行しているのがこちら livedoorニュースコーパスで実験しているのがこちらノートブック、雑にやってしまったので適宜必要なところはコードを貼っていきながら解説します。まずはword2vecを学習させる+単語ベクトル空間を可視化まずはword2vecを学習させていきます。livedoorニュースコーパスはテキストファイル
「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei
- 89 users
- echizen-tm.hatenablog.com
- テクノロジー
- 2018/01/02
コーパスと自然言語処理を読みました。これは記憶の失われを防ぐためのメモです。概要どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそうといいつつこの本には深の話題はほとんど出てこないけど・・・メモ第1章コーパスと自然言語処理前置き的なやつ第2章コーパスアノテーション基準アノテーション間の互換性は大切人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式（本文の外に本文の位置とアノテーションを書く）短単位・長単位主なコーパス：BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス第3章形態素解析・品詞タグ付与・固有表現解析コーパスっていうより一般的
N-gram コーパス - 日本語ウェブコーパス 2010
- 80 users
- www.s-yata.jp
- 暮らし
- 2010/09/15
概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ
- corpus
- N-gram
- nlp
- コーパス
- 自然言語処理
- dataset
コーパスとは？使い方をわかりやすく解説　無料英語学習最ツール　coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
- 75 users
- www.sunafuki.com
- 学び
- 2022/05/15
はじめにコーパスとは？今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献「英
- 英語
- あとで読む
- 語学
- 言語
- english
- language
大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記
- 65 users
- d.hatena.ne.jp/nokuno
- 暮らし
- 2011/06/21
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ（コーパス）に興味のあるところです。大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記タグ付きコーパス（ツリーバンク）Penn Tree bankWSJ C
コーパス紹介 - コーパス日本語学のための情報館
- 65 users
- w.atwiki.jp
- 暮らし
- 2007/12/14
はじめに現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。主に現代語の研究を想定したものです．書き言葉青空文庫内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。入手方法2:『インターネット図書館　青空文庫』を購入するとＤＶＤ-ＲＯＭ（青空文庫4843作品ほか収録）が付いてきます。関連文章:夷石寿賀子, 千葉庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ
- コーパス
- nlp
- corpus
- 自然言語処理
- 研究
- japanese
- dictionary
- まとめ
- 日本語
- Research
三省堂 Web Dictionary��ことばの世界第13回　Web研究の深化からWeb環境の発展へ　―Yahoo! JAPANが日本語コーパスへデータを提供した理由―
- 64 users
- www.sanseido.biz
- テクノロジー
- 2008/08/08
このホームページの内容の一部または全部を無断で複製、転載することを禁じます。 Copyright © 2020 SANSEIDO publishing co.,ltd. All Rights Reserved.
- typography
- 文字
- 文化
- 常用漢字
- 言語
データベース・コーパス・資料 | 国立国語研究所
- 63 users
- www.ninjal.ac.jp
- おもしろ
- 2011/02/03
データ・資料を探す国語研がウェブ公開しているデータベース、コーパス、データセット等を探すことができます。学術情報リポジトリ国語研の刊行物や学術資料等をウェブ上で保存・公開しています。研究図書室全国で唯一の日本語に関する専門図書室の紹介と利用案内を掲載しています。研究資料室これまでの調査研究で収集・作成した資料 (調査カード、収録音源等) を保存しています。コーパス国語研が公開している主なコーパスについてまとめたウェブサイトです。研究成果・研究データの公開方針研究成果のオープンアクセスや、研究データの管理・保存・利活用に関するポリシー等を掲載しています。
- 日本語
- データベース
- 論文
- database
- Japanese
- Language
- 言語資源
- 言語
- コーパス
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
- 61 users
- qiita.com/nakakq
- テクノロジー
- 2021/09/08
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
Wikipedia日英京都関連文書対訳コーパス
- 57 users
- alaginrc.nict.go.jp
- 暮らし
- 2010/11/15
English Page 本コーパスについて『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。特徴人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。翻訳の過程（一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階）が記録されています。訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成
- nlp
- コーパス
- 自然言語処理
- Corpus
- 英語
- wikipedia
- 辞書
- 京都
- 言語
コーパスを丸呑みしたモデルから言語の何がわかるか
- 54 users
- speakerdeck.com/eumesy
- テクノロジー
- 2025/03/03
国立国語研究所次世代言語科学研究センター開所式及び第1回研究会で用いたスライドです
- 言語
- 自然言語処理
- あとで読む
- AI
- 科学
- math
- 研究
- web
国立国語研究所、1,000万語分の日本語コーパスを試験公開
- 50 users
- internet.watch.impress.co.jp
- 暮らし
- 2007/05/28
Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を
- コーパス
- 自然言語処理
- nlp
- 日本語
- data
- japanese
- corpus
- 面白そう
NII、130億パラメータのLLM構築　コーパスなども全公開　「今後の研究に資するため」
- 50 users
- www.itmedia.co.jp
- テクノロジー
- 2023/10/20
国立情報学研究所（NII）は10月20日、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン（mC4／Wikipedia）、英語は約1450億トークン（The Pile／Wikipedia）、プログラムコード約100億トークン。計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights＆Biasesを利用した。 NIIが主宰するLLM勉強会（LLM-jp）で7月
R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記
- 49 users
- abicky.hatenablog.jp
- テクノロジー
- 2013/06/02
この記事は abicky.net の R による文書分類入門 & KNB コーパスの文書分類に移行しました
- R
- 自然言語処理
- NLP
- 機械学習
- R言語
- 分析
プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶
- 43 users
- repose.hatenadiary.jp
- テクノロジー
- 2017/06/27
日本声優統計学会サークル「日本声優統計学会」の最後の活動として，読んでくださった方々への恩返しの意味を込め， id:repose と id:MagnesiumRibbon で声優統計コーパスを上記ページにて公開しました．概要声優統計コーパスは diphone の出現頻度を考慮しながら独自に構築した音素バランス文その音素バランス文をプロの女性声優 3 名が 3 パターンの感情表現(ニュートラル，喜び，怒り)で読み上げた総長約 2 時間，総ファイルサイズ 720 MB，計900個の音声ファイルの 2 つで構成されています．音素バランス文については表示 - 継承 4.0 国際 (CC BY-SA 4.0)で公開しています．音声ファイルについては研究・分析目的でのみ無償で利用可能です．音素バランス文音素バランス文は日本語版 Wikipedia の本文データを元に構築しています．
- NLP
- audio
- data
- dataset
- あとで読む
大規模日本語ビジネスニュースコーパスを学習したALBERT（MeCab+Sentencepiece利用）モデルの紹介 - Qiita
- 43 users
- qiita.com/mkt3
- テクノロジー
- 2020/02/17
#はじめに以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。今回は、ALBERTの日本語事前学習済モデルを公開します。さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです
- albert
- 自然言語処理
- NLP
- python
- BERT
- qiita
- あとで読む
- 日本語
- 学習
場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)
- 42 users
- www.cl.ecei.tohoku.ac.jp/~matsuda
- テクノロジー
- 2015/05/25
概要本コーパスは，Twitterからランダムにサンプリングしたテキストに現れる，「特定の場所を著者が想定している」と判断できる表現に対して，実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです．GeoNLPなどのジオパーズシステム，エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました．本コーパスには以下のような特徴があります．施設名へのアノテーション付与 : いわゆる「地名」（市区町村名など）だけではなく，「施設名」（駅名等）に対してもエンティティを付与しています．一般名詞からなる表現にも付与 : 「特定の場所を著者が想定している」表現というと，すぐに思い浮かぶのは都道府県名・駅名などの固有名詞ですが，上図における「バス停」のように，一般名詞であっても，特定の場所を指し示す表現が存在するため，それらへもアノテーション
- nlp
- geo
- 位置情報
- gis
- corpus
- twitter
コーパス - Wikipedia
- 42 users
- ja.wikipedia.org
- 学び
- 2007/03/21
コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報（品詞、統語構造など）を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。「身体」を意味するラテン語: corpus に由来する。複数形はラテン語: corpora（コーポラ）。英語式複数形とした英語: corpuses の使用も散見される。大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国
- wikipedia
- corpus
- 自然言語処理
- word
- 文章
- 日本語
- English
日本語話し言葉コーパス
- 41 users
- www.ninjal.ac.jp
- 暮らし
- 2011/11/28
『日本語話し言葉コーパス』は、日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、国立国語研究所・情報通信研究機構（旧通信総合研究所）・東京工業大学が共同開発した、質・量ともに世界最高水準の話し言葉データベースです。本コーパスは音声言語情報処理、自然言語処理、日本語学、言語学、音声学、心理学、社会学、日本語教育、辞書編纂など幅広い領域で利用されています。 2011.11.28『日本語話し言葉コーパス』第３刷の受付を開始しました。(更新：2011/11/28) 2011.02.18在庫がなくなりましたので、一旦受付を中止します。（更新：2011/2/18） 2008.05.02『日本語話し言葉コーパス』第２刷の受付を開始しました(更新：2008/05/02) 2008.03.24報告書『日本語話し言葉コーパスの構築法』がダウンロードできるよ
MeCab: オリジナル辞書/コーパスからのパラメータ推定
- 39 users
- mecab.sourceforge.net
- 世の中
- 2007/05/08
$Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れデータフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備学習用バイナリ辞書の作成 CRF パラメータの学習配布用辞書の作成解析用バイナリ辞書の作成評価それぞれ順に説明
- mecab
- nlp
- 形態素解析
- 自然言語処理
- tech
- dictionary
- mt
- 辞書
日本語係り受けコーパス(JDC)
- 36 users
- hayashibe.jp
- 暮らし
- 2010/12/09
概要日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて，助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビューをお送りする 496 テレクラでいる 6 大気が存続する 1 化量を言う 1 Private と定義する 1 けんぎゅうかが伝来される 2 プロテスタンティズムを生み出す 1 脳内でアップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会が仕事 25 こころというちよ 1 場所から大筒 1 見直しへ訴訟 3 ここ
アイヌ民族が話すアイヌ語で民話を聞くことができるデータベース「アイヌ語口承文芸コーパス」が公開される。 | カラパイア
- 35 users
- karapaia.com
- 学び
- 2016/04/01
この画像を大きなサイズで見る日露戦争後の北海道を舞台に、親友の願いを叶えるため大金を求める元軍人がアイヌ人少女と出会い、アイヌ民族と助け合いながらアイヌの遺した金塊を探し出すという漫画『ゴールデンカムイ』は、2016年のマンガ大賞に輝いた。この漫画の人気を受けてか、アイヌの文化に興味を持つ人が増えたようだ。かく言う私もその1人なのだが、そんな中、国立国語研究所のアンナ・ブガエワ特任准教授と千葉大の中川裕教授らのグループが、ネット上でアイヌ語で民話を読み上げてくれるサイト「アイヌ語口承文芸コーパス」をオープンさせたそうだ。中川裕教授は、漫画、『ゴールデンカムイ』でもアイヌ語監修を務めている。以下のサイトを開き、左側のメニューから作品名（全10編）を選択。センテンスごとに番号が振られているので、番号の下のスピーカーのマークをクリックすることでその音声を聞くことができる。アイヌ語口承文芸
- アイヌ
- 口承文芸
- web
- culture
- social
- history
- お役立ち
NLTKで日本語コーパスを扱う方法 - nokunoの日記
- 35 users
- d.hatena.ne.jp/nokuno
- 暮らし
- 2011/08/21
オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています．Python による日本語自然言語処理というわけで，NLTKで日本語でコーパスを扱う環境を整えました． NLTKのインストール公式サイトを見ながらインストールする．最新版はNLTK2.0で，オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています．Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが，うまくいかなかったのでパッケージをダウンロードしました．コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします．$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注
- NLTK
- python
- 自然言語処理
- nlp
- プログラミング
- 日本語
- devel
世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開／商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
- 34 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/01/20
- AI
- 音声
- 音声認識
- モデル
- 文章
- 日本語
[書評]コーパス100！で英会話|コーパス・フレーズ練習帳（投野由紀夫）: 極東ブログ
- 33 users
- finalvent.cocolog-nifty.com
- 学び
- 2011/07/22
投野由紀夫先生のコーパス英語の書籍は他にもいろいろあるし、実用性という点では本書「コーパス100！で英会話|コーパス・フレーズ練習帳」（参照）以外にもお薦めしたい本はある。でも、この本は少し毛色が違い、知的にも面白い。たぶん、英語が苦手な人にとっても英語が得意な人にとっても、へぇと改めて思うところが多いのではないか。高校生も社会人にも興味深い内容だろう。コーパスというのは、文例を集めたデータベースのことで、自然言語の解析で、実際の言語現象からという方法論をとる際に基点となるものだ。その分、どのようにコーパスを形成するかが難しいとも言えるし、投野先生の専門はそこにあるのではないかと思うが、学問的な部分の著書は見かけないのが少し残念でもある。余談だが、コーパスには屍体という意味もあり、現代英語では解剖学用語の含みがあるが、モーツアルトのアヴェ・ヴェルム・コルプス（Ave verum corp
- english
- 英語
- 語学
- book
日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介
- 31 users
- tech.stockmark.co.jp
- テクノロジー
- 2023/01/24
日本語ビジネスニュースコーパスを学習したBART事前学習済モデルを紹介します。
オープンソース日英対訳コーパス|「あの文言、英語で何て言う？」が分かる英語対応アプリ開発支援サービス
- 31 users
- suin.asia
- 暮らし
- 2011/03/28
対訳コーパスとは対訳コーパスは、オープンソースで公開されているプロダクトの日英対訳を検索できるサービスです。多くのオープンソースプロジェクトは多言語対応されています。しかし、開発者の母語以外の言語に対応するには、その言語の知識が必要になり、開発者のある種の負担になります。こうした、多言語対応の作業をサポートするために作られたのがこのサービスです。コーパスのデータは、日本のみならず海外でも広く使われており、GPLで公開されているオープンソースCMSのXOOPS2やそのモジュールの言語ファイルを中心に構成されています。翻訳者は、こうした過去の翻訳財産を活用することで、効率的に多言語化の作業を進めることができることでしょう。日英対訳コーパスAPI 本コーパスの対訳データはJSON APIからも利用できます。今のところコール数制限はかけていません。 APIやデータの利用は自己責任でお願いし
- translate
- 翻訳
- OSS
- english
- オープンソース
- opensource
- nlp
国立国語研究所が大規模コーパスを試験公開－＠IT
- 29 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2007/05/28
2007/05/28 「風景」と「光景」の意味や使い方の違いは？そんな疑問に答えるためには、用例辞典が役立つ。しかし、文例が少なかったり具体的な使い分けの方法が分からなかったりといったことも少なくない。こうした問題に役立つのは本物の文例を集めた実例集だ。人々が実際にどのように言葉を使っているのかを、その言語の母語話者が話したり書いたりした文例を集めることで解明する。そうした文例集は言語学や情報処理の研究者の間では「コーパス」（corpus）と呼ばれている。コーパスを用いれば、例えば「風景」は、ほかの語彙と結びついて「心象風景」「研修風景」「風景鑑賞」などの合成語を作るのに対して、「光景」のほうは、「日常的光景」「歴史的光景」といった「的」を伴う3例をのぞいて合成語をほとんど作らないという違いが、すぐに分かる。品詞情報や係り受けといった文法情報を付加することで、言語研究や辞書編纂といっ
大規模日本語ビジネスニュースコーパスを学習したXLNet（MeCab+Sentencepiece利用）モデルの紹介 - Qiita
- 29 users
- qiita.com/mkt3
- テクノロジー
- 2019/10/24
はじめに以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。昨今の自然言語処理界？では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています！ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため
- NLP
- qiita
- あとで読む
- techfeed
- GitHub
グーグルでコーパス検索！「Google 英文ライティング」
- 28 users
- chalow.net
- テクノロジー
- 2010/02/17
グーグルでコーパス検索！「Google 英文ライティング」 2010-02-17-3 [English][Book] 書店でこんな本を見かけました。ウェブ全体をコーパスとみなしてウェブ検索を用例検索として活用するという本です。 ■遠田和子 / Google 英文ライティング - 英語がどんどん書けるようになる本店頭でざっと目を通してみただけなのですが、ダブルクオートで囲ってフレーズ検索したりアスタリスクでワイルドカード検索したりして英作文に役立てるという、7年前の2003年に出た「翻訳に役立つGoogle活用テクニック」と同じようなコンセプトですね。 ■安藤進 / 翻訳に役立つGoogle活用テクニックその「翻訳に役立つGoogle活用テクニック」の読書メモより[2003-11-25-3]：紹介されているテクニックの一部： - 単数形と複数形が区別されるので可算不可算の判定に。 -
- english
- google
- 英語
- 翻訳
声優統計コーパスを使ってみる - 驚異のアニヲタ社会復帰の予備
- 26 users
- mikuhatsune.hatenadiary.com
- テクノロジー
- 2017/06/27
声優統計コーパスというものがある。日本声優統計学会プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶音素バランス文という、音声言語研究では非常になんかいい例文があって、それをプロの声優に読み上げてもらうことで、テキストマイニング、音声研究に役立てようというデータベース。基本的に利用、解析、ダウンロードは無料で、「同人誌や論文などで利用される場合」となぜか同人誌のほうが論文に先んじて書かれる始末。声優は女性声優3人が、100の音素バランス文を普通に、喜んで、怒って、の3つの感情パターンで読み上げているため、音声の感情の研究にも使える。 BGM のない、アフレコ音声なので、音声合成などにも使えそうである。ここで、音素バランス文の構築自体は、別の話なので上のリンクからたぶん関連記事に辿れるとお
- BGM
- 声優
- あとで読む
- 話題
1,000万語分の日本語書き言葉均衡コーパス公開 | スラド
- 26 users
- srad.jp
- 暮らし
- 2007/05/29
INTERNET Watchの記事によれば、国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる約1,000万語分を試験公開したそうだ。公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。2011年の完成時には1億語を越えるデータを目標としている。検索デモをツンツンとやってみたが、書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。
- japanese
- search
- 検索
アイヌ語口承文芸コーパスー音声・グロス付き－
- 25 users
- ainucorpus.ninjal.ac.jp
- テクノロジー
- 2016/03/30
- アイヌ
- アイヌ語
- 民族
- Archive
- 文学
- data
- 文化
- webサービス
大規模日本語ビジネスニュースコーパスを学習したBERT事前学習済（MeCab利用）モデルの紹介 - Qiita
- 25 users
- qiita.com/mkt3
- テクノロジー
- 2019/04/08
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #はじめに昨年、Google社から自然言語汎用言語モデル「BERT」が公開(※1)されてから、自然言語処理分野でのさらなる盛り上がりを感じているストックマークの森長です。 ※1) https://github.com/google-research/bert 上記ページでは、BERTの事前学習済モデルやサンプルスクリプトが公開されていますので、気軽にBERTを利用することができ、大変ありがたいです！しかし、日本語で利用してみたい場合、以下のハードルがあります。 Google社から公開されている事前学習済モデルには、日本語専用モデルが
コーパス日本語学のための情報館
- 24 users
- w.atwiki.jp
- テクノロジー
- 2007/07/18
サイト移転しました。 http://jhlee.sakura.ne.jp/ から御覧ください。お知らせサイト移転しました。 http://jhlee.sakura.ne.jp/ から御覧ください。
- コーパス
- japanese
- Corpus
- Linguistics
- software
京都大学テキストコーパス - LANGUAGE MEDIA PROCESSING LAB
- 23 users
- nlp.ist.i.kyoto-u.ac.jp
- テクノロジー
- 2011/04/26
京都大学テキストコーパス † 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。さらに、社説記事を除く約2万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 ↑ ダウンロード † GitHubリポジトリ: https://github.com/ku-nlp/KyotoCorpus 過去のバージョン京都大学テキストコーパス Version 4.0 (7,990,765 bytes) 形態素・構文情報のタグ付け基準マニュアル格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル ※ これらの
コーパス言語学のための多変量解析入門:統計解析言語 R で多変量解析を行う
- 22 users
- www.lang.osaka-u.ac.jp/~tabata
- テクノロジー
- 2006/01/21
* Use UTF-8 for character encoding.　このページの文字コードはUTF-8を使用しています。　Updated: 2005-04-02 5:44 am 統計解析言語 R で多変量解析を行う ―英語コーパス学会第24回大会ワークショップ付録― 田畑智司（大阪大学） 0. はじめに Rのダウンロード日本のミラーサイト(1)筑波大学 Rのインストール Mac OS Xの場合（群馬大学・青木先生によるインストールガイド） LinuxおよびWindowsの場合（多摩大学・山本義郎先生によるインストールガイド） Rのレファレンス・マニュアル舟尾暢男氏によるR-tips集。素晴らしい入門書。 R-intro 日本語版（森　厚氏による日本語訳） Rによる統計処理（上記の青木先生による） 1.　データ注意：以下4点のデータはタブ区切りになっていますので，コピー&ペー
- 統計解析
- R
- 統計
- nlp
- programming