タグ

コーパスに関するum-mttのブックマーク (4)

  • コーパスリスト - 音声資源コンソーシアム

    音声コーパスリスト →音声コーパスを用いた研究成果一覧 (※DSC Reference Portal のサイトに飛びます) 無償コーパス ※当面は配布手数料(郵送料等)も無料とします 重点領域研究「音声言語」・試験研究「音声DB」 連続音声データベース (PASL-DSR) 筑波大 多言語音声コーパス (UT-ML) 東北大‐松下 単語音声データベース (TMW) 基盤研究(A)「日語方言の地域差」方言音声コーパス (GSR-JD) RWCP 音声データベース 音声対話データベース - 96年版 (RWCP-SP96) 音声対話データベース - 97年版 (RWCP-SP97) 検索・要約用ニュース音声データベース (RWCP-SP99) 会議音声データベース (RWCP-SP01) RWCP 実環境音声・音響データベース (RWCP-SSD) 重点領域研究「音声対話」 対話音声コーパス

  • Catalogue of Language Resources and Tools in Japan

    [形態素解析器] [パーザ] [アノテーション支援] [可視化ツール] [検索ツール] [機械学習] [ツール(その他)] 新聞記事 毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 知的障害者向け新聞『ステージ』テキストデータ 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 ED

  • 日本語ウェブコーパス 2010

    概要 コーパスの HTML アーカイブは,ipadic-2.7.0 の見出し語をシードとして,かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです.テキストの抽出においては,文字コードを UTF-8 に統一した後,いくつかの記号をデリミタとして文への分割をおこない,さらに文を構成する文字の種類や数によるフィルタリングを施しています.N-gram コーパスについては,テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています. コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です. 謝辞 コーパスの作成においては,様々なウェブサービス,ツール,コーパスを利用させていただきました.開発者・研究者の皆様に感謝いたします. コーパスの作成・保存・配布には Amazon Web Serv

  • コーパス日本語学の情報館

    information 2021.2.20:情報が古いこともあり、サイトとしての役割を果たせてないと判断し、閉鎖することにしました。

  • 1