タグ

corpusに関するjewel12のブックマーク (9)

  • 株式会社 アイアール・アルト IR-Advanced Linguistic Technologies Inc. – コトバのデータ、作ります

    音声データの収集・解析 音声認識等に利用するための音声発話の収録を行います。原稿の読み上げから、自由発話、対話等、さまざまな状況での収録に対応可能です。また、収録した音声データの書き起こし、アノテーションにも対応いたします。 実験代行 実験計画の策定から、被験者募集・選定、スケジューリング管理、実験の実施、実施後のデータ整備およびデータ解析まで対応可能です。もちろん、この中の一部分のみをお手伝いするということでも大丈夫です。

  • ACI SOKENDAI

    小松左京コーパス 概要 作家小松左京氏の全作品の全文データベースで,現在(2009年5月1日)2,022の作品が収録されています。 データベースは,文部科学省の科学研究費補助金・重点領域研究「人文科学とコンピュータ」(領域代表者:及川昭文,1996~1999年度)の研究会において同氏に招待講演を依頼したのがきっかけで,その構築が始まりました。同氏から提供を受けた電子データ,新たに入力したデータをあわせて約200万文字のコーパスとなっています。 このデータベースは,教育及び研究用に利用するということで同氏より許諾を得ていますので,それ以外での利用はできません。著作権者の権利を侵害することのないように利用してください。 2009年5月1日 運用責任者 氏名 及川昭文 所属 総合研究大学院大学 連絡先住所 〒240-0193 神奈川県三浦郡葉山町 e-mail a.oikawa(at)soke

    jewel12
    jewel12 2011/07/28
    こういうものがあったのか…ご冥福をお祈りします
  • 名大会話コーパス

    名大会話コーパスは、科学研究費基盤研究(B)(2) 「日語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」(平成13年度~15年度)の一環として作成されたもので、約100時間分の雑談を文字化したコーパスです。 不備な点も多々ありますが、日語研究、日教育にご活用いただければ幸いです。 なお、米国・パデュー大学の深田淳准教授の開発されたコロケーション情報抽出システム「茶漉」の検索対象としては、名大会話コーパスの全データが 入っており、一般公開されています。次のサイトにアクセスし、 合わせてご利用ください。 コロケーション情報抽出システム「茶漉」 参加者情報へ 研究代表者 姫路獨協大学外国語学部 大曾 美恵子 検索画面へ(要認証)

  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • フリーの英単語リストをまとめてみた

    Horn List (100 Most Common Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/hornlistfreq.html アルファベット順 http://www.englishcorner.vacau.com/vocabulary/hornlistalpha.html [出典]Horn, E. (1926), A basic writing vocabulary, 10,000 words most commonly used in writing, College of Education. Dolch List (220 Basic Sight Words) 頻度順 http://www.englishcorner.vacau.com/vocabulary/dolchfreq.html アルファベット順 

    フリーの英単語リストをまとめてみた
  • GSK2010-B 甲南大学 こどもコーパス

    こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。教育研究活動に限り利用可能である。詳細は、付属のマニュアルを参照のこと。

  • おすすめコーパスサイト

    イギリスのコーパス British National Corpus 略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので

  • 2010-05-22

    データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

    2010-05-22
  • 1