[B! corpus] jewel12のブックマーク

株式会社アイアール・アルト IR-Advanced Linguistic Technologies Inc. – コトバのデータ、作ります

音声データの収集・解析音声認識等に利用するための音声発話の収録を行います。原稿の読み上げから、自由発話、対話等、さまざまな状況での収録に対応可能です。また、収録した音声データの書き起こし、アノテーションにも対応いたします。実験代行実験計画の策定から、被験者募集・選定、スケジューリング管理、実験の実施、実施後のデータ整備およびデータ解析まで対応可能です。もちろん、この中の一部分のみをお手伝いするということでも大丈夫です。

jewel12 2012/01/12

corpus

リンク

ACI SOKENDAI

小松左京コーパス概要作家小松左京氏の全作品の全文データベースで，現在（2009年5月1日）2,022の作品が収録されています。本データベースは，文部科学省の科学研究費補助金・重点領域研究「人文科学とコンピュータ」（領域代表者：及川昭文，1996～1999年度）の研究会において同氏に招待講演を依頼したのがきっかけで，その構築が始まりました。同氏から提供を受けた電子データ，新たに入力したデータをあわせて約200万文字のコーパスとなっています。このデータベースは，教育及び研究用に利用するということで同氏より許諾を得ていますので，それ以外での利用はできません。著作権者の権利を侵害することのないように利用してください。 2009年5月1日運用責任者氏名及川昭文所属総合研究大学院大学連絡先住所〒240-0193 神奈川県三浦郡葉山町 e-mail a.oikawa(at)soke

jewel12 2011/07/28

こういうものがあったのか…ご冥福をお祈りします

corpus

リンク

名大会話コーパス

名大会話コーパスは、科学研究費基盤研究(B)(2) 「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」（平成13年度～15年度）の一環として作成されたもので、約100時間分の雑談を文字化したコーパスです。不備な点も多々ありますが、日本語研究、日本語教育にご活用いただければ幸いです。なお、米国・パデュー大学の深田淳准教授の開発されたコロケーション情報抽出システム「茶漉」の検索対象としては、名大会話コーパスの全データが入っており、一般公開されています。次のサイトにアクセスし、合わせてご利用ください。コロケーション情報抽出システム「茶漉」参加者情報へ研究代表者　姫路獨協大学外国語学部　大曾　美恵子検索画面へ(要認証)

jewel12 2011/06/01

NLP
Corpus

リンク

Wikipedia日英京都関連文書対訳コーパス

English Page 本コーパスについて『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。特徴人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。翻訳の過程（一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階）が記録されています。訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成

jewel12 2010/11/15

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

jewel12 2010/09/16

Corpus
nlp

リンク

フリーの英単語リストをまとめてみた

Horn List (100 Most Common Words) 頻度順　http://www.englishcorner.vacau.com/vocabulary/hornlistfreq.html アルファベット順　http://www.englishcorner.vacau.com/vocabulary/hornlistalpha.html ［出典］Horn, E. (1926), A basic writing vocabulary, 10,000 words most commonly used in writing, College of Education. Dolch List (220 Basic Sight Words) 頻度順　http://www.englishcorner.vacau.com/vocabulary/dolchfreq.html アルファベット順　

jewel12 2010/08/29

リンク

GSK2010-B 甲南大学　こどもコーパス

こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。教育研究活動に限り利用可能である。詳細は、付属のマニュアルを参照のこと。

jewel12 2010/06/28

corpus
nlp

リンク

2010-05-22

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件品詞は細分類を無視文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式：　単語のIDF値：　総文書数：　単語が出現する文書の総数文書数、異なり単語数総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例タブ区切りデータ例形態素品詞 idf値あいぞう名詞 6.09252 あいぞめ名詞 5.01334 あいた感動詞 4.58737 あいたい名詞 4.46927 あいだ名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

jewel12 2010/05/23

NLP
Corpus

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

corpusに関するjewel12のブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス