タグ

corpusに関するzaki1010のブックマーク (3)

  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • 10. 現状で利用可能なパラレル(対訳)コーパス 内山将夫@NICT mutiyama@nict.go.jp 1 これまでのまとめ コーパスベースの機械翻訳により 対訳コーパスから自動的に 翻訳機を作ることができることを

    10. 現状で利用可能なパラレル(対訳)コーパス 内山将夫@NICT mutiyama@nict.go.jp 1 これまでのまとめ コーパスベースの機械翻訳により 対訳コーパスから自動的に 翻訳機を作ることができることを述べ, その手始めとして,IBM Model-1 を説明した. ここでやること ここでは,機械翻訳自体の話題は少し休んで, コーパスベースの機械翻訳に必要な 対訳コーパスを どう手に入れたら良いかを話す. 2 ここでの話題 • 対訳コーパスの重要性について • 現状で利用可能な対訳コーパス • 対訳コーパスを自動で作る方法 • 機械翻訳以外における対訳コーパスの利用 3 対訳コーパスとはなにか 複数言語について,特に, 意味内容がほぼ等しいと考えられる文について 対応関係が付いているコーパスを パラレルコーパスあるいは対訳コーパスと呼ぶ 4 対訳コーパスの例 オオカミと仔

  • 日本語対訳データ

    これは、日語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3。 日英 対訳コーパス 以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。 名前文数研究用商用説明

  • 1