タグ

nlpとcorpusに関するyu4uのブックマーク (5)

  • ACL 2011 で公開された自然言語処理(言い換え系)データ

    先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを5つを紹介します。(他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。) 【1】 Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation David Chen1 and William Dolan2 1The University of Texas at Austin, 2Microsoft Research 複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと

    ACL 2011 で公開された自然言語処理(言い換え系)データ
  • 名大会話コーパス

    名大会話コーパスは、科学研究費基盤研究(B)(2) 「日語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」(平成13年度~15年度)の一環として作成されたもので、約100時間分の雑談を文字化したコーパスです。 不備な点も多々ありますが、日語研究、日教育にご活用いただければ幸いです。 なお、米国・パデュー大学の深田淳准教授の開発されたコロケーション情報抽出システム「茶漉」の検索対象としては、名大会話コーパスの全データが 入っており、一般公開されています。次のサイトにアクセスし、 合わせてご利用ください。 コロケーション情報抽出システム「茶漉」 参加者情報へ 研究代表者 姫路獨協大学外国語学部 大曾 美恵子 検索画面へ(要認証)

  • 京都フリー翻訳タスク

    京都フリー翻訳タスク (KFTT) by Graham NEUBIG (苗字 at gmail.com) English 京都フリー翻訳タスク(KFTT)は、日英機械翻訳システムのための評価タスクです。タスクはフリー、簡単、再現性のある、進化型の機械翻訳タスクを目指して設立されました。 基概念 データセット 入手・使用法 データ+システム学習 データのみ アライメントデータ トラック(順位表) 参考文献 バージョン歴 基概念 京都フリー翻訳タスクは4つの概念に基づいて設立しました。 具体的には「フリー」、「簡単」、「再現性」、「進化」というキーワードを重視しました。 フリーはオープンソースソフトと同じく、「無料」と「自由」の二つの意味があります。このタスクはデータを無料で配布しており、所属や期間に関わらず誰でも自由に参加でき、既存手法より高い精度を挙げた場合、公式ページに載ることができ

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

  • 大規模オープンソース日英対訳コーパスの構築

    このページでは,石坂他(2009)で発表された日英対訳コーパスのうちで,著作権の観点から対訳データを配布可能なことが確認されたものをリストします.(著作権上の問題があるものを発見した場合には,内山まで御連絡ください.それらについては削除します.) ここにリストされている対訳データの編集著作権については,そのライセンスはCreative Commons Attribution-Share Alike 3.0 Unportedとしますので,御活用下さい.ただし,この対訳データを利用する際には,対訳データのライセンスだけでなく,原文(英語)と訳文(日語)の双方のライセンスに従う必要があることに御注意下さい.なお,ここにある対訳データはみんなの翻訳から検索できます. 石坂達也,内山将夫,隅田英一郎,山和英 (2009) 大規模オープンソース日英対訳コーパスの構築.情報処理学会 第191回自然言

  • 1