これは、日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日本語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3。 日英 対訳コーパス 以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。 名前文数研究用商用説明
以前作った Seq2Seq を利用した chatbot はゆるやかに改良中なのだが、進捗はあまり良くない。学習の待ち時間は長く暇だし、コード自体も拡張性が低い。そういうわけで最新の Tensorflow のバージョンで書き直そうと思って作業を始めた。しかし深掘りしていくと Seq2Seq の詳細を分かっていなかったことが発覚したのでここにまとめる。間違いを見つけたらコメントか @higepon まで。 Seq2Seq のすべてを解説するのではなく、Tensoflow/nmt/README.md のチュートリアルをベースにする。読んだだけでは、理解できなかった部分を補っていく形で進める。 必要とされる前提知識 DNN の基礎。構造、training、 loss とかそういう話。back prop は別に理解できなくても可。 RNN の基礎。RNN が時系列の扱いに向いているとか。RNN の構
The EDICT Dictionary File Welcome to the Home Page of the EDICT file within the JMdict/EDICT Project. This page has been written by Jim Breen (hereafter "I" or "me") and is intended as an overview of the file, with links to more detail elsewhere. Background Way back in 1991 I began to experiment with handling Japanese text in computer files, and decided to try writing a dictionary search program i
この記事はDeep Learning Advent Calendar 5日目の記事です. はじめに 皆様,ご無沙汰にしております.olanleedです. とうとうAdvent Calendar以外でブログを更新しないダメな人間になってしましました.更新しようといろいろ考えてたのですが,学会やらジャーナルへの論文投稿などがあって,なかなか厳しいものがありました. この12月は異常なまでにAdvent CalendarとLTを入れたので,怒涛の更新になりそうです.お付き合いください. それでは本題に入りたいと思います. RNNを用いた機械翻訳 Deep Learningが様々な分野で大きな成果を出している現在,統計的機械翻訳でもRecurrent Neural Network(RNN)を活用した研究が成功を収めています. 今回はRNN(LSTM)を用いた翻訳モデルの一つであるSequence
1. Moses Overview Manual Online Demos FAQ Mailing Lists Get Involved Recent Changes 2. Getting Started Source Installation Baseline System Packages Releases Sample Data Links to Corpora 3. Tutorials Phrase-Based Tutorial Syntax Tutorial Factored Tutorial Optimizing Moses Experiment.Perl 4. Training Overview Prepare training data Factored Training 1 Prepare data 2 Run GIZA 3 Align words 4 Lexical t
General Text Matcher (GTM) written by: Ryan Green Joseph P. Turian I. Dan Melamed Luke Shen Ali Argyle Ben Wellington Daniel Galron The latest version of this software is version 1.4 To be notified of upgrades, please sign up for the GTM-announce mailing list via the web-form at http://www.cs.nyu.edu/mailman/listinfo/gtm-announce. It's moderated and very low-volume. Introduction GTM measures the s
その前に cpanm で Image::Magick をインストールする環境は次のようになっている。 perlbrew で Perl 5.12.1 をインストールしている cpanm は perlbrew のインストール時にインストールされたもの 手動で入れても、適宜設定を自分の環境に読み替えれば、成功すると思う Macports で Perl 5.8.9 がインストールされているが、perlbrew の switch オプションで 5.12.1を 使う設定にしている ImageMagick は Macports でインストールをしている cpanm で Image::Magick をインストールする際に出るエラー表示 % cd ~ % cpanm Image::Magick --> Working on Image::Magick Fetching http://search.cpan.
New: Meteor can now automatically learn a version for a new target language using only the parallel data used for MT system development. See the tutorial for more information. Meteor (includes X-ray and the Meteor Paraphrase Tables): Version 1.5 (WMT 2014, current release): [download] [cite] [documentation] [GNU LGPL] If you report Meteor scores, please cite the current Meteor paper. Version 1.4 (
This article is about the evaluation metric for machine translation. For other uses, see Bleu (disambiguation). BLEU (bilingual evaluation understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another. Quality is considered to be the correspondence between a machine's output and that of a human: "the closer a machine translati
$Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く