サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
パリ五輪
www.phontron.com
これは、日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日本語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3。 日英 対訳コーパス 以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。 名前文数研究用商用説明
This is a list of data that can be used for creating machine translation systems to-from Japanese. It focuses on Japanese-English, but at the bottom there is info on data sets for Japanese aligned with other languages as well. If I am missing any data, please tell me! If you want a general purpose list of parallel texts, there are several others: 1 2 3. Japanese-English Parallel Corpora These corp
This is the home of Travatar, a tree-to-string statistical machine translation system. In other words, when performing translation, you first parse the input using a syntactic parser, then Travatar will perform translation for you. This is particularly effective for language pairs that require a large amount of reordering, such as English-Japanese. Download/Install Documentation Development/Suppor
by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000本分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日本語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の
How Much is Said in a Tweet? A Multilingual, Information-theoretic Perspective Graham Neubig and Kevin Duh Nara Institute of Science and Technology 8916-5 Takayama-cho, Ikoma-shi, Nara, Japan Abstract This paper describes a multilingual study on how much information is contained in a single post of microblog text from Twitter in 26 different languages. In order to answer this question in a quantit
1 Graham Neubig - 機械翻訳 機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 2013 年 1 月 17 日 2 Graham Neubig - 機械翻訳 機械翻訳 ● 原言語から目的言語へと自動的に翻訳 太郎が花子を 訪問した。 原言語 Taro visited Hanako. 目的言語 ● 近年に著しい発展と実用化 3 Graham Neubig - 機械翻訳 機械翻訳の仕組み Today I will give a lecture on machine translation . 4 Graham Neubig - 機械翻訳 機械翻訳の仕組み ● 文を翻訳可能なパターンに区切り、並べ替え Today I will give a lecture on machine translation . Today 今日は、 I will gi
by Graham Neubig 11/13/2012, (English Tweets) ツイッターから2012年6〜7月に収集された日本語ツイートの中で頻度が高いものを抜粋した一覧です。 句読点や伸ばし棒を消して、スパムっぽいものを削除してちょっときれいにしています。 順位頻度テキスト
論文で書く時にいろいろなスタイルの決まりがあって、きれいで読みやすい論文を書くためにこの決まりに従う必要があります。 以下のスタイルガイドに載っている項目を確認すれば、特に間違いやすいところを抑えることができます。 「X」は不正解、「O」は正解です。 順番はおおまかに上から頻度の高い順になっています。 一般的なアドバイス 分かりやすい名前を利用:「手法1」「手法2」、「Method 1」「Method 2」のような名前を付けることが多いが、論文の読者は手法1はどの手法だったのかを覚えないといけないので、負担がかかります。 「LDAなし」「LDAあり」、「NoLDA」「WithLDA」のような手法の特性が推測可能な名前を利用すると覚えやすく、負担が減ります。 逃げるような書き方をしない:「と思われる」「と考える」「probably」「may」「might」のような書き方は書いたことに責任を持
日本語バランス文トップへ これは日本語の代表的な表現を含む1000文です。最初の111文だけで、日本語Wikipediaのテキストに現れる代表的なn-gram(n=1-4、1-4単語からなる短い単語列)の50%をカバーします。 それだけのことではありませんか。 しなくてもいい、というものではないと思います。 地下鉄システムの整備によってこれらの問題が解決することが期待されている。 開拓地を開いていくためには、労働力が必要だった。 国立感染症研究所「重症急性呼吸器症候群(SARS) に関する情報」 皆様のご意見をお待ちしております。 どちらが先に手を出したのかはわからない。 ヨハネ・パウロ2世 間違いは誰にでもあるのですから。 だから、なかなか覚えられないんだ。 また建築全体の形状が翼を広げた鳥の姿を思わせることから,江戸時代以降鳳凰堂の名で呼ばれるようになった。 九月十一日 ここで質問なの
by Graham Neubig (2/15/2012), English このデータはWikipediaから取り出した文の中で、別の日本語のテキストに現れるn-gram をうまくカバーする文を順番に並べたものです。文の順番はまず、シードコーパスに最も 頻繁に現れるn-gram(n=1~4)を含むものを先に出力しています。複数の文がこのn-gramを 含む場合、さらに他のまだカバーされていないn-gramを多く含むものを選んでいます。 ダウンロード 閲覧 データは3つのファイルに分かれています: common-sentences.txt: 上記の順番に並べた文。以下の3文から始まります: それ だけ の こと で は あ り ま せ ん か 。 し な く て も い い 、 と い う もの で は な い と 思 い ま す 。 地下 鉄 システム の 整備 に よ っ て これ ら
One popular method for estimating statistical models is sampling, and in particular Gibbs sampling. As I’ve written before, sampling is based on randomness, which makes it somewhat difficult to debug. On the other hand, one popular way to ensure the quality of code is through arrays of unit tests, which are designed to test your code at a very fine-grained level (e.g. one test for each function in
形態素解析器としてMeCab(ラティス上の系列予測)とKyTea(点予測)を利用する(モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる)。この二つの形態素解析器で以下のような分野適応戦略を比較する: 適応無し:一般分野のテキストと辞書を利用する。 辞書追加(再学習なし):Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語(頻度の低い名詞)と一緒にする。(MeCabのみ) 辞書追加(再学習あり):辞書に単語を追加し、もう1回一般分野コーパスでモデルの重みを学習。 コーパス追加:一般分野+Webコーパスで辞書を作り、モデル学習を行う。 実験結果 実験は以下のような結果になった。
by Graham Neubig English prontronは日本語の未知語発音推定プログラムです。構造化パーセプトロンを日本語の発音推定に使えるのではないかと思って作ってみました。もし興味があったら使ってみてください。 ダウンロード 使い方 仕組み 精度 開発・TODO ダウンロード 最新版: prontron 0.1 開発版: @github 過去のバージョン: まだ prontronはCommon Public License v 1.0に従ってダウンロード、再配布できます。 使い方 発音推定 modelディレクトリの中のモデルを利用して発音を推定することができます。1行1単語の入力ファイルinput.txtを用意して、以下のコマンドを実行します: $ prontron.pl model/model.dict model/model.feat < input.txt > out
I was wondering what papers had the most influence on the field of computational linguistics and natural language processing, so I tried making a list of the most cited papers from the annual meeting of the ACL (Association for Computational Linguistics) for the past twenty years. All citation counts are from Google scholar as of today, so take them with a grain of salt, but here goes: 1990: Steed
This pattern is most pronounced in morphology. At first kids will be able to identify only a small amount of both regular and irregular verbs, probably remembering each word exactly as they hear it. After that, they will learn how to conjugate, but mistakenly conjugate irregular verbs using regular conjugations (like “goed”). And finally they will (mostly) converge on the actual usage of verbs in
pialign is a package that allows you to create a phrase table and word alignments from an unaligned parallel corpus. It is unlike other unsupervised word alignment tools in that it is able to create a phrase table using a fully statistical model, no heuristics. As a result, it is able to build phrase tables for phrase-based machine translation that achieve competitive results but are only a fracti
次のページ
このページを最初にブックマークしてみませんか?
『Graham Neubig』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く