ブックマーク / www.phontron.com (9)

  • Travatar - A Tree-to-String Translation Toolkit

    This is the home of Travatar, a tree-to-string statistical machine translation system. In other words, when performing translation, you first parse the input using a syntactic parser, then Travatar will perform translation for you. This is particularly effective for language pairs that require a large amount of reordering, such as English-Japanese. Download/Install Documentation Development/Suppor

  • NLP論文ネタ一覧

    by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

  • Graham Neubig - チュートリアル資料

    学校での講義 Fall 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-7

  • ノンパラメトリックベイズ入門 〜ベイジアン HMM の実装まで〜

  • 日本語バランス文ートップ1000

    語バランス文トップへ これは日語の代表的な表現を含む1000文です。最初の111文だけで、日Wikipediaのテキストに現れる代表的なn-gram(n=1-4、1-4単語からなる短い単語列)の50%をカバーします。 それだけのことではありませんか。 しなくてもいい、というものではないと思います。 地下鉄システムの整備によってこれらの問題が解決することが期待されている。 開拓地を開いていくためには、労働力が必要だった。 国立感染症研究所「重症急性呼吸器症候群(SARS) に関する情報」 皆様のご意見をお待ちしております。 どちらが先に手を出したのかはわからない。 ヨハネ・パウロ2世 間違いは誰にでもあるのですから。 だから、なかなか覚えられないんだ。 また建築全体の形状が翼を広げた鳥の姿を思わせることから,江戸時代以降鳳凰堂の名で呼ばれるようになった。 九月十一日 ここで質問なの

    dayafterneet
    dayafterneet 2012/02/15
    これいいな
  • KyTeaのモデル

    人名・地名モデル v. 1.3: 能動学習を行い、単語分割精度を上げました(97.33%→97.82%)(3月20日、21:00):KyTeaの人名・地名モデル v. 1.3 v. 1.2: さらに、東北地方の地名や独特な名前の扱いを改善し、「人名・性→人名・姓」と誤植を直しました(3月14日、17:30):KyTeaの人名・地名モデル v. 1.2 v. 1.1: 地名の対応を改善させて、単語分割を少しロバストにしました(3月14日、15:00):KyTeaの人名・地名モデル v. 1.1 v. 1.0: 東北大地震を受けて、人名・地名モデルを作りました。今は人名にある程度強いですが、地名はまだあまり出来ていません。続けて作業します(3月14日、14:00):KyTeaの人名・地名モデル v. 1.0 解析結果 モデルを使って固有表現っぽいものを抽出してみました:結果 (3月16日 09

  • Safety Information Mining — What can NLP do in a disaster —(PDF)

  • prontron - PRONunciation percepTRON

    by Graham Neubig English prontronは日語の未知語発音推定プログラムです。構造化パーセプトロンを日語の発音推定に使えるのではないかと思って作ってみました。もし興味があったら使ってみてください。 ダウンロード 使い方 仕組み 精度 開発・TODO ダウンロード 最新版: prontron 0.1 開発版: @github 過去のバージョン: まだ prontronはCommon Public License v 1.0に従ってダウンロード、再配布できます。 使い方 発音推定 modelディレクトリの中のモデルを利用して発音を推定することができます。1行1単語の入力ファイルinput.txtを用意して、以下のコマンドを実行します: $ prontron.pl model/model.dict model/model.feat < input.txt > out

  • pialign - Phrasal ITG Aligner

    pialign is a package that allows you to create a phrase table and word alignments from an unaligned parallel corpus. It is unlike other unsupervised word alignment tools in that it is able to create a phrase table using a fully statistical model, no heuristics. As a result, it is able to build phrase tables for phrase-based machine translation that achieve competitive results but are only a fracti

  • 1