ブックマーク / www.phontron.com (4)

  • NLP論文ネタ一覧

    by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

    hjym_u
    hjym_u 2013/04/13
  • KyTeaを使った単語分割分野適応

    KyTeaを使った単語分割の分野適応 KyTeaホームに戻る はじめに KyTea の最も大きな利点の1つは分野適応が簡単であることです。特に、部分的アノテーション(後述)を使った分野適応は有用です。従来手法では、辞書に単語を追加する以外には、フルアノテーションコーパスを準備する必要がありました。フルアノテーションコーパスは、 この 時期 の 中心 人物 は 、 風穴 延昭 で あ る 。 のように、全ての単語境界に空白を入れ、単語境界のないところに空白を入れないことで、すべての文字間の境界情報をアノテーションします。しかし、この文の中で、「風穴」以外、ほとんどの単語境界は自明であり、アノテーションする必要はないため、時間の無駄が生じます。その代わり、部分的アノテーションでは、以下のように「風穴」のところだけをアノテーションすることができます。 こ の 時 期 の 中 心 人 物 は 、|

    hjym_u
    hjym_u 2012/01/14
  • 形態素解析の辞書追加

    形態素解析器としてMeCab(ラティス上の系列予測)とKyTea(点予測)を利用する(モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる)。この二つの形態素解析器で以下のような分野適応戦略を比較する: 適応無し:一般分野のテキストと辞書を利用する。 辞書追加(再学習なし):Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語(頻度の低い名詞)と一緒にする。(MeCabのみ) 辞書追加(再学習あり):辞書に単語を追加し、もう1回一般分野コーパスでモデルの重みを学習。 コーパス追加:一般分野+Webコーパスで辞書を作り、モデル学習を行う。 実験結果 実験は以下のような結果になった。

  • http://www.phontron.com/nlptools.php

  • 1