タグ

ブックマーク / www.phontron.com (5)

  • NLP論文ネタ一覧

    by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

  • 自然言語処理ツール

    自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese

  • Writing Unit Tests for Sampling | Graham's Research Blog

    One popular method for estimating statistical models is sampling, and in particular Gibbs sampling. As I’ve written before, sampling is based on randomness, which makes it somewhat difficult to debug. On the other hand, one popular way to ensure the quality of code is through arrays of unit tests, which are designed to test your code at a very fine-grained level (e.g. one test for each function in

  • 形態素解析の辞書追加

    形態素解析器としてMeCab(ラティス上の系列予測)とKyTea(点予測)を利用する(モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる)。この二つの形態素解析器で以下のような分野適応戦略を比較する: 適応無し:一般分野のテキストと辞書を利用する。 辞書追加(再学習なし):Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語(頻度の低い名詞)と一緒にする。(MeCabのみ) 辞書追加(再学習あり):辞書に単語を追加し、もう1回一般分野コーパスでモデルの重みを学習。 コーパス追加:一般分野+Webコーパスで辞書を作り、モデル学習を行う。 実験結果 実験は以下のような結果になった。

  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

    Naruhodius
    Naruhodius 2010/01/17
    ⊂(╹ 、╹)っ♂ ナルホディウス!
  • 1