タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

TokyoNLPに関するsleepy_yoshiのブックマーク (5)

  • 統計的機械翻訳入門 〜 第4回 #TokyoNLP で発表しました - nokunoの日記

    第4回TokyoNLPで、統計的機械翻訳の入門的な内容について発表しました。 TokyoNLP #4 を開催しました - nokunoの日記Tokyonlp04 translationView more presentations from nokuno.内容は、機械翻訳の定番教科書からIBMモデル1までの説明です。Koehn先生のスライドを参考にさせていただいています。Book: Statistical Machine TranslationGIZA++の使い方についてはこちら。 統計的機械翻訳のツールGIZA++を使ってみた - nokunoの日記

  • nokunoの日記

    引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

  • TokyoNLP #4 を開催しました - nokunoの日記

    第4回 自然言語処理勉強会@東京 : ATND N-gram Language Model for Speech Recognition by @y_shindoh さん 音声認識の概要 音声データ(音声特徴量MFC,PLP)→音声認識エンジン(デコーダ)→音声認識結果 音響モデル+言語モデル 音声特徴量(MFC):LPCM→スペクトル→MFC フレーミング、ハミング窓、高域強調フィルタ、FFT 絶対値→聴覚フィルタ→対数化→DCT 階層モデル:単語→モーラ→音素 読みが複数ある場合は?→両方考える、確率を振ることもある音声認識のしくみ 高周波を落とした場合(電話など)は? →専用の音響モデルを作ったり、ローカルで特徴抽出したり 音声認識の種類:独立単語型、記述文法型(CFG)、ディクテーション型(N-gram) 音声認識では通常3-gramが用いられる。 単語N-gramの高精度化と0頻

  • 極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長の二乗のオーダー 素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める 2回以上現れる任意の部分文字列を素性とするのと同等 一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習 極大部分文字列 例) abracadabra "bra" は "abra" の部分文字列としてしか現れない → "bra"

    極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4+5紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ 例)読めそうな、わかりそうな論文だけ読む 例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く 論文を手当たり次第に、広く浅く読んじゃおう 1あたり1〜2時間 目安は「twitter で2,3回つぶやけるくらい」(ぇ もちろんちゃんと読む論文はちゃんと読むんだけどね でも、まだ

    EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • 1