[B! TokyoNLP] sleepy_yoshiのブックマーク

統計的機械翻訳入門〜第4回 #TokyoNLP で発表しました - nokunoの日記

第4回TokyoNLPで、統計的機械翻訳の入門的な内容について発表しました。 TokyoNLP #4 を開催しました - nokunoの日記Tokyonlp04 translationView more presentations from nokuno.内容は、機械翻訳の定番教科書からIBMモデル1までの説明です。Koehn先生のスライドを参考にさせていただいています。Book: Statistical Machine TranslationGIZA++の使い方についてはこちら。統計的機械翻訳のツールGIZA++を使ってみた - nokunoの日記

sleepy_yoshi 2011/01/24

TokyoNLP

リンク

nokunoの日記

引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

sleepy_yoshi 2011/01/24

TokyoNLP

リンク

TokyoNLP #4 を開催しました - nokunoの日記

第4回自然言語処理勉強会＠東京 : ATND N-gram Language Model for Speech Recognition by @y_shindoh さん音声認識の概要音声データ（音声特徴量MFC,PLP)→音声認識エンジン（デコーダ）→音声認識結果音響モデル＋言語モデル音声特徴量（MFC）：LPCM→スペクトル→MFC フレーミング、ハミング窓、高域強調フィルタ、FFT 絶対値→聴覚フィルタ→対数化→DCT 階層モデル：単語→モーラ→音素読みが複数ある場合は？→両方考える、確率を振ることもある音声認識のしくみ高周波を落とした場合（電話など）は？ →専用の音響モデルを作ったり、ローカルで特徴抽出したり音声認識の種類：独立単語型、記述文法型（CFG）、ディクテーション型（N-gram）音声認識では通常3-gramが用いられる。単語N-gramの高精度化と0頻

sleepy_yoshi 2011/01/24

TokyoNLP

リンク

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足

この記事は第３回自然言語処理勉強会＠東京のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたいただしそのままでは素性数が文章長の二乗のオーダー素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める２回以上現れる任意の部分文字列を素性とするのと同等一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習極大部分文字列例) abracadabra "bra" は "abra" の部分文字列としてしか現れない　→　"bra"

sleepy_yoshi 2010/11/23

NLP
TokyoNLP

リンク

EMNLP 2010 の論文紹介 / 自然言語処理勉強会＠東京 #3 - 木曜不足

この記事は第３回自然言語処理勉強会＠東京での発表資料です。 EM NLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を４本＋５本紹介しています。質より数で勝負。論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ例)読めそうな、わかりそうな論文だけ読む例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く論文を手当たり次第に、広く浅く読んじゃおう１本あたり１〜２時間目安は「twitter で２，３回つぶやけるくらい」(ぇもちろんちゃんと読む論文はちゃんと読むんだけどねでも、まだ

sleepy_yoshi 2010/11/23

NLP
TokyoNLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

TokyoNLPに関するsleepy_yoshiのブックマーク (5)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (1)

TokyoNLPに関するsleepy_yoshiのブックマーク (5)

統計的機械翻訳入門 〜 第4回 #TokyoNLP で発表しました - nokunoの日記

nokunoの日記

TokyoNLP #4 を開催しました - nokunoの日記

極大部分文字列 の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足

EMNLP 2010 の論文紹介 / 自然言語処理勉強会＠東京 #3 - 木曜不足

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

統計的機械翻訳入門〜第4回 #TokyoNLP で発表しました - nokunoの日記

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足