[B! 言語モデル] skozawaのブックマーク

skozawa id:skozawa

言語モデルに関するskozawaのブックマーク (4)

言語モデル入門 - Topics Related to Computers and NLP
言語モデルの入門と言語モデル周り研究動向の浅い部分をすくったスライド。言語モデル入門 from Yoshinari Fujinuma
skozawa 2014/04/21
言語モデル

入門

nlp
リンク
どの言語でつぶやかれたのか、機械が知る方法
言語処理学会第18回年次大会における「Twitterと言語処理」セッションでの発表「極大部分文字列を使った twitter 言語判定」で使用した発表資料です。
skozawa 2013/11/29
サイボウズ

言語モデル

言語判定
リンク
Kneser-Ney スムージングによる文書生成 - 木曜不足
少し前に Kneser-Ney スムージングの性能を測ってみた記事を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行1文書の訓練データとみなして Kneser-Ney スムージング付きの n-Gram 言語モデルを学習後、文書を生成してファイルに出力する。オプションもいくつか指定できるが、-h でヘルプを出すか、ソースを読むかしてもらえば。与えられた文書の確率を Kneser-Ney で計算するには、ディスカウントによって生じる正規化係数の補正を求めるために N1+ などのちょいややこしい値をあらかじめ計算して保持しておかないといけないが、文
skozawa 2013/07/24
言語モデル

NLP
リンク
言語モデル配布ページ
このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロードコーパスここでは、N-gramを作成するために利用したコーパスについて説明します。ウェブコーパス: ウェブコーパスは京都大学黒橋・河原研究室において、2010年12月～2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。現代日本語書き言葉コーパス: 現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。コーパスの統計情報各コーパスに関する文数、単語数、文字数について次の
skozawa 2012/06/12
言語モデル

研究

N-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx