はじめに 自然言語を扱う際、様々な状況で単語の出現確率を求める必要が出てくる。単語の出現確率を求める単純な方法としては、注目している単語がコーパス中に出てきた回数をコーパスの総語数で割るというものがある。例えば、1万語のコーパスの中で、300回出現した単語は、300/10000 = 0.03、すなわち3%の出現確率であると求めることができる。出現回数をコーパスの総語数で割るというのは、直観には合致している。しかし、直観が常に正しいとは限らない。この出現確率の求め方が本当に良い推定になっているのかを数学的に示すことができればそれに越したことはない。実は、この出現回数をコーパスの総語数で割ることで、出現確率を求めるのは、最尤推定と呼ばれる推定の結果と一致している。このことを示そう。 単語の出現確率を求める必要性 自然言語処理の中で、単語 [1] の出現確率が分かっていると得をする場合は少なくな
文書の性質 『統計を始める前に』という教科書的文書を公開したいと思う。これは、以前、勉強会のために私が作成した文書の一部を切り貼りして作ったものである。以下から、PDFファイルとしてダウンロードが可能なので、必要な方はどうぞ。なお、強制ではないが、リンクを貼るときは、PDFに直接リンクするのではなく、このページにリンクしていただければ幸いである。何か追加情報があったときには、このページに書くつもりなので。 http://id.fnshr.info/docs/stat_for_langs00.pdf これは何を目的にした文書かと言うと、タイトルの通り、「統計を始める前に」一通り知っておきたい数学的知識などをまとめたものである。この文書を一通り読んだ上で、統計の勉強を始めるとはかどるはずである。 統計を始める前に、数学の勉強をしないといけないなんて面倒だと思う人もいるかもしれない。だが、私の経
楽天トラベルがバス事故の被害者に「ご乗車はいかがでございましたか?」とメール 1 名前: ◆PENGUINqqM @お元気で!φ ★:2012/05/03(木) 20:05:01.12 ID:???0 群馬県藤岡市の関越自動車道で乗客のうち7人が死亡し38人が重軽傷を負ったバス事故で、ウェブサイトでバスのチケットを売った楽天トラベル(東京)が事故翌日の4月30日、被害者や家族らに「ご乗車はいかがでございましたか?」などとアンケートへの回答を求める電子メールを送っていたことが3日、同社などへの取材で分かった。 メールは同社のサイトを通じ、事故を起こしたバスのチケットを申し込んだ会員20人に送られており、被害者のほか家族らも含まれる。楽天トラベルは「メールは、出発日の翌々日に自動送信されるシステムだった。受信した方やその家族に不快な思いをさせ 申し訳ない」と陳謝。メールを受け取った被害者や家族
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く