8. スパムフィルタ • 「スパムっぽい単語」があると スパム確率up • フィルタは言語ごとに必要 無料 バイアグラ オオアリクイ : free mastercard account : 日本語用フィルタ 英語用フィルタ ※ベイジアンフィルタなどを利用したモデルの場合。 他にルールベース(ホワイト&ブラックリスト)のアプローチなどもあります 12 9. 言語判定とは • 入力テキストの記述言語を推定 – Time fries like arrow → 英語 – Buona sera! → イタリア語 • 多くの言語処理での前提タスク – 言語モデルは言語ごとに構築 – 検索、分類、抽出、翻訳、…… • 言語判定を間違えると、後も全部こける! 13 10. ニューステキストに対する言語判定 (後述する langdetect による評価) af ar bg bn cs da de el en