dart.dev uses cookies from Google to deliver and enhance the quality of its services and to analyze traffic. Learn more. OK, got it
RSS/Atom feed のlang属性にen/en-US と書いてあっても 中見は他の言語で書かれているケースがある. 例えば↓のフィード.これはインドネシア語かな? http://isur.blogspot.com/atom.xml これを英語でないと判断するためにはどうすれば良いだろうか. 直感的には,文中に出現する全ての単語のうち辞書と照らし合わせて, どれだけが辞書中の用語とヒットするかを見ればよいのかな. どうしたものかと思ってGoogleで検索してみると, 便利なPerlモジュールがありました. Lingua::LanguageGuesser http://gensen.dl.itc.u-tokyo.ac.jp/LanguageGuesser/hajimete_monogatari.html これを使うと60以上の言語を識別できるそう.デモのページで試してみると malay
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く