エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
中国語判定(というか除外)したいという話 - White scenery @showyou, hatena
@penguinana_さんからもらったtweetの山解析してるんだけど、中には日本語だけじゃなくて中国語とか英語... @penguinana_さんからもらったtweetの山解析してるんだけど、中には日本語だけじゃなくて中国語とか英語も混ざってたりする。 この辺解析するのは時間の無駄なので機械的にカットできないかと思った。 この辺id:n_shuyoさんのlanguagedetect使って判定できると幸せなんだけど、tweetだと結構誤判定するのが残念なとこ。 http://code.google.com/p/language-detection/ でも中国語なら中国の簡体字弾くだけでも結構減らせるかなぁって。 そしたらid:takeda25さんが↓のようにやるといけると教えてくれた。 あとで試してみる。 http://d.hatena.ne.jp/takeda25/20110131 その最中にこんなの見つけた。 Pythonの自然言語処理用パッケージNLTKをインストール http://d.hatena.
2011/02/01 リンク