2010年6月22日のブックマーク (2件)

  • ■ - あしたからがんばる ―椀屋本舗

    Baiduが「不自然言語処理コンテスト」なるものをやるらしい。 http://www.baidu.jp/unlp/ せっかく公開されてるのでデータを見てみた。気が向いたら参加するかも、くらいの感じ。以下雑感。 絵文字とかが入っているのが売りらしいけど、UTFでコーパスを作ったらそもそも絵文字は入るんじゃないんだろうか 学習データがものすごくアダルトサイトに偏っていて卑猥。「電車 で レイプ」とか普通にtri-gramに入ってる、上にエントリー数や頻度が多い。 5-gram見てたら普通に顔文字が分割されて入ってた。顔文字の前のコンテキストを見たいのに、これはちょっとなあ…と思う。どうやら分割基準はIPA-dicぽいが、「(´Д`)」とかは普通に1単語として扱って欲しかったなあ。 という感じ。とはいえ面白そうではあるので、時間ができたらなんか作ってみよう。 - 最近はSLPの原稿書いたり実験し

    ■ - あしたからがんばる ―椀屋本舗
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    murawaki
    murawaki 2010/06/22