タグ

ブックマーク / komachi.hatenablog.com (5)

  • ゲームのための人工知能研究 - 武蔵野日記

    @myuiくんの紹介で「安藤ケンサク」というゲームを知る。 安藤ケンサク - Wii 出版社/メーカー: 任天堂発売日: 2010/04/29メディア: Video Game購入: 2人 クリック: 79回この商品を含むブログ (18件) を見るGoogle 検索を用いて検索単語のヒット数を競ったりするゲームらしい。ちなみに名前は「AND 検索」から来ているらしい。べ、別にオヤジギャグ好きだから取り上げるんじゃないんだからね! 内容はおいておいて、開発者へのインタビューがおもしろい。少し引用。(「岩田」というのは任天堂現社長である) 岩田 ふつう、ゲームをつくるときは、自分たち自身ですごく汗をかきながら設定をつくり、技を決め、みたいなことをするのですが、今回のソフトのデータは全部Googleさんのサーバのなかにありますので、そこから好きなデータを選んで、それをゲームに活用するだけでいいとい

    ゲームのための人工知能研究 - 武蔵野日記
    kdaiba
    kdaiba 2010/05/06
    こんなゲームがあるのか
  • Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記

    Google IME がリリースされたそうで、Twitter でも #googleime というハッシュタグで祭りになっているようである。リリース文を見ると @taku910 さんと @komatsuh さんが主に関わっているようである。 以前Google サジェストのローマ字検索機能 = Google IME でも書いたことがあるのだが、これが出る予兆はいろいろあって、 2007年秋に Google語 N グラムが出る(もっと言えば2007年3月に言語処理学会で「N グラムデータを出すならどういう形がいいか、どういう用途で使うか」という特別セッションがあった)ときから想像できたことであり、taku さんや komatsuh さんくらいのエンジニアであればエンジンを作るのには数日もかからないであろう。 Social IME 開発者の nokuno さんもGoogle IMEという可能

    Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記
    kdaiba
    kdaiba 2009/12/03
    人材は人材を呼ぶ
  • 最先端の実験は必然的に大規模化する - 武蔵野日記

    大規模テキストデータ(もう昨今 GB 単位はそんな大規模ではなく、TB 単位以上)を対象とした研究をしている自分が言うのもなんだが、そもそも自然言語処理の研究ってそんなに大規模化する必要はないし、データ量を増やしたからといってそんなに劇的に精度が変わったりするわけではない(むしろ扱いに独特なコツが必要なので、うかつに手は出さないほうがいい)、と思っているのだが、なんでみんな大規模化したがるのかなぁ、と不思議だった疑問に得心がいった。 もちろん増やしたデータ量に対し log スケールで改善する、というような微弱な改善効果はあるのだが、そんなことよりはアルゴリズムを変えたり、用いるデータの質を上げたり、もしくは使う素性を工夫したり、はたまた全部同じだけどパラメータだけチューニングしたりするほうが大幅に精度に影響したりするのは世の常である。 で、今晩見た爆問学問で、先週の情熱大陸と同じくノーベル

    最先端の実験は必然的に大規模化する - 武蔵野日記
    kdaiba
    kdaiba 2009/04/02
    すごく納得した
  • MeCab 用医療用語辞書と分野適応の話 - 武蔵野日記

    少し前のことであるがComeJisyoというものが公開されている。概要によると 医療従事者用の文書を形態素解析器Mecabを利用して分かち書きするための用語辞書を作成し公開します. とのことで、3万語以上医療用語が入っている辞書がオープンになったのは朗報。ちなみに ComeJisyo (ComeDic) という名前は、医師以外の医療従事者のことを指す「コメディカル」という言葉の先頭から取ったのかなと思われる。 形態素解析についてそんな詳しいわけでもないのだが、形態素解析というのは自然言語処理のあらゆる処理の基礎になるもので、大きく分けると単語分かち書き(日語や中国語のように単語境界が明示されない言語では大問題)と品詞タグづけの処理に分けることができる。 分野が異なると専門用語がそもそも辞書に登録されていないので、たとえば企業でコールセンターの応答のデータに対して形態素解析をかけても、未知

    MeCab 用医療用語辞書と分野適応の話 - 武蔵野日記
    kdaiba
    kdaiba 2009/03/29
    医療用辞書
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
    kdaiba
    kdaiba 2009/03/29
    気がついたらPythonが伸びてるんだなー
  • 1