タグ

2008年10月26日のブックマーク (2件)

  • 機械翻訳と言語モデリング - 武蔵野日記

    でも、遊んでばかりいるわけではアリマセン! というわけで聞いてきた内容でも書いてみると、今日の午前中のセッションでは Discriminative, Syntactic Language Modeling through Latent SVMs Colin Cherry & Chris Quirk (Microsoft Research) AMTA 2008 がおもしろかった。やりたいこととしては機械翻訳の出力が(Nグラムを用いた)言語モデルではスコアが高くなってしまう、という問題が知られており、当の翻訳文と機械翻訳の出力を比較したとき、当の翻訳文のほうがスコアが高くなるようにしたい、というのが動機。実際、(Och et al. 2004) では P(機械翻訳の出力) > P(機械翻訳の出力のうち、一番いい翻訳) > P(正解文) となっているそうで、言語モデルが適切に機能していない、

    機械翻訳と言語モデリング - 武蔵野日記
  • Google 工藤拓さん講演「大規模ソフトウェア開発を支えるGoogleのテクノロジー」

    NAISTにてMeCabの作者としても有名な工藤拓さんの講演が行われました。Googleの開発体制とそれを支えるツールのお話です。 学校と拓さんの双方からブログへの掲載許可が得られたので、まとめを公開します。この講義はNAISTのソフトウェア開発管理講義の一環です。 iPhoneカメラしかなかったので、画像が荒くて済みません・・・。 会場は大入り! 工藤拓さん NAIST自然言語処理学講座出身 Googleに入社してから大規模開発やインフラを経験 MeCabを開発 NTTコミュニケーション科学基礎研究所に所属 その後Googleへ 研究より開発寄り Googleでの仕事語のウェブ検索 「もしかして」機能 ダジャレサーチ エイプリルフールネタを1ヶ月かけて実装 何千人もの開発者が単一のソースコードリポジトリの上で開発を行っている 大規模開発をサポートするインフラが不可欠 Mondria

    Google 工藤拓さん講演「大規模ソフトウェア開発を支えるGoogleのテクノロジー」