タグ

ブックマーク / kazama.hatenablog.com (2)

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    haida
    haida 2008/02/18
  • 2004-12-07

    MapReduceは,Google社内でクラスタ上のデータ処理に用いられている並列分散プログラミングモデルである.ちょうど今サンフランシスコで開催されるOSDI 2004に発表予定の論文が,すでに公開されているが,これが非常に面白い. http://labs.google.com/papers/mapreduce.html 概要は次のような感じ. データ処理を,MapとReduceの2つに分割する.なお,この名前は同様な機能を持つLispの関数名が由来. Mapでは,あるキーと値の組から,中間のキーと値の組のリストを生成し,ローカルディスクに書き込む. Reduceでは,Mapが生成したキーと値の組をリモートディスクから読み出し,値のリストを返す. MapとReduceは,複数のワーカによって分散したマシン上で並列に実行される. たとえば,細分化された入力ファイルをMapを処理するワーカが

    2004-12-07
  • 1