タグ

googleとtechに関するanegishiのブックマーク (4)

  • グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果

    グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かるデータだ。インターネットで収集した膨大な日語データを解析することで作成した。勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。 N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。 どの語とど

    グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果
  • 「グーグルは検索技術で王座を狙う」--シュミット氏、ヤフーやMSとの差別化戦略を語る

    カリフォルニア州マウンテンビュー発--Googleの最高経営責任者(CEO)であるEric Schmidt氏は米国時間5月10日、競合するYahooMicrosoftとは異なり、同社は検索をビジネスの中核として位置づけていることから、いずれはウェブサービスおよび情報サービスの主要なインフラストラクチャプロバイダーとして認知されるようになるだろうと述べた。 Schmidt氏は同社の年次記者会見の席上で、「今後競争がよりいっそう激しくなるのは明らかである。こうした競争はエンドユーザーにとっては好ましいものだ。(しかし、)当社の競合社はこれを重要視していない」と語った。 ウェブが登場する以前の商業が高速道路の建設によって盛んになったように、情報サービスおよび情報産業はウェブ検索の成長とともに拡大していくはずだと、Schmidt氏は話している。「検索こそがビジネスを活性化する真に統一的なソリュー

    「グーグルは検索技術で王座を狙う」--シュミット氏、ヤフーやMSとの差別化戦略を語る
  • グーグル技術講演会 - pekeqのブログ

    日行われた「グーグル技術講演会」に行ってきた。MapReduceやSawzallの話は、Googleが公開しているpaper以上の内容ではなかった感じ。それ以外で記憶に残ったのはこんなところでした。 ノード 何千台の2CPU 2-4GBmem x86 PC GbE ローカルIDE HDD(あんまりローカルF/Sにはアクセスしない) インフラ MapReduce Sawzall Protocol Buffer (Sawzall論文のPDF5ページ目 後半) GFS Work Queue BigTable MapReduceを利用して、保管されているWebページ全体に対してとあるクエリーを投げ、終わるまでに半日かからない Googleエンジニアは、社内で利用しているソフトウェアのソースコードに自由にアクセスできる 一方で、データは扱えるレベルがあって、たとえば(アクセスログに記録された)I

    グーグル技術講演会 - pekeqのブログ
  • Web 2.0:次世代ソフトウェアのデザインパターンとビジネスモデル(前編) - CNET Japan

    2001年のドットコムバブルの崩壊は、ウェブにとって、ひとつの転換点とな った。「ウェブは誇大に宣伝されていた」と多くの人が結論を下したが、バブ ルとその後の淘汰はあらゆる技術革命に共通する特徴であるように思われる。 一般に、淘汰は新興技術がそれまでの主役に取って代わる段階に到達したこと を示している。見かけ倒しの企業は駆逐され、物の実力を備えた企業が大き な成功を収める。そして、両者の違いが理解されるようになる。 「Web 2.0」という概念は、O'ReillyとMediaLive Internationalによるブレ インストーミングから生まれた。ウェブのパイオニアであり、現在はO' Reillyでバイスプレジデントを務めるDale Doughertyは、ウェブは「崩壊」し たどころか、かつてないほど重要な存在となっており、刺激的なアプリケーシ ョンやサイトは、驚くほど着実に生まれて

    Web 2.0:次世代ソフトウェアのデザインパターンとビジネスモデル(前編) - CNET Japan
  • 1