タグ

2012年11月2日のブックマーク (2件)

  • HadoopとRDBとのつながりを考える

    連載の第3回は、Hadoop周辺プロダクトの紹介を中心に、HadoopとRDBMSとのつながりを解説し、スムーズなデータの移行手段について検討する。 RDBMS(リレーショナルデータベース管理システム)は、非常に多くのITシステムでデータの保存に利用されている。RDBMS以外のデータベース製品が選択されるのは例外的ケースであるという印象を受けるほどだ。トランザクション処理によりデータの一貫性を強力に保持できること、歴史が長く完成度の高い実装が多数存在すること、結果として多くの技術者がRDBのデータモデルとそのインタフェースであるSQLになじみがあることなどがその理由であろう。 ただし、高い一貫性を提供するRDBMSは、サーバーサイドでの処理量が多く、処理を並列化してスケールアウトを図ることが難しい。そのため、扱えるデータの規模を大きくしようとすると、高価なハードウエアを用意する必要に迫ら

    HadoopとRDBとのつながりを考える
    fragarach_the_sword
    fragarach_the_sword 2012/11/02
    ITPro連載:Hadoop活用実践の勘所 - HadoopとRDBとのつながりを考える
  • [4]機械学習におけるApache Mahoutの可能性と課題

    第2回、第3回では、音声データと、画像データに関するメディア認識技術について解説してきました。今回は、メディア認識技術に共通する課題である、機械学習の高速化について取り上げます。 まず、機械学習とは何かということから簡単に説明すると、ある程度大量のデータの中から規則性やパターンを見いだすことで、データの認識や判定などに役立てる取り組みのことを指します。例えば、皆さんが使用しているパソコンや情報システムの多くには、メールを受信したときに、ウイルスが含まれていないかどうか、スパムメールでないかどうか、判定するソフトウエアが入っていると思います。これも、過去の大量データに基づいて、ウイルスが入っていたり、スパムメールだったりする可能性が高いパターンを機械学習することで判定の仕組みを作り、そのロジックを活用しているのです。 そしてメディア処理システムには、音声、画像、テキストなどデータの種類を問わ

    [4]機械学習におけるApache Mahoutの可能性と課題
    fragarach_the_sword
    fragarach_the_sword 2012/11/02
    ITPro連載:非構造化ビッグデータの処理技術(4)機械学習におけるApache Mahoutの可能性と課題