タグ

2014年1月10日のブックマーク (3件)

  • [4]機械学習におけるApache Mahoutの可能性と課題

    第2回、第3回では、音声データと、画像データに関するメディア認識技術について解説してきました。今回は、メディア認識技術に共通する課題である、機械学習の高速化について取り上げます。 まず、機械学習とは何かということから簡単に説明すると、ある程度大量のデータの中から規則性やパターンを見いだすことで、データの認識や判定などに役立てる取り組みのことを指します。例えば、皆さんが使用しているパソコンや情報システムの多くには、メールを受信したときに、ウイルスが含まれていないかどうか、スパムメールでないかどうか、判定するソフトウエアが入っていると思います。これも、過去の大量データに基づいて、ウイルスが入っていたり、スパムメールだったりする可能性が高いパターンを機械学習することで判定の仕組みを作り、そのロジックを活用しているのです。 そしてメディア処理システムには、音声、画像、テキストなどデータの種類を問わ

    [4]機械学習におけるApache Mahoutの可能性と課題
  • ビッグデータとHadoop(1) 改めてビッグデータとは?

    情報抽出とソーシャルメディア 最近よく耳にするビッグデータとは、どのようなものなのでしょうか? 一般に、ビッグデータは、Volume(データの量)、Variety(データの種類)、Velocity(データの生成あるいは更新頻度)の頭文字を取り「3V」と定義されることが多いようです。しかし、これはデータの特徴を述べているだけで、「ビッグデータが話題になっている理由」が分からない方も多いと思います。そもそも昔からデータ自体はあるのに何が違うのでしょうか。 その理由の1つに、「従来よりデータが入手し易く、それらのデータが使い易くなってきた」ことがあります。 データが貯められると、次の関心はその使い方に移ります。つまり、データもお金と同様に、貯められるだけでなく使われる日がやってきます。その使い方の一つに、将来予測があります。データは何らかの事象から生じているので、その事象の原因を突き止めることで

    ビッグデータとHadoop(1) 改めてビッグデータとは?
  • 第1回 機械学習を実践する前の基礎知識 | gihyo.jp

    みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

    第1回 機械学習を実践する前の基礎知識 | gihyo.jp