ビッグデータの衝撃―巨大なデータが戦略を決める という本を読みました。 ビッグデータとは何か、どのように使われているのか、データサイエンティストとは、といったことが事例と共にとても分かりやすく説明されており、入門者レベルの私でも理解できました。 photo credit: JD Hancock via photopin cc そのなかで出てきたひとつのワード。それについておもしろいなーと思ったので取り上げてみたいと思います。 「データアグリゲーター」 まだあまりなじみのない言葉かもしれないが、データアグリゲーターとは、消費者とデータ活用事業者の間に入り、データの収集、分析、最適化を実施し、そのデータを事業者に提供する中間事業者のことです。 クックパッドとアイディーズ 具体的な事例としてクックパッドとアイディーズの話があげられていました。 日本最大のレシピサイトであるクックパッドと、全国のス
日本人3人がシリコンバレーで起業した「トレジャーデータ」は、データの収集・保管・分析を一貫して行うクラウド・ソリューション「Treasure Data Service」をエンタープライズ向けに提供する企業だ。分散処理を行うミドルウェア「Hadoop」や自社開発のデータベースを組み合わせたプラットフォームは、素早い実装と拡張性、安定性が評判を呼び、創業から約3年で100社以上に導入されている。 ビッグデータという言葉はビジネス用語として定番となりつつあるが、データの管理の負担が大きいなど、フルに活用できている企業はまだ少ない。世界でも注目されるスタートアップの1つである同社を率いる創業者の1人、CTOの太田一樹さんにビッグデータビジネスの今後の展望などについて聞いた。 データ解析をもっとシンプルに 「Treasure Data Service」の導入先は現在120社程度、そのうち約4割が日本
(1)ビッグデータ活用とビジネスの変化 -コマツで起こったこと- 前回は城崎温泉の事例から、ビッグデータ活用の本質を明らかにし、さらにこの活用を進めるには目的の明確化、マネジメントが参画した意思決定と活用効果の検証が重要であるという話をしました。 では、ビッグデータ活用でビジネスはどのように変わるのでしょう。これに関しても素晴らしい事例があります。建設機械大手のコマツです。同社の建設 機械には、車両の状態や稼働状況をチェックするセンサーやGPS装置が取り付けられ、各車両のデータを図1のように、通信衛星回線や携帯電話回線を通じて コマツのサーバーに自動的に送信し、集積しています。コマツ機械稼働管理システム「KOMTRAX(コムトラックス=Komatsu Machine Tracking System)」と呼ばれるシステムです。このシステムでは、建設機械という「モノ」をインターネットに接続し、
米セールスフォース・ドットコムはベンチャー企業に対する投資も活発だ。2014年10月13日から16日(現地時間)に米・サンフランシスコで開催された同社のイベント「Dreamforce 2014」で発表されたデータ分析プラットフォームの「WAVE」にも、同社が買収した企業が開発に関わっているという(関連記事:セールスフォースが「分析クラウド」投入、DWHとBIツールを一体化して提供)。日本でも多くのBtoBベンチャーに出資しており、その中から米国に進出する企業も現れた。同社の投資案件に関わるExecutive Vice President、Corporate Development & Salesforce Venturesのジョン・ソモルジャイ氏に聞いた。
#今回は知財ではなく純粋にITの話です。なお、SoftbankのCMとも関係ありません。 データウェアハウスを構築する上で重要な処理にETL(Extract Transformation Load)があります。文字通り、データソースのシステムからデータを「抽出」し、「変換」し、データウェアハウスに「ロード」する処理のことです。 「変換」処理では、複数ソースのデータを統合して、データの形式をそろえたり、不正データを排除したりします。いわゆるデータ・クレンジング(洗浄)と呼ばれる処理です。これによってデータウェアハウスにロードされるデータの品質を向上できます。 しかし、ビッグデータの世界ではこのデータ洗浄をしてからロードするという考え方が必ずしも適切ではなくなってきます。データ品質とは一義的に決まるものではなく、分析の文脈によって変わってくるからです。データ管理者ではなくデータサイエンティスト
先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。 それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており
This blog post is authored by Chris Burges , Principal Research Manager at Microsoft Research, Redmond. Hi, I’m Chris Burges. Over my last 14 years at Microsoft, and my previous 14 at Bell Labs, I’ve spent much of my time dabbling with machine learning (ML), with some of that time spent on solving industrial strength problems. Since interest in ML, especially in industrial settings, has blossomed
2012/11/19 情報処理学会連続セミナー「ビッグデータとスマートな社会」の第5回:ビッグデータに立ち向かう機械学習での講演資料です。Read less
「BigQueryは120億行を5秒でフルスキャン可能」は本当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く