[B! hadoop] anegishiのブックマーク

Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

anegishi 2014/08/16

リンク

Treasure Data - naoyaのはてなダイアリー

少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。

anegishi 2013/08/23

リンク

IPAが「Hadoop体験型研修コンテンツ」を公開、仮想マシンも無償提供

独立行政法人情報処理推進機構（IPA）は2012年4月27日、「Hadoop体験型研修コンテンツ」を公開した。プレゼン資料（写真1）などとともに、仮想マシンも無償で使用可能。社内研修など非商業利用であれば無償で利用できる。同日、コンテンツを使った実際の研修も実施した（写真2）。「Hadoop体験型研修コンテンツ」は、研修運営マニュアル、プレゼン資料、受講者向け教材で構成される。Hadoopの構成、MapReduceのプログラミング、Hiveの基礎、MapReduce/Hadoop Streaming/Hiveの使い分けなど、Hadoopの基礎から応用までをカバーした研修。IPAが運営しているサイト「オープン・ラボ」で公開している（閲覧、利用にはユーザー登録および申し込みが必要）。オープン・ラボでは仮想マシン環境を提供しており、受講者が実際にHadoopを操作できる。同日、IPAと国立

anegishi 2012/05/09

hadoop

リンク

グーグルとフェイスブックが「別格」たるもう1つの理由：日経ビジネスオンライン

前回のコラムで、「Hulu（フールー）」などのネット映像配信の価値は、「配信」の部分でなく、検索・過去履歴・オススメ・ソーシャルなどといった「ネット独特のインテリジェンス」にある、ということを書いた。このようにウェブの世界は、クラウドの中に存在するあらゆるデータを燃料として「インテリジェンス」を作り出す巨大な「発電所」の顔を持つ。そして、それを支える技術が、最近話題の「ビッグデータ」だ。ビッグデータとは、膨大な量のデータを処理・分析し、その結果を業務に活用する仕組みのこと。金融など、定型的なトランザクションデータが膨大に発生する業界では、従来から自社内でそのデータを処理・分析して、株価の予測やオプション取引の価格づけなど、さまざまな目的に活用していた。ところが、「ウェブ2.0」「クラウド」「ソーシャル」といった一連のネットの進化の中、ユーザーが生成するデータの増加、コンテンツのデジタ

anegishi 2012/02/05

リンク

Hadoopで始める並列データ解析／前編 | Inhale n' Exhale

1月13日（金）にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。もうそれだけで、いつものギークサロンよりハードルが高いのだが、当日は15人ほどのギークたち（中には3日前にベイエリアに来たばかりという学生もいた）が集まって、おのおのラップトップとにらめっこしながらHadoopと戯れていた。今回のギークサロンをホストしてくださった山中仁氏が、EC2上にHadoopクラスタを構築する方法を、参加者向けの資料としてWeb上に準備してくださり、「Hadoop＝未知の領域」だった自分でもすんなりHadoopクラスタを組むことができた。だが残念なことに、この資料自体がEC2上に一時的に立てたサーバーに置かれており情報が恒久的には残ら

anegishi 2012/02/03

hadoop

リンク

ビッグデータ時代に熱望される3つのスキル｜【Tech総研】

今年になって「ビッグデータ」という言葉がクローズアップされるようになった。今後、大量なデータを保管するだけではなく、効率的な分散処理、そして分析によってビジネスにどう活用していくかが重要視されている。本格的なビッグデータ時代を迎える今、必要とされるエンジニアについて探ってみたい。ビッグデータとはその名の通り、大量のデータを指す。その定義は人により異なるが、一般的には数百テラバイトからペタバイト級以上のデータを指すことが多い。しかし最近になってなぜ、「ビッグデータ」というキーワードが注目を集めるようになったのか？その理由について、ビッグデータ関連の記事を寄稿するなど、ビッグデータ事情に詳しい栗原氏によると、「ビジネスパーソンの注目が集まった」ことだという。「大容量データをどう効率的に処理・保管するか、というビッグデータ類似のコンセプト自体は10年以上前からありました。しかし、データ管理

anegishi 2011/12/07

リンク

ビッグデータとクラウド：アマゾンCTOに聞く

Digital Europeのロベルト・ジカーリ編集長は、さきごろアマゾンのCTO兼副社長、ヴェルナー・フォーゲルス博士 (Werner Vogels, Ph.D.)とインタビューを行い、オブジェクトデータベース技術専門ブログ、ODBMS.orgに掲載した(11/2)。IT関係者のための記事だが、アマゾンの技術がどのような性質のもので、どこへ向かおうとしているかを語っている。これは非技術者にとっても、デジタルメディア・ビジネスとそれを支えるテクノロジーを考える上でも重要なもので、あえて掲載することにした。解説が必要だと思うのでこれは稿を改める。（鎌田）ヴェルナー・フォーゲルス博士とのインタビュー「ビッグデータの中心概念の一つは、時とともに解析を進化させていける、ということです。新しいデータ分析の前提は、ユーザーの知りたいことが進化し、変化していくなかで、資源の制約を受けずにデータを集め

anegishi 2011/11/07

リンク

TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング（Doug Cutting）さんが「Cloud Computing World Tokyo 2011」＆「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。満員の客席。皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

anegishi 2011/09/02

リンク

FlyData | Real Time MySQL Replication to Amazon Redshift

Intuitive Integration Simple setup allows you to start integrating your data in minutes instead of days. Once setup, data flow is on autopilot. Streamline Your Data Flow Load your Apache, JSON, CSV, TSV log files, or MySQL data directly into Redshift as they are being generated. No need for custom scripts, daily batch uploads, or monitoring for errors. FlyData takes care of it all. Manage Data in

anegishi 2011/08/31

hadoop

リンク

そろそろHadoopについてひとこと言っておくか - nokunoの日記

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

anegishi 2011/01/04

hadoop

リンク

TechCrunch | Startup and Technology News

TechCrunch Disrupt 2024 will be in San Francisco on October 28–30, and we’re already excited! This is the startup world’s main event, and it’s where you’ll find the knowledge, tools… As a part of a multi-part series, TechCrunch is highlighting women innovators — from academics to policymakers —in the field of AI.

anegishi 2010/10/21

cloud
hadoop

リンク

はてなブログ | 無料ブログを作成しよう

トルコ水紀行　－前編イスタンブール－みなさんこんばんは、地図子です！8月は久しぶりに毎月更新にしようと思います。今までずっと名古屋について書いてきましたが、ワープして・・・トルコについて書きたいと思います。 2024年6月に念願のトルコに行ってきました。いつからトルコに行きたかったかわから…

anegishi 2010/08/01

hadoop

リンク

Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera

グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。 Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。 Hadoopは新しいデータ分析プラットフォームになる Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョ