[B! Hadoop] i_matsuiのブックマーク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

i_matsui 2016/03/15

リンク

導入編～Hadoopクラスタを構築するまで

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

i_matsui 2013/07/18

リンク

『Mapperの書き方とかなにかにか』

JavaでHadoop上で動作するMapperを書こうとしたらリファレンスの言ってることが全くわからず、本を読んでもちんぷんかんぷん。 2時間位かけてようやくMapperで必要な知識を手に入れました。ちょっとまとめてみます。・Mapperインターフェース JavaでMapperを書くとき、Mapperインターフェースを実装することでHadoop上で動くMapを作成することが出来ます。 Mapperインターフェースは Interface Mapper<K1,V1,K2,V2> という感じで定義されており、K1,V1,K2,V2 にはクラス名が入ります。 K1はMapperへの入力キーのクラス名、V1はキーに対応する入力値のクラス名となります。同様に、K2はMapperからの出力キーのクラス名、V2はキーに対応する出力値のクラス名となります。これらのキーと値はInputFormatと呼

i_matsui 2013/07/18

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

i_matsui 2013/07/17

リンク

第1回　分散処理を隠蔽し、大規模開発を可能に

筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（

i_matsui 2013/07/17

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

Hadoopに関するi_matsuiのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (10)

Hadoopに関するi_matsuiのブックマーク (5)

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社 技術ブログ

導入編～Hadoopクラスタを構築するまで

『Mapperの書き方とかなにかにか』

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

第1回 分散処理を隠蔽し、大規模開発を可能に

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

第1回　分散処理を隠蔽し、大規模開発を可能に