[B! Hadoop][hadoop] nakaji999のブックマーク

めざせ！Hadoopエンジニア―開発者編―

大規模データを処理するための基盤の一つとして、分散処理プラットフォームであるHadoopが広く使われるようになり、その勢いは世界中で加速しています。一方、大規模データの分析、活用のための人材不足が深刻化し、人材育成が急務となっている企業も少なくありません。本記事では、大規模データ処理基盤として注目されているHadoopの歴史と共に、Hadoopのスキルを客観的に証明できるHadoop認定プログラムを前／後編に分けて紹介します。 Hadoopが注目される理由ハードウェアの進化に伴ってサーバの性能は年々向上しています。ムーアの法則にあるように、その中でもCPUなど半導体の性能は著しく向上しています。一方でハードディスクの性能はこれに追いついておらず、データの読み書き時には待ち状態になってしまう場合もあるでしょう。つまり、データ量が多ければ多いほど、待ち状態がボトルネックとなってしまうので

nakaji999 2012/06/21

Hadoop

リンク

並列分散処理の常識をHadoopファミリから学ぶ

Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common：Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS：分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce：膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワークこれらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro：Commonの持つ機能を拡張したデータシリアライズシステム Cassandra：単一障害点のないスケーラブルなマルチマスタデータベース Chukwa：大規模な分散システムでのデータ収集システム HBase：大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

nakaji999 2012/02/15

hadoop

リンク

第1回　レコメンドシステムと集合知 | gihyo.jp

はじめに今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。連載の予定は次の通りです。レコメンドシステムと集合知（今回）レコメンドシステムの実装と課題協調フィルタリング（前・後編）コンテンツベースレコメンド（前・後編）今回の記事のポイントは以下の通りです。レコメンドシステムの目的は気付きと驚きを与えること理想のレコメンドはソムリエのお薦めレコメンドシステムに必要なのは嗜好と専門性では、早速はじめましょう。レコメンドシステムとは？レコメンドシステムは情報フィルタリングの一種で、大量の

nakaji999 2012/02/01

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

nakaji999 2011/09/10

hadoop

リンク

Hadoopモデリング座談会（第5回）へ行ってきました - 虎塚

第5回とのことですが、自分は初めて参加しました。そもそもHadoopとタイトルにつくイベントへ行ったのは、初めてでした。これまで遠巻きに見ていましたが、何か、色々あって参加することに。 zusaar.com -&nbspzusaar リソースおよび情報 2011/06/29_Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回） #hadoopmodeling - Togetter せっかくなのでノートを上げておきます。 1. 「鉄道システムへの誘い」 [twitter:@ayasehiro]さん発表の目的は、「学生の方に鉄道システムに興味を持ってもらうこと！」とのこと。鉄道システムの開発のお話システムは一度作ったら長く使う耐用年数10年以上開発のスパンも長い長いときで5年くらい製造に時間をかけられない半分が開発、半分が試験開発

nakaji999 2011/06/30

リンク

はてなブログ | 無料ブログを作成しよう

日記_2024.8.29 鞍馬と貴船 29日は鞍馬と貴船に行ってきました。こんな天気でバイクは無理、でも引きこもるのも嫌なので前々から行きたかった鞍馬と貴船に行くことにしました。ただ、いつ大雨が降っても全くおかしくないので天気がヤバそうなら帰ることにします。普通に日帰りできる距離ですから…

nakaji999 2011/06/30

リンク

Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回）に参加しました。 | @johtani の日記

一定期間更新がないため広告を表示しています

nakaji999 2011/06/30

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

nakaji999 2011/06/21

hadoop

リンク

エンタープライズ向けHadoop提供へ、米EMC －＠IT

2011/05/10 Hadoopのエンタープライズ向けディストリビューションを6月末までに提供すると、米EMCが5月9日に発表した。EMCといっても、ストレージ機器の事業部門ではない。同社が2010年7月に買収した、元米Greenplumの事業部門だ。これにより、非構造化データの分析ニーズの高まりに対応していくという。 Greenplumはこれまで、オープンソース技術をベースとした、データウェアハウス／ビジネスデータ分析向けのデータベースシステムである「Greenplum Database」を提供してきた。多数のPostgreSQLインスタンスを並列に動作させてデータ処理を実行する仕組みを通じ、データロードおよびクエリ処理の高速化とスケーリングを実現し、大規模データウェアハウスを可能としている。Greenplum製品群としては現在、有償のソフトウェア製品に加え、無償の「Greenplum

nakaji999 2011/05/11

リンク

Hadoop入門とクラウド利用

This document discusses Hadoop and related techno logies. It introduces Hadoop, its components MapReduce and HDFS, and how they work together. It also briefly mentions related Apache projects like Mahout and how companies like Amazon, Yahoo and Facebook use Hadoop in their systems. Finally, it covers Amazon's Elastic MapReduce service, which allows running Hadoop jobs in the cloud.Read less

nakaji999 2011/04/10

リンク

Asakusa Enterprise Batch Processing Framework for Hadoop

3. 目的 Asakusa の目的基幹バッチ処理を Hadoop 上で、開発・実行・運用すること Hadoop 上で基幹を動かすことの狙いバッチ処理時間の短縮バッチ処理の短縮で何が可能になるのか？ ① 今まで時間的な制約できなかった処理を何度も行うことができる月次・週次での処理を日次で行える。可能であれば「即時処理」シミュレーション・確定処理・クレンジング・引当・受発注・在庫管理・予測処理 ② 時間的に処理が不能であったデータも処理をする 13 か月実績推定から 100 カ月超のデータも取り込むデータ種が異なるデータもまとめて処理にかける ③ 無駄な時間がなくなり、運用のコストが劇的に下がる夜間バッチをなくして、運用監視の人的なコストを下げる 4. 実際どんなものか？基幹バッチ処理の例～一部抜粋仕入データ取り込み残高更新照合処理仕入明細データ仕入返品デー

nakaji999 2011/04/06

リンク

Hadoopフレームワーク「Asakusa」がOSSで公開－＠IT

2011/03/31 ウルシステムズは3月31日、基幹業務システムのバッチを高速処理するためのフレームワーク「Asakusa Framework」の正式版をオープンソースとして公開した（発表文、GitHubのレポジトリ）。Hadoop上に基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装したもの。HadoopはJavaベースのオープンソース分散処理技術として、すでに広く利用されている一方、業務処理への適用では、導入の難しさから利用が進んでいなかった。Asakusaを使うことで、Hadoopに詳しくないエンジニアでも簡単にシステム開発ができるという。 Asakusaは、MapReduceのDSLをコンパイルする「Ashigel Compiler」、Hadoopのデータフォーマットに合わせたデータモデルを生成するジェネレータ、統合テストスイートの3つのコンポーネントからなる。Ashi

nakaji999 2011/04/01

Hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nakaji999 2011/03/04

hadoop
HDFS

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

nakaji999 2011/02/23

リンク

Hadoopの可用性について（私訳） - developer’s delight

この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか？というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

nakaji999 2011/02/14

hadoop

リンク

ウルシステムズ、基幹バッチ用HadoopフレームワークをOSS化

ウルシステムズは2011年2月9日、オープンソースソフトウエア（OSS）の分散バッチ処理ソフト「Hadoop」を使って基幹バッチ処理を開発できるソフトウエアフレームワーク「Asakusa Framework」を、OSSとして公開すると発表した。プログラマーはHadoop独特の分散処理の仕組みを理解しなくても、基幹バッチ処理を開発できる。ソースコードは3月に公開する予定。 Hadoopは、米グーグルの並列プログラミングモデル「MapReduce」と分散ファイルシステム「Google File System」を模した分散バッチ処理ソフト。I/O処理を複数台のサーバーで分散処理することで、バッチ処理の速度を大幅に高速化できる。 Hadoopのプログラムは、プログラミング言語のJavaを使い、「Map処理」と「Reduce処理」というMapReduce独特の機構を組み合わせて開発する必要がある。そ

nakaji999 2011/02/09

リンク

「Jaql」を使ってMapReduceをより簡単に

Jaql（a query language desired for JSON：JSON用に位置づけられたクエリ言語）は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日本語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。本原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト本記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON（

nakaji999 2011/01/05

JSON
hadoop

リンク

そろそろHadoopについてひとこと言っておくか - nokunoの日記

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

nakaji999 2011/01/03

hadoop

リンク

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH（データウエアハウス）としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用－－リクルートリクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

nakaji999 2010/12/17

リンク

Hadoop MapReduceプログラムを解剖する

オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

nakaji999 2010/12/01

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

Hadoopとhadoopに関するnakaji999のブックマーク (38)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス