[B! Hadoop] nakaji999のブックマーク

めざせ！Hadoopエンジニア―開発者編―

大規模データを処理するための基盤の一つとして、分散処理プラットフォームであるHadoopが広く使われるようになり、その勢いは世界中で加速しています。一方、大規模データの分析、活用のための人材不足が深刻化し、人材育成が急務となっている企業も少なくありません。本記事では、大規模データ処理基盤として注目されているHadoopの歴史と共に、Hadoopのスキルを客観的に証明できるHadoop認定プログラムを前／後編に分けて紹介します。 Hadoopが注目される理由ハードウェアの進化に伴ってサーバの性能は年々向上しています。ムーアの法則にあるように、その中でもCPUなど半導体の性能は著しく向上しています。一方でハードディスクの性能はこれに追いついておらず、データの読み書き時には待ち状態になってしまう場合もあるでしょう。つまり、データ量が多ければ多いほど、待ち状態がボトルネックとなってしまうので

nakaji999 2012/06/21

Hadoop

リンク

並列分散処理の常識をHadoopファミリから学ぶ

Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common：Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS：分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce：膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワークこれらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro：Commonの持つ機能を拡張したデータシリアライズシステム Cassandra：単一障害点のないスケーラブルなマルチマスタデータベース Chukwa：大規模な分散システムでのデータ収集システム HBase：大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

nakaji999 2012/02/15

hadoop

リンク

第1回　レコメンドシステムと集合知 | gihyo.jp

はじめに今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。連載の予定は次の通りです。レコメンドシステムと集合知（今回）レコメンドシステムの実装と課題協調フィルタリング（前・後編）コンテンツベースレコメンド（前・後編）今回の記事のポイントは以下の通りです。レコメンドシステムの目的は気付きと驚きを与えること理想のレコメンドはソムリエのお薦めレコメンドシステムに必要なのは嗜好と専門性では、早速はじめましょう。レコメンドシステムとは？レコメンドシステムは情報フィルタリングの一種で、大量の

nakaji999 2012/02/01

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

nakaji999 2011/09/10

hadoop

リンク

Hadoopモデリング座談会（第5回）へ行ってきました - 虎塚

第5回とのことですが、自分は初めて参加しました。そもそもHadoopとタイトルにつくイベントへ行ったのは、初めてでした。これまで遠巻きに見ていましたが、何か、色々あって参加することに。 zusaar.com -&nbspzusaar リソースおよび情報 2011/06/29_Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回） #hadoopmodeling - Togetter せっかくなのでノートを上げておきます。 1. 「鉄道システムへの誘い」 [twitter:@ayasehiro]さん発表の目的は、「学生の方に鉄道システムに興味を持ってもらうこと！」とのこと。鉄道システムの開発のお話システムは一度作ったら長く使う耐用年数10年以上開発のスパンも長い長いときで5年くらい製造に時間をかけられない半分が開発、半分が試験開発

nakaji999 2011/06/30

リンク

はてなブログ | 無料ブログを作成しよう

台北市立動物園と迪化街めぐり子連れ台湾#5 年越し台湾旅行5日目、レジャーや友人との食事を楽しむ日です。前日の様子はこちら www.oukakreuz.com 台北市立動物園へパンダ館パンダが見られるレストラン迪化街へ林茂森茶行でお茶を購入小花園で刺繍グッズを購入黒武士特色老火鍋で夕食台北市立動物園へ松…

nakaji999 2011/06/30

リンク

Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回）に参加しました。 | @johtani の日記

一定期間更新がないため広告を表示しています

nakaji999 2011/06/30

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

nakaji999 2011/06/21

hadoop

リンク

エンタープライズ向けHadoop提供へ、米EMC －＠IT

2011/05/10 Hadoopのエンタープライズ向けディストリビューションを6月末までに提供すると、米EMCが5月9日に発表した。EMCといっても、ストレージ機器の事業部門ではない。同社が2010年7月に買収した、元米Greenplumの事業部門だ。これにより、非構造化データの分析ニーズの高まりに対応していくという。 Greenplumはこれまで、オープンソース技術をベースとした、データウェアハウス／ビジネスデータ分析向けのデータベースシステムである「Greenplum Database」を提供してきた。多数のPostgreSQLインスタンスを並列に動作させてデータ処理を実行する仕組みを通じ、データロードおよびクエリ処理の高速化とスケーリングを実現し、大規模データウェアハウスを可能としている。Greenplum製品群としては現在、有償のソフトウェア製品に加え、無償の「Greenplum

nakaji999 2011/05/11

リンク

Hadoop入門とクラウド利用

EDF2012 Kostas Tzouma - Linking and analyzing bigdata - Stratosphere

nakaji999 2011/04/10

リンク

Asakusa Enterprise Batch Processing Framework for Hadoop

Asakusa Enterprise Batch Processing Framework for Hadoop Hadoop Japan Conference 2011-2-22Read less

nakaji999 2011/04/06

リンク

Hadoopフレームワーク「Asakusa」がOSSで公開－＠IT

2011/03/31 ウルシステムズは3月31日、基幹業務システムのバッチを高速処理するためのフレームワーク「Asakusa Framework」の正式版をオープンソースとして公開した（発表文、GitHubのレポジトリ）。Hadoop上に基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装したもの。HadoopはJavaベースのオープンソース分散処理技術として、すでに広く利用されている一方、業務処理への適用では、導入の難しさから利用が進んでいなかった。Asakusaを使うことで、Hadoopに詳しくないエンジニアでも簡単にシステム開発ができるという。 Asakusaは、MapReduceのDSLをコンパイルする「Ashigel Compiler」、Hadoopのデータフォーマットに合わせたデータモデルを生成するジェネレータ、統合テストスイートの3つのコンポーネントからなる。Ashi

nakaji999 2011/04/01

Hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nakaji999 2011/03/04

hadoop
HDFS

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

nakaji999 2011/02/23

リンク

Hadoopの可用性について（私訳） - developer’s delight

この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか？というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

nakaji999 2011/02/14

hadoop

リンク

ウルシステムズ、基幹バッチ用HadoopフレームワークをOSS化

ウルシステムズは2011年2月9日、オープンソースソフトウエア（OSS）の分散バッチ処理ソフト「Hadoop」を使って基幹バッチ処理を開発できるソフトウエアフレームワーク「Asakusa Framework」を、OSSとして公開すると発表した。プログラマーはHadoop独特の分散処理の仕組みを理解しなくても、基幹バッチ処理を開発できる。ソースコードは3月に公開する予定。 Hadoopは、米グーグルの並列プログラミングモデル「MapReduce」と分散ファイルシステム「Google File System」を模した分散バッチ処理ソフト。I/O処理を複数台のサーバーで分散処理することで、バッチ処理の速度を大幅に高速化できる。 Hadoopのプログラムは、プログラミング言語のJavaを使い、「Map処理」と「Reduce処理」というMapReduce独特の機構を組み合わせて開発する必要がある。そ

nakaji999 2011/02/09

リンク

「Jaql」を使ってMapReduceをより簡単に

Jaql（a query language desired for JSON：JSON用に位置づけられたクエリ言語）は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日本語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。本原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト本記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON（

nakaji999 2011/01/05

JSON
hadoop

リンク

そろそろHadoopについてひとこと言っておくか - nokunoの日記

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

nakaji999 2011/01/03

hadoop

リンク

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH（データウエアハウス）としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用－－リクルートリクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

nakaji999 2010/12/17

リンク

Hadoop MapReduceプログラムを解剖する

オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

nakaji999 2010/12/01

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

Hadoopに関するnakaji999のブックマーク (38)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス