タグ

Hadoopとhadoopに関するblack2rockのブックマーク (16)

  • 日々進化するHadoopの 「いま」

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    日々進化するHadoopの 「いま」
  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • ビッグデータ活用は事業戦略そのものだ

    「今の時点で、ビッグデータで何が変わるのだろうと考えているとしたら、危機感を持ってほしい」。分散バッチ処理ソフトのHadoopおよびHadoopディストリビューション「Cloudera's Distribution including Apache Hadoop」を掲げ、ビッグデータを活用したシステム構築を促進するNTTデータ 基盤システム事業部 シニアエキスパートの濱野 賢一朗氏に、ビッグデータ活用の重要性について聞いた。 これまでを振り返ってみると、企業戦略としてのビッグデータ活用が最初からあったわけではない。「大量のデータを蓄積して解析したい」という顧客からの要望が、Hadoopおよびビッグデータに取り組むきっかけだった。 2007年ごろ、テレコム系のある顧客から、大量のログを蓄積して活用することで、新たなサービスを創出したいという要望があった。その要望に応えようとしたときに、ペタ

    ビッグデータ活用は事業戦略そのものだ
  • ビッグデータ座談会 後編--Hadoopの企業活用、その現在と未来

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Hadoopの活用に取り組む3社の担当者に、ビッグデータという観点からITインフラを語ってもらう座談会。前編と中編では、Hadoopの導入状況にはじまり、ビッグデータとは何か、なぜそれが必要とされるのかなどを議論した。 「ビッグデータ」と言った場合、単にデータを蓄積するだけではなく、それを高速に処理できるという意味が含まれるのではないか。その高速処理の一例として、大量データを元にした分析による、新たなビジネス価値の創出が挙げられた。 では、実際にHadoopで新たな価値を創出しようとした場合、気をつけるべき点は何だろうか。また、具体的にどのようなシステム構成で導入されているのだろうか。リレーショナルデータベース(RDB)やデータウェア

    ビッグデータ座談会 後編--Hadoopの企業活用、その現在と未来
  • 理工系女子大生がIT技術を調査!ビッグデータ編

    加納 舞 さん(東京大学) 工学部システム創成学科4年。ミス東京大学。 座右の銘は「知識を知恵に」。 最近のマイブームは「ブラックサンダー(チョコレートのお菓子)」 加納: はじめまして日立の山口さん、今日はよろしくお願いします!今回のテーマは「ビッグデータ」ということなんですが、これが何なのか、まずは分かりやすく教えてください。 山口:はい、こんにちは。そうですね、例えば最近のPCのハードディスクは、「ギガバイト」単位のものが一般的になってきましたし、家電量販店などで買える外付けハードディスクの中には「テラバイト」単位のものが出てきていますよね。ギガバイトの約1000倍がテラバイト、さらにその約1000倍が「ペタバイト」で表されます。その上に、「エクサバイト」、「ゼタバイト」という単位があるのですが、ビッグデータはテラバイト、ペタバイト級以上のデータを指すことが多いですね。 林:ちょっと

    理工系女子大生がIT技術を調査!ビッグデータ編
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Open Source Cloud Computing with Hadoop | Linux Journal

    Have you ever wondered how Google, Facebook and other Internet giants process their massive workloads? Billions of requests are served every day by the biggest players on the Internet, resulting in background processing involving datasets in the petabyte scale. Of course they rely on Linux and cloud computing for obtaining the necessary scalability and performance. The flexibility of Linux combine

  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

  • Apache Hadoop - Wikipedia

    Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。[2] Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoop YARN: Hado

  • Hadoopとは?|Littel-hadoop

    Hadoop(ハドゥープ)とは、Googleの分散ファイルシステムを応用して オープンソース化したプラットフォームです。 分散ファイルシステムとは、複数のマシンのディスクを組み合わせて 1つのファイルシステムとして見せる技術です。 これは1つのディスクで保存しきれないような大量のデータを並列化することで 非常に高速に効率良く処理することができるのです。 Hadoopプラットフォームは安全です。 分散ファイルシステムにより、同じファイルを異なるマシンに重複して持たせることで、 一台のマシンが故障した場合でもファイルが失われません。 つまり、耐障害性の高い・安全性の高いとプラットフォームであると言えるのです。 Hadoopプラットフォーム、始まりはGoogleから・・・ グーグルが独自に開発したMapReduceは、 同社の検索エンジンを支える中核技術であるため詳細は未公開ですが、

  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • Welcome to Apache™ Hadoop™!

    This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • 1