タグ

Hadoopに関するmarmotteのブックマーク (18)

  • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

    最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

    Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
  • Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO

    よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

    Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO
  • Apache Hadoop 1.0登場 - エンタープライズレベルの品質を実現

    Apache Software Foundationは1月4日(米国時間)、大規模データ分散処理プラットフォームの最新版となる「Apache Hadoop バージョン 1.0」を発表した。 6年以上に渡る開発の成果物であり、安定性やエンタープライズにおける用途に対して十分なレベルに到達したとして今回初のメジャーリリースとなった。 Apache Hadoop 1.0が含んでいる主なコンポーネントや注目の機能は次のとおり。 Kerberos対応 RESTful APIによる管理機能 HBase対応とパフォーマンス改善 Kerberosに対応したことで、エンタープライズシステムに組み込んでの使用が従来よりも現実的になったほか、RESTful APIを使った管理が実施できる点は大きなポイントとなる。 Apache Hadoopは大規模な分散処理を実現するためのオープンソースプラットフォーム。すでに

  • Hadoopがバージョン1.0へ。2.0、3.0の議論も進む

    大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。

    Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
  • Hadoopの最新安定版「Apache Hadoop 1.0.0」がリリースされる | OSDN Magazine

    Apache Software Foundation(ASF)傘下のHadoopプロジェクトは12月27日、大規模データ向けの分散処理フレームワーク「Apache Hadoop 1.0.0」をリリースした。HBaseやWebHDFSのサポート、セキュリティやパフォーマンスの強化などが特徴となる。 Hadoop 1.0.0は従来安定版としてリリースされていたバージョン0.20系をベースとした、最新の安定版となる。Hadoopはそのほかにも0.22系および0.23系が平行してリリースされており、12月10日にはバージョン0.22.0が、11月11日には0.23.0がリリースされている。 Hadoop 1.0.0の新機能としてはバグ修正やセキュリティの強化に加え、ドキュメントの強化、HTTP経由でHDFSにアクセスするWebHDFSサポートなどが挙げられている。そのほか、パフォーマンスの強化も行

    Hadoopの最新安定版「Apache Hadoop 1.0.0」がリリースされる | OSDN Magazine
  • 米MapR、MapReduce 2.0に対応したApache Hadoopディストロ「MapR 1.2」を発表 | OSDN Magazine

    MapR Technologiesは12月6日(米国時間)、「Apache Hadoop」を容易に利用できる「MapR Distribution 1.2」を発表した。Apache Hadoopや関連コンポーネントをまとめて配布する「Hadoopディストリビューション」で、バージョンではWindowsMac OS Xの両クライアントのネイティブサポートなどが加わっている。 MapRはApache Hadoopを専業とするベンチャー企業で、企業がHadoopを容易に利用できるようディストリビューションを開発している。5月にHadoopをベースに独自機能を加えたものを初公開しており、今回はそのアップデートリリースとなる。 バージョン1.2では、C/C++ APIのサポートを拡大した。C/C++ libhdfsの実装によりJava仮想マシンを回避してファイルシステムにアクセスできるようになっ

    米MapR、MapReduce 2.0に対応したApache Hadoopディストロ「MapR 1.2」を発表 | OSDN Magazine
  • [速報]オラクル、HadoopとNoSQLを搭載した専用マシン「Oracle Big Data Appliance」を発表。Oracle OpenWorld 2011

    [速報]オラクル、HadoopとNoSQLを搭載した専用マシン「Oracle Big Data Appliance」を発表。Oracle OpenWorld 2011 米オラクルは10月4日(現地時間10月3日)、ビッグデータのための専用マシン「Oracle Big Data Appliance」を、サンフランシスコで開催中のOracle OpenWorld二日目の基調講演で発表しました。 キーバリュー型のデータストア「Oracle NoSQL Database」と「Apache Hadoop」および関連ソフトウェアを、データベースマシンとして開発されたOracle Exadataのハードウェアに載せたものです。 これまでビッグデータに対して特別なアナウンスをしてこなかったオラクルが、ビッグデータ、そしてコモディティサーバによる分散処理が主流になっているHadoopに対しても、ハードウェア

    [速報]オラクル、HadoopとNoSQLを搭載した専用マシン「Oracle Big Data Appliance」を発表。Oracle OpenWorld 2011
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
  • 米Yahoo!の「Apache Hadoop」チームが独立、Hortonworksを立ち上げ | OSDN Magazine

    Yahoo!は6月28日(米国時間)、ベンチャーキャピタルBenchmark Capitalと共同で企業「Hortonworks」を立ち上げたことを発表した。Hortonworksには「Apache Hadoop」開発チームが参加、Apache Hadoopの普及促進を狙うという。 Apache Hadoopは、米GoogleMapReduceアルゴリズム実装を含む大規模データの分散処理のためのソフトウェア技術Yahoo!は2005年に初期プロトタイプの開発を支援し、2006年以来中核となるインフラで利用することにコミットしている。Yahoo!はその後、HadoopをApache Software Foundation(ASF)に寄付している。現在、Yahoo!はパーソナライズコンテンツの配信にApache Hadoopを利用しており、広告ネットワークやYahoo! Mailのスパム

    米Yahoo!の「Apache Hadoop」チームが独立、Hortonworksを立ち上げ | OSDN Magazine
  • 米MapRがApache Hadoopディストロを発表、米EMCとOEM提携 | OSDN Magazine

    MapR Technologiesは5月25日、「Apache Hadoop」ベースのディストリビューションを正式発表した。また、米EMCとOEM提携を締結し、MapRがEMCのビックデータ用DWHエンジン「Greenplum Hadoop Enterprise Edition」の基礎部分となることも明らかにした。 MapRはApache Hadoopを専業とするベンチャー企業で、2年間「ステルスモード」でHadoopベースのディストリビューションを開発してきたという。今回、正式に活動開始となった。 MapRは信頼性、容易、高速の3つを特徴とする。まず信頼性だが、ミラーリング、スナップショット、高可用性の各分野で機能を加えた。たとえば、JobTrackerの強化、ローリングアップグレード、名前空間の強化によりダウンタイムとデータの損失を削減する「Distributed NameNode

    米MapRがApache Hadoopディストロを発表、米EMCとOEM提携 | OSDN Magazine
  • 米Cloudera、100%オープンソースの「Apache Hadoop」ベースディストリビューションをリリース | OSDN Magazine

    米Clouderaは4月12日(米国時間)、Hadoopディストリビューション「Cloudera’s Distribution including Apache Hadoop v3(CDH3)」の一般提供を開始した。ClouderaのWebサイトより入手できる。 CDHは、大規模なデータ統合と分散コンピューティングのためのフレームワーク技術「Apache Hadoop」を中核とし、データ管理プラットフォームを統合したディストリビューション。事前検証・統合済みで、TwitterやGrouponなどの企業が導入しているという。ライセンスはApache License。 最新版では、前バージョンで統合していたデータウェアハウスのHive、データフローのPigなどに加え、Flume、Squoop、Hue、Zookeeper、HBaseなどのパッケージを新たに含み、標準APIにより全てのコンポーネン

    米Cloudera、100%オープンソースの「Apache Hadoop」ベースディストリビューションをリリース | OSDN Magazine
  • ビッグデータにこれから起きること11の予想

    ビッグデータの登場とその分析は、いまのIT業界の大きなトピックの1つです。Hadoopのような大規模分散ソフトウェアに注目が集まり、オラクルのExadataなどデータウェアハウス専用ハードウェアが次々に登場し、またIBMによるNetezzaの買収、EMCによるGreenplumの買収、ヒューレット・パッカードによるVerticaの買収などはすべて、ビッグデータをめぐる動きだといってよいでしょう。 11 Big-Data Analytics Predictions for 2011 -- TDWI - The Data Warehousing Institute そのビッグデータの分野で2011年になにが起きるのか? Ingres CorporationのシニアバイスプレジデントKetan Karia氏がThe Data Warehouse Instituteに掲載された記事「11 Big-

    ビッグデータにこれから起きること11の予想
  • Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine

    「Apache Cassandra」の商用サービスを提供する米DataStaxは3月22日(米国時間)、Cassandraと「Apache Hadoop」を組み合わせたディストリビューション「Brisk」を発表した。1カ月半後のリリースに向け、ユーザー登録を開始している。 Apache CassandraとApache Hadoopはともに非営利団体Apache Software Foundation(ASF)のオープンソースプロジェクト。Apache Cassandraは元々は米Facebookで開発された技術。オープンソースの分散データベース管理システムで、大規模データ用の拡張性などを特徴とする。一方、Apache Hadoopは米Yahoo!がASFに寄贈した技術で、大規模データ用の分散コンピューティング用ソフトウェアとなる。 DataStaxが発表したBriskは、HadoopとH

    Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine
  • 「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ

    Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c

    「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ
  • Hadoopで基幹バッチを高速化、オープンソースのフレームワーク登場 - @IT

    2011/02/10 ウルシステムズは2月9日、Hadoopを使って企業の基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク「Asakusa Framework」を開発、正式版をオープンソースとして3月頃に提供すると発表した。なお、インテックは自社の仮想ホスティングサービス「EINS/SPS(アインスエスピーエス)」上にHadoop基盤を構築した。ウルシステムズはこのHadoop基盤を用い、Asakusaを使った基幹業務処理の基盤サービスを自社の顧客に対して提供するという。インテックは順次、ウルシステムズ以外の顧客にもHadoop基盤サービスを提供開始する。 ウルシステムズの開発した Asakusaは、大量データの処理に適したオープンソースの分散処理基盤ソフトウェアであるHadoopを、基幹システムのバッチ処理高速化に使うためのフレームワーク。Asakusaは、Hado

  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • Pasang Bola Online | Judi Bola Tanpa Blokir

    <div class="at-above-post-homepage addthis_tool" data-url="http://hugjp.org/2021/07/salah-pilih-agen-sbobet-bisa-sebabkan-berbagai-kerugian/"></div>Sbobet tentunya menjadi salah satu server judi online paling diminati oleh orang-orang yang gemar bermain judi online. Sbobet online via sbobet mobile. Main Game Online Sbobet Mobile.

  • 1