Spark Casual Talk #1 (2015/06/23)発表資料 『メキメキ開発の進む Apache Sparkのいまとこれから』 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔(Apache Sparkコミッタ)、土橋 昌 ※イベントページ http://connpass.com/event/15575/Read less
![メキメキ開発の進む Apache Sparkのいまとこれから (Spark Casual Talk #1 発表資料)](https://cdn-ak-scissors.b.st-hatena.com/image/square/83685d8bcbc94e42d6bd174fba57a5672b323720/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F20150623sparkcasualtalkall-150623114925-lva1-app6892-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
日立製作所は2013年10月15日、COBOLデータをOSSの分散処理ソフト「Apache Hadoop」で活用する「かんたんHadoopソリューション for COBOL基幹データ活用」を、10月17日に販売開始すると発表した(写真)。取引履歴や販売実績など、基幹系のビッグデータ分析が主なターゲットである。 同社のブレードサーバー「HA8000-bd/BD10」に、Hadoopや「COBOL2002」「uCosminexus Grid Processing Server」など各種ソフトをインストール/設定して提供する。同社が開発した分散共有ファイル「Hitachi Striping File System(HSFS)」は、「POSIXに準拠したデータ入出力が可能な上に、Hadoopの分散ファイルシステム「HDFS」と互換性がある」(日立製作所 プラットフォームサービス開発本部 OSSテク
The Apache Nutch PMCは7日(米国時間)、Apache Nutchの最新版「Apache Nutch 2.0」を公開した。Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。 Apache Nutch 2.0は小規模なクローラから、Hadoopクラスターでデプロイされた大規模なWebクローラまで、様々なユースケースをカバーできるよう設計されているWeb検索ソフトウェア。Apache Nutch 2.0で構築されたWebクローラは、Apache Accumulo、 Apache Avro、Apach
第3回でディストリビューションとディトリビューターや製品ベンダーを詳しく説明しましたが、その後2012年6月に様々なベンダーからApache Hadoop関連製品が新たにリリースされています。 米クラウデラは2012年6月5日(現地時間)、Apache Hadoopバージョン2をサポートしたCDH 4.0.0をリリースしました。 同じくHadoopのディストリビューターである米ホートンワークスも2012年6月12日(現地時間)、Apache HadoopのディストリビューションHortonworks Data Platform (HDP) 1.0を、Apache Hadoop 1.0.3ベースでリリースしました。このディストリビューションには管理とモニタリングサービスを提供するコンポーネント、Apache AmbariベースのHortonworks Management Center (H
※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。 昨日(2012/7/1)Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。 今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました(参考:http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました)。 この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。 試行錯
日本IBMは2011年8月31日、大量データを分析するシステムをHadoopを用いて構築・運用するミドルウエアの新版「InfoSphere BigInsights Enterprise Edition V1.2」を発表した。新版では、表計算ソフトのようにHadoopデータを分析できる「BigSheets」機能を追加した(写真)。2011年9月2日に出荷する。 InfoSphere BigInsightsは、大量データ分析用の分散処理ソフト「Apache Hadoop」の、IBM版のディストリビューションである。Hadoopシステムを構築・運用するためのツール群を、企業向けにパッケージ化している。Hadoop独自の情報処理プロセス(MapReduce処理)を扱いやすくする上位言語(Jaql、Pig、Hive、その他)、インストーラ、統合開発環境、ジョブスケジューラ、ワークフローエンジンなどを
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも
Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。[2] アーキテクチャ[編集] Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く