タグ

JavaとHadoopに関するItisangoのブックマーク (5)

  • うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛

    記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。 昨日(2012/7/1)Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。 今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました(参考:http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました)。 この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。 試行錯

    うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛
    Itisango
    Itisango 2012/07/02
    "メタデータを過去にコピーしておいたメタデータで差し替えることで復旧することにしました。"
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

    MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術Webサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも

    MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT
  • 「LL言語が後退局面に差し掛かっている件」対してに的外れな事を言ってる連中が多すぎてヤバい - terurouメモ

    LL言語が後退局面に差し掛かっている件に対しての反応が的を外しすぎていて笑える。確かにIDEや生産性のくだりはゴミクズなんだけど、それにしてもみんなゴミの部分に反応しすぎである。 ということで、酒も飲んでるので勢いで色々書いておく。 「LL言語が後退局面に差し掛かっている件」でも触れられている重要な技術動向 ゴミクズを取り除くと、まっとうな事が書いてある。 LLの成長に陰りが見え始めてきた。 ただしwebアプリケーション分野では今後も相当長く現役を続けるだろう。 今現在、もっとも富を生み出すのは(ほぼリアルタイムな)超大規模データ解析。 Hadoopが何かを理解してない技術者はクソ。 テラが当たり前のように乱れ飛ぶ現場でLLが出来る事など無いに等しい。 JavaScriptだけ別格の扱いをせねばならない。 node.js(サーバサイドJavaScript)がWeb開発のメインストリームにな

    「LL言語が後退局面に差し掛かっている件」対してに的外れな事を言ってる連中が多すぎてヤバい - terurouメモ
  • Apache Hadoop - Wikipedia

    Apache Hadoopは、多数の計算機で大規模なデータを分散して保存および並列処理するためのオープンソースのソフトウェアフレームワークである。 ビッグデータ処理基盤の代表的な実装の一つとして位置づけられ、Googleの分散処理技術の設計思想に基づいている。 データログの集計や大規模データ解析など、大量データの処理に利用される。 分散ファイルシステムHDFSと並列処理モデルMapReduceを中核に構成される点を特徴とする。 Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoop YARN: Hadoopクラスタのリソース管理や、Hadoop上で動作するアプリケーショ

  • 1