hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。 最初はサポートの話を書こうと思ったのですが、せっかくのアドベントカレンダーの初日なので少しだけ技術的なことを書くことにします。 あと最初に断っておきますが、私の書く記事は基本的に全て CDH ベースです。 (バージョンは CDH3u2) 今日は eclipse プロジェクトへのインポート方法を紹介します。 ドキュメント化されてるようで実はされてないっぽいので備忘録代わりに記載します。 ファイルのダウンロード、展開 ここから DL してください。 hadoop の場合は hadoop-0.20.2-cdh3u2.tar.gz です。 展開は普通に tar xf してください。 ant の実行 ant eclipse-files と叩いてください。すぐに終わります。 ec
2、3年前は一部のWeb関連企業や最新技術に対するアンテナが敏感な企業、あるいは研究機関などの特定の層からの注目を集めていたHadoopが、今や多くの企業から関心を集めている。ITエンジニアだけではなく管理者層や経営者層にまでHadoopが広く知られるようになった。しかし筆者の感覚だと、Hadoopが「速い」「スケーラビリティーがある」といった断片的な特徴だけが独り歩きしており、能力を発揮できる領域やその理由については、Hadoopそのものの知名度ほどには正しい理解が浸透しているとは言えない印象である。 そもそも単純に「速い」とか、その理由を「分散システムだから」と安易に結論づけるのはHadoopに対する誤解を生む危険性がある。そこで連載第2回は、Hadoopがその能力を発揮できる領域を説明し、その処理速度やスケーラビリティーがどのように実現されているのかを解説する。 本記事によって、Ha
なんだかんだで Hadoop 周りの本も結構増えてきましたので下にまとめました。 抜けてるのもあると思うので(特に和書)、なんかお薦めありましたらコメントください。追加します。 タイプ別お薦め読書コース 短期間で全部読むのは不可能なので、とりあえず簡単にお薦めの読書コースを紹介します。 非技術者(営業や経営者など) 象本1章と徹底入門1章だけ読んどけばいいです。余裕があれば象本16章(ケーススタディ)。読んでる暇あったらその人件費で技術者にいいPC買ってあげてください。 技術者(共通) 象本読まないとかありえないです。 別に全部読む必要ないですが、とりあえず 1-10章ぐらいは目を通してください。 それも時間的に難しいならせめて3章か4章ぐらいまで目を通してください。 可能なら徹底入門と並行して読んでください。書き方の切り口が違う2つの書籍を読むことで理解が深まります。 Hadoop 技術
Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it remains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p
While Hadoop use is picking up among mainstream (read “non-web”) companies, it’s still far from the all-powerful and ubiquitous insight engine its supporters believe it will become, according to a recently released survey from Hadoop-focused startup Karmasphere. Karmasphere interviewed 376 “data professionals” to get its results. Here are some statistics from the survey that illustrate the current
管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z
大規模データを処理するための基盤の一つとして、分散処理プラットフォームであるHadoopが広く使われるようになり、その勢いは世界中で加速しています。一方、大規模データの分析、活用のための人材不足が深刻化し、人材育成が急務となっている企業も少なくありません。本記事では、大規模データ処理基盤として注目されているHadoopの歴史と共に、Hadoopのスキルを客観的に証明できるHadoop認定プログラムを前/後編に分けて紹介します。 Hadoopが注目される理由 ハードウェアの進化に伴ってサーバの性能は年々向上しています。ムーアの法則にあるように、その中でもCPUなど半導体の性能は著しく向上しています。 一方でハードディスクの性能はこれに追いついておらず、データの読み書き時には待ち状態になってしまう場合もあるでしょう。 つまり、データ量が多ければ多いほど、待ち状態がボトルネックとなってしまうので
基幹系システム ERP 会計システム 電子帳票システム ワークフロー 勤怠管理システム もっと見る 情報共有システム・コミュニケーションツール グループウェア Web会議 テレビ会議/ビデオ会議 ファイル共有 文書管理 もっと見る 情報システム SFA CRM コールセンター/CTI BPM PLM もっと見る メール 電子メール メールセキュリティ メールアーカイブ その他メール関連 もっと見る エンドポイントセキュリティ アンチウイルス 暗号化 認証 ID管理 メールセキュリティ もっと見る ネットワークセキュリティ ファイアウォール WAF IPS UTM セキュリティ診断 もっと見る 運用管理 統合運用管理 IT資産管理 サーバー管理 ネットワーク管理 統合ログ管理 もっと見る バックアップ バックアップツール バックアップサービス テープバックアップ その他バックアップ関連 もっ
Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transforming the way we interact with technology. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post
Amazon EMR セミナーに行ってきたので、個人的にまとめておく http://kokucheese.com/event/index/34636/ 日時: 2012/5/18 14:00 – 17:00 会場: アマゾン目黒オフィス 東京都目黒区下目黒1-8-1アルコタワーアネックス16F メインスピーカーは、EMRのSenior Product Manager の Adam Gray氏 場所は目黒のAmazonJapanの本社。渋谷の東邦生命ビルの時とは大違いで、ビル全てがAmazonという陣容。16Fのセミナールームはおそらく200名前後は余裕で入れるしっかりした部屋で、東京でのAWSのセミナーは大抵はここでやっていることが多い。 今回のセミナーはどうやら複数回やったようで、自分はこの金曜日に、同じ会社の他のメンバーは翌日に呼ばれたようだ。パートナー向けのプライベートセミナーで、「
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く