Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
![Hadoop+Hive検証環境を構築してみる](https://cdn-ak-scissors.b.st-hatena.com/image/square/8d61cff74248c44c20b3fd44425a37c1aee88321/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F0902%2F27%2Fr5mv7_bor_rou_sha.jpg)
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理
MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも
Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i
新たなアプリケーションの設計と実装では、十分なリソースの捻出と冗長性の確保に悪戦苦闘を強いられるおそれがある。だが、グリッドアーキテクチャを採用してアプリケーションを構築すれば、低いコストで冗長性と並列処理を実現でき、リソース配分が容易になる。 グリッドアーキテクチャを用いる理由 新規アプリケーションの設計時には、多くの理由から基本プラットフォームでのグリッドアーキテクチャの採用を検討すべきである。グリッドコンピューティングのフレームワークであるグリッドアーキテクチャは、データを処理する独特のプラットフォームを提供し、従来に代わるコスト効率に優れたアーキテクチャになり得る。シングルサーバアーキテクチャに比べると、グリッドアーキテクチャには並列処理、リソースの負荷分散、未使用リソースの活用といった多くの利点がある。従来のサーバ環境におけるアプリケーションの発展は、サーバのハードウェアの限界に
ガンのタンパク質解析などで知られ、インターネット上での分散コンピューティングの草分け的存在であるgrid.orgがその活動を停止するらしい。 公式サイトフォーラムによると、2007年4月27日12:00 CDTをもって現行プロジェクトおよびgrid.orgのフォーラムは終了、1週間の周知期間をとってクライアントプログラム上で終了を案内、以降はアンインストールの案内などの為にのみサイトの一部が存続する、といったスケジュールになっている模様。 先日にはデュアルコア対応などを果たした新バージョンのクライアントをテスト中と聞いたところだっただけに、この突然の終了案内には驚きを隠せない。UD Agentの名で知られるクライアントプログラムを目に付く限りのWindows PCにインストールしている人も少なくないと思うが、対応について何らかの準備をしておいた方がいいのではないだろうか。
アメリカのスタンフォード大学がガンやアルツハイマー、パーキンソン病といった難病の原因となるタンパク質を解析するために行っている、世界中の人々が世界最大級のスーパーコンピュータを形成する分散コンピューティングプロジェクト「Folding@Home」において、PS3が参加しているWindowsマシンの5分の1の台数で、3倍以上の演算速度を実現しているとのこと。 ちなみにこれだけだとどれだけ速いのかが分からないので、比較対象として「地球シミュレータ」と比較してみることにしました。 詳細は以下の通り。 Folding@Home このページによると、2007年3月25日17:17:59現在での演算速度は、Windowsマシンが16万1507個のCPUによって154TFLOPS(テラフロップス)なのに対して、PS3が30272個のCPUで481TFLOPSとなっているとのこと。 これが計測結果。 そし
カナダのATI Technologiesが,グラフィックスLSI(GPU:Graphics Processing Unit)を汎用演算に利用する技術「Stream Computing」をカナダで現地時間9月29日に発表した。 Stream Computingは,GPUを一般的なプロセサと組み合わせ,複雑な演算を高速に処理するための技術。ATIによると,同社のハイエンドGPUは48個の演算コアを内蔵しており,対象によっては汎用プロセサの最大40倍という速度で演算を実行できるという。 例えばATIと米スタンフォード大学は,分散コンピューティングによる研究活動「Folding@home」(関連記事)において,疾病の研究にかかわる演算を「ATI Radeon X1900」製品系列と「同X1950」製品系列のGPUで処理する計画に取り組んでいる。スタンフォード大学は,GPUを利用することで演算速度を
複数のコンピュータをつなげることで高速スーパーコンピュータに匹敵する性能を実現するクラスター管理ソフトウェア。ここでは、オープンソースのクラスター管理システムを5つ紹介しよう。 コンピュータの世界では、「クラスター」という言葉はソフトウェアとネットワークで結ばれた独立したコンピュータ群を指す。計算量の極めて大きい処理に使われることが多く、比較的低速のシステムを数百から数千台接続して高速スーパーコンピュータに匹敵する性能を実現することができる。容易に使えるようクラスター管理ソフトウェアが用意されており、ジョブの待ち行列を自動処理する。ジョブの実行に必要な条件とクラスター内で利用可能なリソースを突き合わせ、またジョブをクラスター内の適切なシステムに移動させる。本稿では、そうしたオープンソースCMSアプリケーションを5つ紹介する。 openMosix openMosixは、オープンソース・クラス
2.ビジネスリサーチの情報収集 デスクトップ調査 の基本〜アニュアルレポートなど公開情報から… デスクトップ調査 とは、主にインターネットなどを使用して、公開情報を調査して整理・分析を行うものです。「CIAも収集する情報の95%が公開情報」ということで、情報不足とい… 2021.01.28 2021.05.13 1915 view コラム〜リサーチャーの日常 人生を通じてマッチクオリティーを追求する 知識の幅が最強の武器になる という本で初めて知った「 マッチクオリティー 」という言葉は、経済学の用語で、ある仕事をする人とその仕事がどれくらい合っているか、その人の能力… 2021.05.04 2021.05.13 295 view 2.ビジネスリサーチの情報収集 日常的な情報収集・整理術(Feedly+Dropbox) 【 ビジネス 情報収集 と 情報整理 の基本 】いま目の前にあるリサー
新薬の開発を手がける非営利研究組織のRothberg Institute for Childhood Diseases(TRI)は,感染病の新薬と治療法の研究を目的とする分散コンピューティング・プロジェクト「Drug Design and Optimization Lab(D2OL)」において,H5N1型ウイルスを最初の鳥インフルエンザのターゲットとして指定した。TRIが米国時間4月13日に発表した。 プロジェクトでは,鳥インフルエンザにおける薬物分子とたんぱく質の結合をシミュレートすることによって新薬と治療法の開発を狙う。TRIは鳥インフルエンザの最初のターゲットとして,人間への感染が認められ人体への悪影響が大きいH5N1型鳥インフルエンザを指定した。H5N1型ウイルスは,人間間で感染する新型インフルエンザへの変異が懸念されている。 同プロジェクトには,パソコン・ユーザーならば誰でもスク
Sun Microsystemsは米国時間21日、「Sun Grid」を立ち上げた。同社はこれに合わせ、数社のパートナーを発表したほか、Oracleから重要な支持を獲得したことも明らかにした。 予想通り、米国居住者はPayPalの支払サービスを使って、Sun Gridサーバを1プロセッサあたり1時間1ドルで使えるようになる。Sunでは、「Network.com」で提供するこのオンディマンドサービスが、どれだけ多くの計算処理にも対応できるサービスとなり、ゆくゆくは顧客ごとにカスタマイズされたデータセンターにとって代わるものになると期待しているが、ただしこの考えには異議を唱える者もいる。 現在Sun Gridでは2つの企業がサービスを提供している。その1つは、CDO2という会社によるリスク分析など財務関連のシミュレーションサービスで、もう1つはVirtual Computeの石油業界向け計算処
11月29日 開催 国立大学法人 東京工業大学は29日、16日付けで発表した国内最大のスーパーコンピューティング・グリッドに関するプレス向け説明会を開催した。 まず、東京工業大学学術国際情報センター長 酒井善則氏がグリッドの概要について解説。米AMDのOpteron、米SunのGalaxy、米Cluster File Systemsの大規模ファイルシステム、イスラエルVoltaireのインフィニバンド、英ClearSpeedのSIMDアクセラレータボードなど、各国の技術をNECが結集して実現したと説明した。 このグリッドはデュアルコアOpteron 8way(16コア)のノード計算機を655ノードで構成。計5,240個(10,480コア)を搭載し、50T FLOPSを実現する。さらに、SIMDアクセラレータを600ボード以上搭載し、合計で100T FLOPSを実現する見込み。 このほか、メ
IBMは、エイズ研究にグリッド技術を活用する新しい研究計画に着手した。 IBMが米国時間21日に明らかにしたところによると、この計画では、カリフォルニア州ラホヤに拠点を置くScripps Research Instituteが、世界のスーパーコンピュータランキングの上位10位以内にランクされているIBMのWorld Community Gridを利用して、エイズの原因となる突然変異ウイルスHIVを撃退するために新しい治療ツールを開発するという。 FightAIDS@Homeと呼ばれるこの計画では、17万台以上のコンピュータが持っている未使用の演算能力を活用する。 Scrippsの分子生物学部門のAnderson Research Chair ProfessorであるArthur J. Olson博士は、「この問題に取り組む上での計算処理上の課題は、膨大な数の突然変異が発生する可能性があるた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く