タグ

hadoopに関するfragarach_the_swordのブックマーク (33)

  • 070900526

    ComputerworldとCIO Magazineは 2023年5月23日で閉鎖しました。 長らくのご購読ありがとうございました。 日経クロステック TOPページ

    fragarach_the_sword
    fragarach_the_sword 2014/12/11
    ComputerWorld: ビッグデータ分析の八大トレンド(上)
  • ビッグデータ分析は分散処理よりもSMPクラスターが良い

    米ScaleMPは、複数のPCサーバーを束ねたクラスターを単一のSMP(対称型マルチプロセッシング)サーバーとして利用できるようにする基盤ソフト「vSMP Foundation」を開発しているベンダーである(関連記事)。vSMP Foundationは、大量のメモリーを使った計算処理を安価に実現できるので、多くの場面で分散処理がいらなくなる、としている。ITproは、同社の出資者で社長兼CEOのShai Fultheim氏に、SMPクラスターの意義を聞いた。 「ビッグデータを安価に分析できる」---。これがSMPクラスターの意義だ。 分散処理は、そこそこ安いが、使いにくい。巨大なSMPマシンは、使いやすいが、高い。その点、SMPクラスターは、非常に安くて、使いやすい。 分散処理(Hadoopやサーバー内蔵フラッシュストレージ)は、かつてのSMPマシンを置き換えた。そして今、SMPクラスター

    ビッグデータ分析は分散処理よりもSMPクラスターが良い
    fragarach_the_sword
    fragarach_the_sword 2013/09/03
    ビッグデータ分析は分散処理よりもSMPクラスターが良い---米ScaleMPFounder, President and CEOShai Fultheim氏:ITpro
  • HBaseのアーキテクチャを理解しよう

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    fragarach_the_sword
    fragarach_the_sword 2013/03/25
    CodeZine連載:初めてのHBase(2):HBaseのアーキテクチャを理解しよう
  • HadoopでTwitterを分析してみた一覧

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    HadoopでTwitterを分析してみた一覧
    fragarach_the_sword
    fragarach_the_sword 2012/11/22
    EnterpriseZine連載:HadoopでTwitterを分析してみた
  • HadoopとRDBとのつながりを考える

    連載の第3回は、Hadoop周辺プロダクトの紹介を中心に、HadoopとRDBMSとのつながりを解説し、スムーズなデータの移行手段について検討する。 RDBMS(リレーショナルデータベース管理システム)は、非常に多くのITシステムでデータの保存に利用されている。RDBMS以外のデータベース製品が選択されるのは例外的ケースであるという印象を受けるほどだ。トランザクション処理によりデータの一貫性を強力に保持できること、歴史が長く完成度の高い実装が多数存在すること、結果として多くの技術者がRDBのデータモデルとそのインタフェースであるSQLになじみがあることなどがその理由であろう。 ただし、高い一貫性を提供するRDBMSは、サーバーサイドでの処理量が多く、処理を並列化してスケールアウトを図ることが難しい。そのため、扱えるデータの規模を大きくしようとすると、高価なハードウエアを用意する必要に迫ら

    HadoopとRDBとのつながりを考える
    fragarach_the_sword
    fragarach_the_sword 2012/11/02
    ITPro連載:Hadoop活用実践の勘所 - HadoopとRDBとのつながりを考える
  • [4]機械学習におけるApache Mahoutの可能性と課題

    第2回、第3回では、音声データと、画像データに関するメディア認識技術について解説してきました。今回は、メディア認識技術に共通する課題である、機械学習の高速化について取り上げます。 まず、機械学習とは何かということから簡単に説明すると、ある程度大量のデータの中から規則性やパターンを見いだすことで、データの認識や判定などに役立てる取り組みのことを指します。例えば、皆さんが使用しているパソコンや情報システムの多くには、メールを受信したときに、ウイルスが含まれていないかどうか、スパムメールでないかどうか、判定するソフトウエアが入っていると思います。これも、過去の大量データに基づいて、ウイルスが入っていたり、スパムメールだったりする可能性が高いパターンを機械学習することで判定の仕組みを作り、そのロジックを活用しているのです。 そしてメディア処理システムには、音声、画像、テキストなどデータの種類を問わ

    [4]機械学習におけるApache Mahoutの可能性と課題
    fragarach_the_sword
    fragarach_the_sword 2012/11/02
    ITPro連載:非構造化ビッグデータの処理技術(4)機械学習におけるApache Mahoutの可能性と課題
  • OSSが実現する“呉越同舟”

    OSSが、ソフトウエアのエコシステムの作り方を変える──。ライバル関係にある企業が一つのOSSを軸にタッグを組み、“呉越同舟”でエコシステムを作ろうとする動きが始まっている。業界内のライバル企業だけでなく、業界の枠を超えた様々な企業が手を組み、エコシステムを実現する時代の到来だ。 ライバル企業がタッグを組んでエコシステムを作っている代表例が、OSSの分散バッチ処理ソフトの「Hadoop」である。業界の枠を超えたエコシステムとしては、Linuxファウンデーションが2012年4月に公開した携帯機器向けLinuxの「Tizen」が一例。Tizenは、自動車メーカー、通信事業者、携帯電話機メーカーが共同で開発している。 呉越同舟でエコシステム拡大 ソフトのエコシステムとは、アプリケーションや周辺ツールなどを提供するサードパーティー、ソフトを利用するユーザーなどの存在を指す。ソフトが広く普及する上で

    OSSが実現する“呉越同舟”
    fragarach_the_sword
    fragarach_the_sword 2012/10/16
    主役交代〜ITの未来はOSSが決める - OSSが実現する“呉越同舟”5/5:ITpro
  • Node.jsの仕組みはWebアプリ開発者も知っておくべき

    インターネットのサービスは、アクセスしてきたユーザーを「待たせない」ことが大前提だ。「待たせない」サービスを実現するために、新しいインフラ技術が次々と登場している。例えばJavaScriptの実行基盤を構築するサーバー用ソフト「Node.js」もその一つ。大量の同時接続ユーザーに対して高速にレスポンスできる技術として、今、大きな注目を集めている。 Node.jsは、Webサーバー構築ソフト「Apache」やWebアプリケーションサーバー構築ソフト「Tomcat」などと置き換えて使う。ただし、単純に置き換えるだけで必ずレスポンスが高速になるわけではない。Node.jsが持つ来のパフォーマンスを引き出すには、実装するWebアプリケーションの開発に注意が求められる。 “ループ”を止めないアプリが不可欠 Apacheの場合、複数のスレッドを起動して並行処理することで、大量のアクセスに対応できるよ

    Node.jsの仕組みはWebアプリ開発者も知っておくべき
    fragarach_the_sword
    fragarach_the_sword 2012/10/10
    記者の眼 - Node.jsの仕組みはWebアプリ開発者も知っておくべき:ITpro
  • [第1回]今さら聞けないHadoopの基礎

    OSS(オープンソースソフトウエア)のミドルウエア、「Hadoop」が注目されている。大量のデータ、とりわけログ、テキスト、画像といった非構造化データを取り扱うための高速な情報処理基盤を安価に構築できるからだ。そこで連載ではHadoopを基礎から説明する。 連載は情報システム部門の企画担当者や利用部門のIT活用推進者などが対象。序盤ではHadoopの基やアーキテクチャーを解説。回を追って分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及するほか、2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込んでいく。 ニーズ高まる「ビッグデータ」の基盤 日にとって2011年は「ビッグデータ」元年だったと言ってよいのではないでしょうか。ビッグデータに関わる製品やソリューションが国内外のベンダーから発表となり、多

    [第1回]今さら聞けないHadoopの基礎
    fragarach_the_sword
    fragarach_the_sword 2012/09/08
    ITPro連載:基礎から解説!企業を変えるHadoop(1)今さら聞けないHadoopの基礎
  • 第1回 「ビッグデータ」ブームに日本企業は乗るべきか

    IT業界では数年に1度、「バズワード」といわれる流行り言葉が生まれる。ここ数年は、「クラウド」一色だった感があるが、2011年後半から2012年にかけてのそれは「ビッグデータ」で決まりだろう。 ビッグデータとは何か クラウドが登場した当初もそうだったように、「ビッグデータ」にもはっきり決まった定義は無い。一般的には、「既存の技術では管理するのが困難な大量のデータ」と定義されることが多い。 データを管理するのが困難になる要因は、頭文字がVで始まる3つのキーワード(3V:Volume/Variety/Velocity)で表される。つまり、ビッグデータと聞いて、直感的にイメージできる「ボリューム(Volume)」に加え、ソーシャルメディア上のテキストデータ、センサーデータ、さらには映像や音声といったデータの「多様性(Variety)」、スイカ(Suica)やパスモ(PASMO)など交通系ICカー

    第1回 「ビッグデータ」ブームに日本企業は乗るべきか
    fragarach_the_sword
    fragarach_the_sword 2012/02/19
    ITPro連載:ビッグデータで日本のITは活性化するか(1)「ビッグデータ」ブームに日本企業は乗るべきか
  • めざすは"Enterprise Ready"なHadoop - EMCとノーチラスの提携がもたらすもの

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    めざすは"Enterprise Ready"なHadoop - EMCとノーチラスの提携がもたらすもの
    fragarach_the_sword
    fragarach_the_sword 2012/02/12
    EnterpriseZine:めざすは"Enterprise Ready"なHadoop - EMCとノーチラスの提携がもたらすもの
  • [AWARD受賞製品]可用性と使い勝手を高めたHadoop互換のビッグデータ基盤

    ITpro EXPO AWARD 2011で優秀賞に輝いたのは、EMCジャパンのビッグデータ処理ミドルウエア「EMC Greenplum HD」である。OSS(オープンソース)の「Apache Hadoop」とのアプリケーション開発互換性を保ちつつ、同社が一から企業向けに作り直し、性能、可用性、使い勝手を向上させている。 国内の第一号ユーザーはリクルート(Webのログ解析などに利用)。2011年内は、ユーザー数社に対して限定的にGreenplum HDを導入する。2012年の年明け以降、広く一般への販売を開始する。料金はサブスクリプション(購読)形式とし、データ処理ノード1台あたり年額50万円前後としている。 ITpro EXPO 2011の展示ブース(写真1)では、実機(3台のデスクトップPC)を用いたデモンストレーションやシアター上映を通し、Apahce Hadoopと比べたGreen

    [AWARD受賞製品]可用性と使い勝手を高めたHadoop互換のビッグデータ基盤
    fragarach_the_sword
    fragarach_the_sword 2011/11/05
    [AWARD受賞製品]可用性と使い勝手を高めたHadoop互換のビッグデータ基盤 - ITpro EXPO AWARD 2011 レビュー:ITpro
  • キー分布が偏る場合は性能向上

    最後に12ノードの環境で、複数のHadoopジョブを実行した場合の処理性能について説明する。通常は、1台のサーバー上で複数の処理を同時に実行すると、リソースの競合が発生して性能が低下する。Hadoopで同様の問題が発生するのか調べた。 検証では、同一のHadoopクラスター上で同一処理内容のHadoopジョブを二つ動作させた。キャッシュの影響を排除するために、各ジョブは別のデータを処理するようにしている。 結果はキーの分布が一様な場合とべき分布の場合で異なった(図9)。

    キー分布が偏る場合は性能向上
    fragarach_the_sword
    fragarach_the_sword 2011/08/29
    ITPro連載:Hadoop――企業システムでの実力は?:検証(4)複数ジョブの同時実行:キー分布が偏る場合は性能向上
  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
    fragarach_the_sword
    fragarach_the_sword 2011/08/25
    ITPro連載:Hadoop――企業システムでの実力は?:検証(2)インポートの方法・100万件では専用ツールが最速
  • Google、Amazon、Netflixなどが実践するビッグデータ活用法とは?

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    Google、Amazon、Netflixなどが実践するビッグデータ活用法とは?
    fragarach_the_sword
    fragarach_the_sword 2011/06/08
    EnterpriseZine連載:本格化するビッグデータビジネス(3)Google、Amazon、Netflixなどが実践するビッグデータ活用法とは?
  • NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース:ITpro

    NTTデータは2011年5月30日、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の商用ディストリビューション「Cloudera's Distribution including Apache Hadoop v3(CDH3)」の販売を、6月2日に開始すると発表した。価格は1ノード当たり年額25万円からで、5ノードから販売する。 NTTデータは2010年10月に、CDH3の開発元である米クラウデラと提携している。CDH3は、米アパッチソフトウエア財団が管理するHadoopのディストリビューションに対して、クラウデラによる機能追加や品質強化を加えたディストリビューションである。また、Hadoopを活用するために必要となるシステム連携ツールなどがパッケージ化してある。 CDH3が含むツールとしては、リレーショナルデータベース管理システム(RDBMS)のデータをHado

    NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース:ITpro
    fragarach_the_sword
    fragarach_the_sword 2011/05/30
    NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース:ITpro
  • 第2回 言語、運用監視機能、テスト環境まで用意

    分散処理ミドルウエアの「Hadoop」を基幹バッチ処理に適用するためのフレームワーク「Asakusa」。第2回では、その構成要素を紹介しよう。 Asakusaは、MapReduceアプリケーションの入出力データのクラスファイルを生成する「Model Generator」、独自のDSL(Domain Specific Language)用コンパイラである「Ashigel Compiler」、実行ライブラリの「Rumtime Library」、データ入出力管理フレームワークの「ThunderGate(雷門)」という四つを提供している。 まず、ThunderGate以外の三つについて紹介しよう(図1)。 Model Generator Model Generatorは、開発者が定義した、MapReduceアプリケーションの入出力データ形式をインプットとし、Hadoop独自の「Writable」と

    第2回 言語、運用監視機能、テスト環境まで用意
    fragarach_the_sword
    fragarach_the_sword 2011/03/29
    第2回 言語、運用監視機能、テスト環境まで用意 - Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌:ITpro
  • ウルシステムズのHadoopフレームワーク「Asakusa」

    企業ITに携わる人々の間で、Hadoopに対する関心が急速に高まっている。Hadoopとは、米Googleが発表した論文のアイデアから生まれた、オープンソースの分散処理基盤ソフトウェアである。大量のデータを、比較的安価なサーバを多数並べたクラスタシステム上で、高速かつ効率的に処理できる。既に多くの企業が、Webログの分析やPOSデータの解析といった情報系システムの用途で、Hadoopの活用を始めている。 さらに近年では、大量データを高速処理できるHadoopのメリットを、基幹系システムにも応用しようという動きが出てきている。特に、基幹バッチの処理を高速化するための技術として、Hadoopに大きな期待が寄せられている。しかしその半面、Hadoopを基幹系システムで導入するには、技術的なハードルが数多く存在するともいわれている。 ここに目を付けたのが、ウルシステムズだ。同社が2011年3月にオ

    ウルシステムズのHadoopフレームワーク「Asakusa」
    fragarach_the_sword
    fragarach_the_sword 2011/03/23
    ウルシステムズのHadoopフレームワーク「Asakusa」(1/4):企業のIT・経営・ビジネスをつなぐ情報サイト EnterpriseZine (EZ)
  • Hadoop専用機「リンダ」を解剖

    NTTデータの「Lindacloud(リンダクラウド)」は、「Hadoop」に最適化したハードウエアを同社が自ら設計・製造したアプライアンスサーバーだ。機能をそぎ落として、低コストと低消費電力を追求したハードウエアは、大手クラウド事業者が使うサーバーによく似ている。Lindacloudが象徴する、サーバーの新潮流を探った。 Lindacloudが搭載するHadoopは、分散バッチ処理プログラムを開発するためのミドルウエアだ。複数のサーバーにデータを分散保存してバッチ処理を実行し、結果を集約するという機能を備える。 Lindacloudは、高さ42Uのラックに搭載した35台の専用サーバーユニットで構成する。合計で32個のプロセッサと、256Gバイトのメモリー、128T(テラ)バイトのハードディスクを搭載して、価格は800万円(図1)。インテグレーション費用も含まれていることを考えると、安価と

    Hadoop専用機「リンダ」を解剖
    fragarach_the_sword
    fragarach_the_sword 2011/02/23
    Hadoop専用機「リンダ」を解剖 - サーバー新潮流:ITpro
  • Hadoop使ってる?

    NTTデータのHadoopアプライアンス「Lindacloud for Hadoop」のプラットフォームとなる「Lindacloud」 米Googleの分散データ処理技術をオープンソースとして実装した「Hadoop」――。膨大なデータを高速に解析するツールとして桁違いの可能性を持ち、国内の一般企業でも利用が始まりました。 楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」などにHadoopを使用。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムなどにHadoopを採用しました。 システムインテグレーターはHadoop関連のツールやサービスを相次いで発表しています。Hadoopを企業情報システムに組み込みやすくなってきました。 Hadoopの導入事例 グーグル発「Hadoop」、日企業も利用へ リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡

    Hadoop使ってる?
    fragarach_the_sword
    fragarach_the_sword 2011/02/13
    Hadoop使ってる? - 週末スペシャル:ITpro