タグ

sqoopとhadoopに関するfragarach_the_swordのブックマーク (2)

  • HadoopとRDBとのつながりを考える

    連載の第3回は、Hadoop周辺プロダクトの紹介を中心に、HadoopとRDBMSとのつながりを解説し、スムーズなデータの移行手段について検討する。 RDBMS(リレーショナルデータベース管理システム)は、非常に多くのITシステムでデータの保存に利用されている。RDBMS以外のデータベース製品が選択されるのは例外的ケースであるという印象を受けるほどだ。トランザクション処理によりデータの一貫性を強力に保持できること、歴史が長く完成度の高い実装が多数存在すること、結果として多くの技術者がRDBのデータモデルとそのインタフェースであるSQLになじみがあることなどがその理由であろう。 ただし、高い一貫性を提供するRDBMSは、サーバーサイドでの処理量が多く、処理を並列化してスケールアウトを図ることが難しい。そのため、扱えるデータの規模を大きくしようとすると、高価なハードウエアを用意する必要に迫ら

    HadoopとRDBとのつながりを考える
    fragarach_the_sword
    fragarach_the_sword 2012/11/02
    ITPro連載:Hadoop活用実践の勘所 - HadoopとRDBとのつながりを考える
  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
    fragarach_the_sword
    fragarach_the_sword 2011/08/25
    ITPro連載:Hadoop――企業システムでの実力は?:検証(2)インポートの方法・100万件では専用ツールが最速
  • 1