RDB〜Hadoop間でデータのやり取りを行うSqoopをいじってみた。まぁ、押さえておくべきポイントかと思うので。実行環境はAWS m1.smallのHadoop疑似分散環境、CDH4.3。RDBは、Hiveのメタストア用に入れたMySQLを使う。 インストール # yum install sqoop jdbcドライバをsqoopのlibに配置する。 # cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/lib/sqoop/lib/ MySQLでテスト用DB、ユーザを作成。 mysql> create database sqoop; mysql> GRANT ALL PRIVILEGES ON sqoop.* TO sqoopuser@localhost -> IDENTIFIED BY 'sqoopuser999' WITH
いや多分export編やcodegen編等々は書きませんが、、Sqoopのimportコマンド実行時のオプションについて。 SqoopはHadoop上でのデータのImport/Exportに最適化されており、特に実運用的にはHiveテーブルへのImport/Export機能が便利です。 この記事ではSqoopのRDBMS→HDFS/Hiveへのデータインポート機能について書きます。 ◯基本的な動かし方。 Sqoopの基本機能はコマンドラインツールとして用意されています。 ${SQOOP_HOME}/bin/sqoop import [options…] オプションに色々な設定項目を指定するのですが、このオプションの種類が多い・・・ http://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html#_syntax いくつかに分
Sqoop(http://sqoop.apache.org/)はApacheのTop Level Projectとして開発が進んでいるHadoop関連プロダクトです。 Sqoopの特徴としては、既存RDBMSとHDFS(主にHive)との連携…端的に言うと相互のデータインポート/エクスポート処理を簡単に行なうための機能が用意されています。 網羅的な説明はApacheの英語ドキュメント(http://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html)でも読めば良いと思うので、導入体験記的な内容として今回はインストールメモを記載します。 ◯Sqoopのインストール Sqoopのメジャーバージョンには、1.x系と2.x系があります。 という書き方をすると非常に混乱をするのですが、基本的にCoreパッケージは現在のところSqoop
分散バージョン管理システムの利用は拡大しています。そのなかでも最も人気のあるツールはGitでしょう。しかし、GitをWindowsで使うのはなかなか困難でした。 Windows向けのGitであるmsysGitは、bashのコンソールを出して、最小限のUnix風コマンドライン環境を提供するものです。これは使いやすくありません。もう一つの選択肢であるTortoise Gitは、Windowsのエクスプローラー(ファイルマネージャ)に統合されたGUIツールですが、僕は「なんか違うな」と感じてました -- これは個人の感性の問題ですが、ファイルマネージャに横付けすることが、分散バージョン管理システムへの良いUIを提供するようには思えないのです。 ところが、最近は事情が大きく変わっています。使いやすいGUIツールとして、2013年6月に正式公開されたSourceTree for Windowsが存在
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く