タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

Hadoopに関するneoashのブックマーク (6)

  • Hadoop Streaming で外部ファイルを扱う方法のまとめ - (゚∀゚)o彡 sasata299's blog

    2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ!(*゚Д゚)=3 ムハー そもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある(つまりローカルディスクにある)場合 2) 外部ファイルが別ファイルシステム(S3 だったり HDFS だったり)にある場合 外部ファイルが master 上にある場合 まず、この場合はとても簡単です。例えば hoge.txt と

  • Hadoop HDFSコマンド実行メモ(0.20.1)

    # 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • Index of /mirror/apache/dist/hadoop/core

  • blog.katsuma.tv

    久々のBlog更新、というわけでリハビリがてらJavaScriptで軽く遊んでみたいと思います。 いま、巷で流行ってるMapReduceのオープンソース実装Hadoopは「Hadoop Streaming」という標準入出力でデータのやりとりができる仕組みを使って、 Hadoopの実装言語であるJavaにとらわれず、RubyPerlなど他の言語でもMap+Reduceの処理ができることが1つのウリになっています。 で、僕たちwebエンジニアはみんなJavaScript大好きなので、「JavaScriptでもMap Reduceやりたい!」という流れになるのは必然です。 そこで、試行錯誤でいろいろ試してみると割とさっくり出来たのでそのメモを残しておきたいと思います。 環境の整備 Mac OSX上のVMWare FusionにCentOSの仮想マシンを2台立ち上げて、環境セットアップしました。

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 1