タグ

Hadoopに関するtatsu_toraのブックマーク (8)

  • HDFSシェルコマンド一覧 | mwSoft

    概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。 下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 items drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。 ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access

  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)

    序 章 ビッグデータの時代 第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル 第3章 アーキテクチャの基概念と技術 第4章 HadoopはNOSQL? 第5章 主なNOSQLデータベース製品 第6章 NOSQLデータベースの選択基準 第7章 NOSQLを使うビジネス 連載は書籍『NOSQLの基礎知識』(リックテレコム刊、ISBN:978-4897978871)で解説されている内容から一部を抜粋し、連載向けに一部再編集して掲載したものです。 書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基概念から、各プロダクトの特徴を理解できる内容になっています。 連載では、この書籍の内容から、主要プロダクトを紹介している第5章を抜粋し、そのエッ

    KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)
  • 「Apache Kylin」がトップレベルプロジェクトに昇格

    「Apache Kylin」がトップレベルプロジェクトに昇格:米イーベイ発、“ペタバイトスケール”のデータ分析エンジン OLAP on Hadoopを実現する「Apache Kylin」がトップレベルプロジェクトに昇格した。巨大なデータセットを扱うことができ、既存BIツールと組み合わせることもできる。

    「Apache Kylin」がトップレベルプロジェクトに昇格
  • ビッグデータを支える技術 - Qiita

    Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル 以下、Hadoop/MapReduceの機能 複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する 複数マシン上で分散実行される処理の順序や優先度の制御 障害時の自動リカバリ 処理状況のステータス管理や監視機能 処理全体のパフォーマンスを向上

    ビッグデータを支える技術 - Qiita
    tatsu_tora
    tatsu_tora 2015/10/19
    {Hive]
  • 第6回 データ処理における並列アルゴリズム[1] | gihyo.jp

    はじめに 前回は、データ処理における並列性について説明しました。今回からは数回に渡って、当該データ処理における具体的な並列アルゴリズムについて説明します。まずはその準備として、並列システムの性能指標について見ていきます。 並列システムや並列アルゴリズムにおける性能指標 並列システムや並列アルゴリズムを評価する場合においては、スケーラビリティ(Scalability)という指標が用いられることがあります。スケーラビリティは、仕事量や計算資源などが増加したときの処理能力や性能特性を表すものであり、データ処理におけるスケーラビリティの指標は次の2つに分類することができます。 スピードアップ(Speed-up) スケールアップ(Scale-up) スピードアップは、あるジョブを処理する場合において、当該ジョブを処理する計算機などの計算資源を増やしたときに、当該ジョブの処理するための時間がどの程度低

    第6回 データ処理における並列アルゴリズム[1] | gihyo.jp
  • ビッグデータを支える技術 - Qiita

    Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル 以下、Hadoop/MapReduceの機能 複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する 複数マシン上で分散実行される処理の順序や優先度の制御 障害時の自動リカバリ 処理状況のステータス管理や監視機能 処理全体のパフォーマンスを向上

    ビッグデータを支える技術 - Qiita
  • 1