[B! Hadoop] tatsu_toraのブックマーク

tatsu_tora id:tatsu_tora

Hadoopに関するtatsu_toraのブックマーク (8)

HDFSシェルコマンド一覧 | mwSoft
概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 it ems drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access
tatsu_tora 2018/01/11
Hadoop

hdfs
リンク
分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
tatsu_tora 2017/12/05
Hadoop

Spark

MapReduce
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
tatsu_tora 2017/07/10
あとで読む

Hadoop

spark

storage
リンク
KVS系NoSQLのまとめ（Hibari、Dynamo、Voldemort、Riak編）
序章ビッグデータの時代第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル第3章アーキテクチャの基本概念と技術第4章 HadoopはNOSQL? 第5章主なNOSQLデータベース製品第6章 NOSQLデータベースの選択基準第7章 NOSQLを使うビジネス本連載は書籍『NOSQLの基礎知識』（リックテレコム刊、ISBN：978-4897978871）で解説されている内容から一部を抜粋し、本連載向けに一部再編集して掲載したものです。書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基本概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基本概念から、各プロダクトの特徴を理解できる内容になっています。本連載では、この書籍の内容から、主要プロダクトを紹介している第5章を抜粋し、そのエッ
tatsu_tora 2016/08/04
riak

Hadoop
リンク
「Apache Kylin」がトップレベルプロジェクトに昇格
「Apache Kylin」がトップレベルプロジェクトに昇格：米イーベイ発、“ペタバイトスケール”のデータ分析エンジン OLAP on Hadoopを実現する「Apache Kylin」がトップレベルプロジェクトに昇格した。巨大なデータセットを扱うことができ、既存BIツールと組み合わせることもできる。
tatsu_tora 2016/01/05
Apache

Hadoop

Kylin
リンク
ビッグデータを支える技術 - Qiita
Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル以下、Hadoop/MapReduceの機能複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する複数マシン上で分散実行される処理の順序や優先度の制御障害時の自動リカバリ処理状況のステータス管理や監視機能処理全体のパフォーマンスを向上
tatsu_tora 2015/10/19
{Hive]

Hadoop

Hbase
リンク
第6回　データ処理における並列アルゴリズム［1］ | gihyo.jp
はじめに前回は、データ処理における並列性について説明しました。今回からは数回に渡って、当該データ処理における具体的な並列アルゴリズムについて説明します。まずはその準備として、並列システムの性能指標について見ていきます。並列システムや並列アルゴリズムにおける性能指標並列システムや並列アルゴリズムを評価する場合においては、スケーラビリティ（Scalability）という指標が用いられることがあります。スケーラビリティは、仕事量や計算資源などが増加したときの処理能力や性能特性を表すものであり、データ処理におけるスケーラビリティの指標は次の2つに分類することができます。スピードアップ（Speed-up）スケールアップ（Scale-up）スピードアップは、あるジョブを処理する場合において、当該ジョブを処理する計算機などの計算資源を増やしたときに、当該ジョブの処理するための時間がどの程度低
tatsu_tora 2015/06/24
あとで読む

Hadoop
リンク
ビッグデータを支える技術 - Qiita
Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル以下、Hadoop/MapReduceの機能複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する複数マシン上で分散実行される処理の順序や優先度の制御障害時の自動リカバリ処理状況のステータス管理や監視機能処理全体のパフォーマンスを向上
tatsu_tora 2015/06/15
ビッグデータ

Hadoop

Yarn

Hbase

Hive

Pig

Spark

Zookeeper

CDH

EMR
リンク
1