[B! mapreduce] nabinnoのブックマーク

nabinno id:nabinno

mapreduceに関するnabinnoのブックマーク (89)

AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Tech Webinar 2014 (旧マイスターシリーズ) Amazon EMRRead less
nabinno 2021/02/17
slideshare

aws-black-belt

amazon-emr

mapreduce

extract-transform-load
リンク
Hadoopを支える「HDFS」
出典：日経コンピュータ 2012年6月7日号 pp.102-103 （記事は執筆時の情報に基づいており、現在では異なる場合があります） Hadoopの高速性をひも解くとき、分散ファイルシステム「HDFS」の存在は欠かせない。MapReduceと協調して行う“ローカル処理”は、バッチ処理の高速化に向くアーキテクチャーだ。そんなHDFSにも、BIツールなどが使いづらいという課題がある。HDFSの代替製品をHadoopに組み込む動きは、その解決を目指すものだ。「HDFS（Hadoop Distributed File System）」は、その名の通り分散バッチ処理ソフト「Apache Hadoop」向けのファイルシステムだ。ファイルを分割して複数のディスクで管理、大量データ処理のスループットを引き上げる。最近になり、HDFSの課題を解決しようと、代替製品をHadoopに組み込む例が増えてきた。
nabinno 2020/12/28
nikkei-bp

apache-hadoop

mapreduce

hdfs

file-system
リンク
Hadoop概要説明
35. Googleの技術との対応 Google Hadoop 分散ファイルシステム GFS (Google File System) HDFS (Hadoop Distributed File System) 分散処理フレームワーク MapReduce Hadoop MapReduce
nabinno 2020/12/28
slideshare

satoshi-noto

apache-hadoop

mapreduce
リンク
Hadoop＋Hive検証環境を構築してみる
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
nabinno 2020/12/21
atmarkit

apache-hadoop

apache-hive

mapreduce

extract-transform-load

data-warehouse
リンク
Apache Hive 紹介
2014年1月23日のあしたのオープンソース研で使用したApache Hive説明資料です。Read less
nabinno 2020/12/21
slideshare

apache-hive

mapreduce

distributed-system

concurrent-computing
リンク
MapReduceによる大規模データを利用した機械学習
1. 2011 2/22（火） Hadoop Conference Japan 2011 MapReduceによる大規模データを利用した機械学習株式会社Preferred Infrastructure 岡野原大輔 hillbig@preferred.jp @hillbig 1 2. 自己紹介株式会社 Preferred Infrastructure フェロー, 研究開発チームリーダー専門分野自然言語処理（情報理工学博士）携わった分野は形態素解析、文書分類/クラスタリング、専門用語抽出、評判分類、情報抽出機械学習,統計処理・圧縮データ構造,データ圧縮主な業務内容有用な技術を新規開発・発掘しプロダクトに反映他社との共同研究開発 Hadoopを利用したデータ解析の案件も数件 2
nabinno 2020/12/14
slideshare

daisuke-okanohara

preferred-networks

mapreduce

machine-learning
リンク
分散システム処理モデルに関する動向について（MapReduceからBorgまで）
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化（限定）されたモデルであったと言えます。また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
nabinno 2020/12/14
yahoo

mapreduce

concurrent-computing
リンク
Private Presentation
Private content!This content has been marked as private by the uploader.
nabinno 2020/12/14
slideshare

mamoru-komachi

apache-spark

apache-hadoop

mapreduce
リンク
基礎から解説！企業を変えるHadoop
「ビッグデータ」をスマートに処理をする新しい道具、それがオープンソースミドルウエアのApache Hadoop（ハドゥープ）です。このHadoopの力で新たな収益を獲得する企業が増えています。本連載ではこのHadoopを基礎から説明していきます。まず今さら聞けないHadoopの基本、もう一度おさらいしたいアーキテクチャーを解説。分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及していきます。2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込みます。目次
nabinno 2020/12/07
nikkei

apache-hadoop

mapreduce

data-engineering
リンク
What is AWS Glue? - AWS Glue
AWS Glue is a serverless data integration service that makes it easy for analytics users to discover, prepare, move, and integrate data from multiple sources. You can use it for analytics, machine learning, and application development. It also includes additional productivity and data ops tooling for authoring, running jobs, and implementing business workflows. With AWS Glue, you can discover and
nabinno 2019/12/29
aws-glue

aws-glue-studio

pyspark

apache-spark

mapreduce

documentation
リンク
Open Source & Open Standards | Cloudera
ClouderaNOW24 Product demos. Live Q&As. Exclusive sneak peeks | Oct 30 Register now
nabinno 2019/12/28
apache-tez

mapreduce

apache-hadoop
リンク
Apache Tezの解説 | Hadoop Advent Calendar 2016 #07 | DevelopersIO
こんにちは、小澤です。この記事はHadoop Advent Calendar 7日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 ｜シリーズ｜ Developers.IO 前回はHiveを使ってHadoop上のデータにSQLでアクセスする方法を紹介しました。今回はTezについて書かせていただきたいと思います。 Tezとは Hadoop上で動くフレームワークの一種です。 YARNの登場によって、MapReduce以外の分散処理フレームワークもHadoop上で動くようになりました。 Tezはそれを利用してMapReduceよりも柔軟かつ効率的に分散処理を行うためのフレームワークとなっております。ただし、TezはMapReduceとは異なり、直接書くというよりは、Hiv
nabinno 2019/12/28
classmethod

apache-tez

mapreduce

apache-hadoop
リンク
Spark vs. Hadoop MapReduce: Which big data framework to choose
nabinno 2019/12/27
"Linear processing of huge datasets is the advantage of Hadoop MapReduce, while Spark delivers fast performance, iterative processing, real-time analytics, graph processing, machine learning and more"

sciencesoft

alex-bekker

apache-spark

apache-hadoop

mapreduce

functional-comparison
リンク
Apache Hive
Apache Hive The Apache Hive ™ is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale and facilitates reading, writing, and managing petabytes of data residing in distributed storage using SQL. Github Mail Docker Community Apache Hive is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale. Hive Metastore(HMS) provid
nabinno 2019/12/27
apache-hive

apache-hadoop

structured-query-language

mapreduce
リンク
Spark and YARN - Qiita
SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。クラスタマネージャとしてのYARN Sparkはアプリケーション（厳密にはSparkアプリケーション）ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr
nabinno 2019/12/19
qiita

apache-spark

mapreduce

distributed-computing

apache-yarn

cluster-manager

concurrent-computing
リンク
Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services
Amazon Web Services ブログ Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを私達が扱わなければいけないデータの量は日々増え続けています(私は、未だに1,2枚のフロッピーディスクを持っていて、1.44MBというのが当時はとても大きいストレージだったことを思い出せるようにしています)。今日、多くの人々が構造化されたもしくは準構造化されたペタバイト規模のファイル群を、日常的に処理してクエリしています。彼らはこれを高速に実行したいと思いつつ、前処理やスキャン、ロード、もしくはインデックスを貼ることに多くの時間を使いたいとは思っていません。そうではなくて、彼らはすぐ使いたいのです: データを特定し、しばしばアドホックに調査クエリを実行して、結果を得て、そして結果に従って行動したいと思っていて、それらを数分の内に行いたいのです。 Amazon
nabinno 2019/12/19
amazon-athena

presto

structured-query-language

mapreduce

distributed-computing

concurrent-computing
リンク
GitHub - treasure-data/trino-client-ruby: Trino/Presto client library for Ruby
require 'trino-client' # create a client object: client = Trino::Client.new( server: "localhost:8880", # required option ssl: {verify: false}, catalog: "native", schema: "default", user: "frsyuki", password: "********", time_zone: "US/Pacific", language: "English", properties: { "hive.force_local_scheduling": true, "raptor.reader_stream_buffer_size": "32MB" }, http_proxy: "proxy.example.com:8080",
nabinno 2019/12/19
github

treasure-data

presto-client

ruby

presto

mapreduce

apache-hadoop

distributed-computing

concurrent-computing
リンク
Class: Aws::EMR::Client — AWS SDK for Ruby V2
nabinno 2019/12/19
aws-sdk

ruby

aws-emr-client

amazon-emr

mapreduce

apache-hadoop
リンク
Welcome to Apache Pig!
Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets. At the present time, Pig's infrastructure l
nabinno 2019/12/19
apache-pig

mapreduce

apache-hadoop

distributed-computing

concurrent-computing
リンク
Apache Pig - Wikipedia
nabinno 2019/12/19
apache-pig

mapreduce

apache-hadoop

distributed-computing

concurrent-computing
リンク
1 2 3 4 5 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx