[B! hadoop] nfunatoのブックマーク

Why Dataproc — Google’s managed Hadoop and Spark offering is a game changer. | HackerNoon

nfunato 2017/01/07

リンク

IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nfunato 2016/10/16

hadoop

リンク

Hadoopの使い方のまとめ(2016年5月版) - Qiita

Apache Hadoop (以下Hadoop) が登場して10年が経ち、その間にHadoopとそのエコシステムも誰も予想できないほど大きく進化してきた。当初バッチ処理専用と言われていたHadoopも、今やSQLエンジンや機械学習など様々なアプリケーションを動作させることができる汎用基盤となっている。しかし、「Hadoopとは何か？」「Hadoop入門」のような初心者向け記事は未だに初期の頃のHadoopを想定した説明しかしておらず、現在のHadoopについて正しい情報を伝えていないように見える。一方、「最新のHadoop」といった類の記事は新機能や性能向上ばかりに着目し、それらの進化がどのような意味をもたらしているかについて説明をしていないように感じる。この記事では、10年に渡る進化を遂げたHadoopが現在どのような使われ方をしているのかについて簡単にまとめる。「Linuxはこう使う

nfunato 2016/05/09

hadoop

リンク

Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016

Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan（以下Yahoo!）です。同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。同社データインフラ本部遠藤禎士（えんどうただし）氏

nfunato 2016/02/10

hadoop
spark

リンク

Python 分散処理 Spartan - Qiita

この記事はPythonで分散処理したい方に向けた記事です。 pythonのイメージは遅いという方も多いと思います。そのイメージを払拭すべくcythonなどのライブラリが出ていますが、今回はpythonを高速化する手法の一つとして分散処理について紹介しようと思います。分散処理の代表といえば。・Hadoop ・Spark です。今回はSparkを単純にpythonに適用したいと考えたのですが・・下記の記事でJVMとPythonのデータ構造の変換が何回も起こり、レイテンシーが大きくなるのであまり早くならないと記述がありました。上図の構造を見てみるとSpark Workerとデータをパイプする部分が多く分散処理するとそこがネックになるかもという印象を受けます。そこで今回はPythonでのデータ処理はNumPyという行列データ構造を使うことで高速化することができるため、Numpy行列を

nfunato 2015/11/19

リンク

さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（2）～Sparkのセットアップと実行編～ | さくらのナレッジ

はじめに「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。今回は、Apache Spark を紹介します。前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。また、Sparkが提供するSQL実行エンジン Spark SQLや、ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。インストール構成これからHadoopクラスタにSpa

nfunato 2015/11/08

spark
hadoop

リンク

GitHub - ibis-project/ibis: The flexibility of Python with the scale and performance of modern SQL.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

nfunato 2015/07/20

リンク

Embulk を Hadoop 上で動かす - Qiita

はじめにここでは Embulk の plugin の 1 つである MapReduceExecutor を利用して、Embulk を Hadoop 2.6 上で動かす方法を説明します。分散処理フレームワークである Hadoop 上で Embulk を動かせると、全体として性能を向上させるためのリソース管理が容易になったたり、一時的なエラーが発生した際のリトライなどを自動で行ってくれるなど、様々な恩恵を受けられることが期待できます。 Embulk は plugin 機構をもっており、データの読み込み先と書き出し先を（plugin があれば）自由に選択できることはよく知られておりますが、実は処理を実行する部分も plugin として実装できます。MapReduceExecutor はその 1 実装です。Embulk のデフォルトの実行 plugin は LocalExecutorPlugin

nfunato 2015/07/11

リンク

Spark が次のビッグデータの主役、という主張についての疑問

Sho Shimauchi @shiumachi "Sparkは、ビッグデータ処理ソフトの定番「Hadoop」に続く、次なるビッグデータ処理の主役に目され始めている" ちょっと私の理解と違うかなあ itpro.nikkeibp.co.jp/atcl/column/15… Sho Shimauchi @shiumachi SparkはHadoopと比較するのではなく、 MapReduceと比較するものだと思っている。バッチ処理(MapReduce)や、SQL (Impala/Presto/Drill)、全文検索(Solr/Elasticsearch)等に並ぶ新しい分散処理がSparkという認識 Sho Shimauchi @shiumachi そもそもHadoopは何か。HDFS(分散ストレージ)+MapReduce(分散バッチ処理)だけの時代はこのまま覚えていればよかった。しかし、Map

nfunato 2015/06/23

hadoop
spark

リンク

The Apache Software Foundation Announces Apache Drill 1.0 - Apache Drill

Author: Tomer Shiran (Founder, PMC Member and Committer, Apache Drill) Date: May 19, 2015 Thousands of users adopt Open Source, enterprise-grade, schema-free SQL query engine for Apache Hadoop®, NoSQL and Cloud storage Forest Hill, MD –19 May 2015– The Apache Software Foundation (ASF), the all-volunteer developers, stewards, and incubators of more than 350 Open Source projects and initiatives, ann

nfunato 2015/05/20

リンク

Hadoopデータプラットフォーム #cwt2013

#cwt2013 Clouderaの嶋内 @shiumachi によるビッグデータプラットフォームの構築・運用についてのスライドを公開しました。Hiveをどう扱うかという話から、チームサイズ別の運用方法まで紹介しています Read less

nfunato 2015/05/15

リンク

Hadoopクラスタのラフなサイジング方法

「東京電力がExadataを導入」というプレスリリースを読んで、Hadoopだったらどれくらいの規模になるだろう、というのをなんとなく試算。情報足りない中試算してるので数字そのものに意味はありません。Hadoopのサイジングのやり方について感覚をつかむためにご活用ください。

nfunato 2015/05/12

hadoop

リンク

簡単な集約/変換処理を PySpark & pandas の DataFrame で行う - StatsFragments

こちらの続き。 sinhrks.hatena blog.com 準備サンプルデータは iris 。今回は HDFS に csv を置き、そこから読み取って DataFrame を作成する。 # HDFS にディレクトリを作成しファイルを置く $ hadoop fs -mkdir /data/ $ hadoop fs -put iris.csv /data/ $ hadoop fs -ls / Found 1 it ems drwxr-xr-x - ec2-user supergroup 0 2015-04-28 20:01 /data # Spark のパスに移動 $ echo $SPARK_HOME /usr/local/spark $ cd $SPARK_HOME $ pwd /usr/local/spark $ bin/pyspark 補足前回同様に pandas から直接 PySp

nfunato 2015/04/29

リンク

Treasure Dataを支える(中の人に必要な)技術 - myui's memo

Treasure Data（以下、TD）に入社して早2週間が経ちました。入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行本（ソフトカバー）購入: 47人クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

nfunato 2015/04/15

hadoop

リンク

On-Demand Hadoop Tutorials

nfunato 2015/03/29

hadoop

リンク

米Google、C/C++コードをHadoop上でネイティブに動かすフレームワーク「MapReduce for C（MR4C）」を公開 | OSDN Magazine

米GoogleがC/C++コードを「Apache Hadoop」上で動かすためのフレームワーク「MapReduce for C（MR4C）」をオープンソースで公開した。HadoopはJavaベースで実装されているが、このフレームワークを利用することで、C/C++で書かれたアプリケーションを直接Hadoop上で動かすことができる。 Apache HadoopはJavaで作成されたビックデータ分散処理技術。今回公開されたMapReduce for C（MR4C）はHadoop実行フレームワーク内でC/C++コードをネイティブに動かすことができるフレームワーク技術で、ネイティブコードで実装されたアルゴリズムが持つ性能と柔軟性を利用できるとしている。作成されたアプリケーションは、ローカルのファイルシステムや任意のURI（Uniform Resource Identifier）にアクセスするネイテ

nfunato 2015/03/18

リンク

Sqoop - Google 検索

2019/01/18 · Apache Sqoop(TM) is a tool designed for efficiently transf erring bulk data between Apache Hadoop and structured datastores such as ...

nfunato 2014/01/09

リンク

Cloudera Blog

nfunato 2013/06/18

hadoop

リンク

Greenplum Database on HDFS

White Paper: Backup and Recovery of the EMC Greenplum Data Computing Applian...EMC

nfunato 2012/11/15

リンク

About Hewlett Packard Enterprise: Information and Strategic Vision

Your HPE MyAccount provides you with: Single sign-on to the HPE ecosystem Personalized recommendations Test drives and other trials And many more exclusive benefits

nfunato 2012/11/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

hadoopに関するnfunatoのブックマーク (21)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス