[B! hadoop] mahler-5のブックマーク

リクルートテクノロジーズが語る企業における、「AI／ディープラーニング」活用のリアル

2016/12/02 ＠ITセミナー「事例に見る、AI/ディープラーニング活用入門」での、白井の講演資料になります

mahler-5 2017/06/06

リンク

ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し：第49回 | IT Leaders

IT Leaders トップ＞テクノロジー一覧＞ビッグデータ＞河原潤のITストリーム＞ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し：第49回ビッグデータビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し：第49回 2015年7月8日(水)河原潤（IT Leaders編集部）リストビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業／エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する

mahler-5 2015/07/21

spark
hadoop

リンク

Hadoop 2.6 - Installing on Ubuntu 14.04 (Single-Node Cluster) - 2020

In this chapter, we'll install a single-node Hadoop cluster backed by the Hadoop Distributed File System on Ubuntu. Hadoop framework is written in Java!! k@laptop:~$ cd ~ # Update the source list k@laptop:~$ sudo apt-get update # The OpenJDK project is the default version of Java # that is provided from a supported Ubuntu repository. k@laptop:~$ sudo apt-get install default-jdk k@laptop:~$ java -v

mahler-5 2015/07/19

hadoop

リンク

Any R code as a cloud service: R demonstration at BUILD

Revolutions Milestones in AI, Machine Learning, Data Science, and visualization with R and Python since 2008 At last month's BUILD conference for Microsoft developers in San Francisco, R was front-and-center on the keynote stage. In the keynote, Microsoft CVP Joseph Sirosh introduced the "language of data": open source R. Sirosh encouraged the audience to learn R, saying "if there is a single lang

mahler-5 2015/06/15

リンク

Hadoopの標準GUI HUEの最新情報

大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）NTT DATA Techno logy & Innovation

mahler-5 2015/05/10

hadoop
hue

リンク

1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)

(参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの・UbuntuやdebianのLinux環境1台(手元ではUbuntu Server 11.04/10.04/9.10/8.04, debian 5あたりで試していますが、他バージョンでも大丈夫だと思います) ・インターネット接続・Sun(Oracle)のJavaパッケージ(aptでインターネットからインストール) ・Cloudera社のCDH3のHadoopパッケージ(aptでインターネットからインストール) 作業手順 1. インストール: Linux環境にて、rootで作業します。 sudo su 1-1. Sun(Oracle)のJavaを入れます。(Sun(Oracle)のものが必要です。) ※ ここで、ubuntu 10や11の人は/etc

mahler-5 2015/05/06

リンク

CubieTruck(Cubieboard) Hadoop + Spark1.0.2 cluster構築 - Qiita

#!/usr/bin/env bash # This file is sourced when running various Spark programs. # Copy it as spark-env.sh and edit that to configure Spark for your site. # Options read when launching programs locally with # ./bin/run-example or ./bin/spark-submit # - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files # - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node # - SPARK_P

mahler-5 2015/05/05

spark
hadoop

リンク

Hadoop導入とPythonによるMapReduce - Qiita

Hadoop始めたいけどJavaで書くのめんどくさい… という人のためのチュートリアル． HadoopはJavaで記述されているため基本的にはMapper/ReducerもJavaで記述するが，HadoopにはHadoop Streamingという機能があり，Unixの標準入出力を介してデータの受け渡しをすることができる．これを用いてPythonでMapper/Reducerを書いてみた．もちろんHadoop Streamingを利用すればPython以外の言語でも書ける．今回はUbuntu上に擬似分散環境を構築してみた． Ubuntu12.04 + Haadoop2.4.1 Hadoopの環境構築 Javaがない場合はインストール $ wget http://mirror.nexcess.net/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4

mahler-5 2015/05/05

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

mahler-5 2015/05/05

spark
hadoop

リンク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

mahler-5 2015/05/05

リンク

Apache Spark – pysparkで戯れてみる – OpenGroove

前回投稿でインストールしたSparkを、pysparkから軽く触ってみる。環境はAmazon ec2上のCentOS 6.5、CDH5(beta2)。その前にテストデータを用意しておく。過去記事にも書いたダミーデータ生成ライブラリでこんなCSVを作った。データは10000行。ダミーデータ作るのも面倒だったらログファイルとか、テキストデータなら何でもいいと思う。 29297,Ms. Jolie Haley DDS,2014-03-19 09:43:20 23872,Ayana Stiedemann,2014-03-03 10:31:44 23298,Milton Marquardt,2014-03-26 22:19:41 25038,Damian Kihn,2014-03-23 03:30:08 23743,Lucie Stanton,2014-03-14 20:53:33 28979,

mahler-5 2015/05/05

リンク

大規模並列処理：PythonとSparkの甘酸っぱい関係～PyData.Tokyo Meetup #3イベントレポート

ロゴステッカーの作成計画も進行中です。近々イベント会場でお配りできるかも知れません。チュートリアルおよび次回勉強会のお知らせこの度PyData.Tokyo初の試みとして、初心者向けのチュートリアルを3月7日（土曜日）に行います。また、次回勉強会はデータ解析に関する「高速化」をテーマにし、4月3日（金曜日）に開催します。詳細は記事の最後をご覧下さい。 Sparkによる分散処理入門 PyData.Tokyo オーガナイザーのシバタアキラ（@madyagi）です。ビッグデータを処理するための基盤としてHadoopは既にデファクトスタンダードになりつつあります。一方で、データ処理に対するさらなる高速化と安定化に向けて、新しい技術が日々生まれており、様々な技術が競争し、淘汰されています。そんな中、Apache Spark（以下Spark）は、新しい分析基盤として昨年あたりから急激にユーザーを増

mahler-5 2015/05/05

リンク

PyCon Montreal 2015 tutorials - Hands-on way to learn Data Science in Python

Introduction PyCon(s) carry a benevolent motive of helping the Python community worldwide by providing extensive knowledge resources. I started following PyCon conferences from 2013. My first learning experience from PyCon tutorials & workshops inspired me to follow it back in the year 2014 and this craze continued in 2015 as well. You can check out the training recommendation for tutorials of Pyc

mahler-5 2015/05/05

リンク

Analyzing Big Data with Open Source R and Hadoop

mahler-5 2015/05/04

R
hadoop

リンク

RHadoop - Integrating R with Hadoop | How to Integrate R, Hadoop | R Programming Tutorial | Edureka

mahler-5 2015/05/04

R
hadoop

リンク

Donald Miner - Hadoop with Python - PyCon 2015

"Speaker: Donald Miner In this tutorial, students will learn how to use Python with Apache Hadoop to store, process, and analyze incredibly large data sets. Hadoop has become the standard in distributed data processing, but has mostly required Java in the past. Today, there are a numerous open source projects that support Hadoop in Python and this tutorial will show students how to use them. Sli

mahler-5 2015/05/03

リンク

usefulstuff.io

This domain may be for sale!

mahler-5 2015/05/03

リンク

Writing An Hadoop MapReduce Program In Python

In this tutorial I will describe how to write a simple MapReduce program for Hadoop in the Python programming language. Motivation What we want to do Prerequisites Python MapReduce Code Map step: mapper.py Reduce step: reducer.py Test your code (cat data | map | sort | reduce) Running the Python Code on Hadoop Download example input data Copy local example data to HDFS Run the MapReduce job Improv

mahler-5 2015/04/29

リンク

Parallel Machine Learning for Hadoop/Mapreduce – A Python Example | atbrox

Parallel Machine Learning for Hadoop/Mapreduce – A Python Example Atbrox is startup providing techno logy and services for Search and Mapreduce/Hadoop. Our background is from from Google, IBM and Research. Update 2010-June-17 Code for this posting is now on github –http://github.com/atbrox/Snabler This posting gives an example of how to use Mapreduce, Python and Numpy to parallelize a linear machin

mahler-5 2015/04/29

リンク

PythonでHadoopを実行するラッパー - Qiita

Hadoopの機械学習をPythonでやりたい Java以外でもHadoopのJobを書くことが出来るので、機械学習に強いPythonをHadoopで実装できるようなSkipJackというラッパーをPythonもくもく会と正月で作りました。 GitHubは以下においています。(pipは無し) GitHub-SkipJack 以下、詳細 HadoopStreaming Scikit-learn SkipJack HadoopStreaming Hadoopでは、スレーブ部分でJavaを実行する(Haoop MR Tutorial) スレーブ部分で標準入出力を介してファイルを実行する(Hadoop Streaming Tutorial) という２つの実行方法があり、標準入出力を扱える全ての言語でHadoopが使えます。(Hadoop Streaming) なので、Hadoopで機械学習を

mahler-5 2015/04/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

hadoopに関するmahler-5のブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス