[B! hadoop] t10471のブックマーク

https://qiita.com/sakamotomsh/items/75f08368c0b807735a4c

t10471 2015/12/12

hadoop

リンク

Python + Hive on AWS EMR で貧者のログサマリ

Security: The Great WordPress Lockdown - WordCamp Melbourne - February 2011

t10471 2014/09/15

リンク

PythonからHDFSを操作する - 偏った言語信者の垂れ流し

HadoopのHDFS(分散ファイルシステム)にはWebHDFSというREST APIがあり、HTTPで操作できる。 WebHDFS REST API Pythonからこれを簡単に使うためのモジュールを探したところ、PyPIでWebHDFS、pywebhdfsの2つを見つけた。 WebHDFS 0.2.0 : Python Package Index pywebhdfs 0.4.1 : Python Package Index WebHDFSという名前のモジュールは、RENAMEとAPPENDの操作に対応してなくてコードもイマイチ。 pywebhdfsのほうはrequestsモジュールを使ってきれいに作られていて、ドキュメントもある。これが良さそう。 pywebhdfs 0.2.2 documentation — pywebhdfs 0.2.2 documentation pywebhdf

t10471 2013/10/22

リンク

「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの

t10471 2012/09/14

リンク

http://infra-engineer.com/hadoop/hadoop-conference-japan-2011-fall%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%95%E3%82%8C%E3%81%9F%E8%B3%87%E6%96%99%E3%82%84%E3%81%A4%E3%81%B6%E3%82%84%E3%81%8D-hcj11f/

t10471 2011/09/27

リンク

Hadoopの現在 - 急がば回れ、選ぶなら近道

もともとHadoopは注目の仕組みであったけどここに来てさらに大きな流れになろうとしてる。各種のイベントや記事にしても大型のものが多く一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 ＆ Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ

t10471 2011/09/20

hadoop

リンク

実践！「MapReduceでテキストマイニング」徹底解説

「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

t10471 2011/07/22

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

t10471 2011/06/22

リンク

Map Reduce 〜入門編：仕組みの理解とアルゴリズムデザイン〜

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services

t10471 2011/06/19

リンク

Apache HBase ブック

Apache ダウンロードミラーサイトの一覧で適切なダウンロードサイトを選択します。通常は、一番上に表示されるリンクをクリックします。HBase Releases のページが表示されます。stable という名前のフォルダをクリックし、次に hbase-0.91.0-SNAPSHOT.tar.gz のように .tar.gz で終わる名前のファイルをローカルファイルシステムにダウンロードします。次の要領で、ダウンロードしたファイルを解凍・展開し、展開後に作成されたディレクトリに移動します。 $ tar xfz hbase-0.91.0-SNAPSHOT.tar.gz $ cd hbase-0.91.0-SNAPSHOT これで HBase を起動する準備は整いました。ただし、HBase を起動する前に、必要に応じて conf/hbase-site.xml を編集し、HBase の書き込み先

t10471 2011/05/05

HBase
hadoop

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

t10471 2011/04/13

Hadoopもやりたいな～

Hadoop

リンク

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。『Hadoop on クラウド / Amazon Elastic MapReduceの真価』（Amazon Web Services, Jeff Barr） Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

t10471 2011/02/23

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

t10471 2011/01/18

hadoop

リンク

Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう！ Hadoop の勉強したい！なんて思っている人は読んでみるとよい。自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

t10471 2010/12/06

リンク

「Application Performance2010」でご紹介したHadoop講演資料を公開します

11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。当日はたくさんの方におこしいただき、ありがとうございます。ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星

t10471 2010/11/30

リンク

HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた

Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

t10471 2010/11/22

リンク

大規模なデータセットを効率的に扱うための Pig 超入門 - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。最近は Twitter や Yahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

t10471 2010/11/10

hadoop
pig

リンク

1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)

必要なもの・Linux(Ubuntu)+Cloudera版Hadoop環境(1台)→ 構築方法はこちら・インターネット接続・Cloudera社のCDH3のHBase, Hive, Pig, HUEのパッケージ(aptでインターネットからインストール) 作業手順以下の、1. HBase, 2. Pig, 3. Hive, 4. HUEの手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) 1. HBase 1-1. インストール: Linux環境にて、rootで作業します。 1-1-1. HBaseをインストールします。 apt-get -y install hadoop-hbase apt-get -y install hadoop-hbase-master apt-get -y install hadoop-hbase

t10471 2010/11/10

hadoop

リンク

Hadoop (4) Pigによる対話的操作

Hadoopの標準インターフェース　hadoop xx xxxx ってのは対話式じゃないので、ちょっと使いにくい。 PigはHadoopのサブプロジェクトで、Hadoopを対話的に操作することが可能なインターフェースと、 MapReduceを効率的に行うための専用言語環境を提供してくれる。 Yahoo！なんかでも使われているっぽい。 Pigの素晴らしいところは、LISPのREPLのように、書いたコードをその場で実行しながら確かめられること。 ■事前準備完全分散モードのHadoop環境が必要なので構築しておく。 Hadoop (3) 完全分散モード ■参考ページきりんさん日記 1台でHive, Pigを試してみる(Ubuntu + Cloudera) （１）Pigの入手する ftp://ftp.meisei-u.ac.jp/pub/www/apache/dist/hadoop/pig/

t10471 2010/11/10

hadoop

リンク

Apache Hadoop and HBase

Copyright © 2009-2015. All rights reserved. This blog is called myNoSQL and it is written by me, Alex Popescu, a software architect with a passion for open source and communities. It records my readings, learnings, and opinions on NoSQL databases, polyglot persistence, and distributed systems -- subjects that I'm passionate about. The opinions expressed here are my own, and no other party necessar

t10471 2010/11/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

hadoopに関するt10471のブックマーク (27)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス