[B! hadoop] sadahのブックマーク

Treasure Data - naoyaのはてなダイアリー

少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。

sadah 2013/03/22

hadoop

リンク

Asakusa Enterprise Batch Processing Framework for Hadoop

3. 目的 Asakusa の目的基幹バッチ処理を Hadoop 上で、開発・実行・運用すること Hadoop 上で基幹を動かすことの狙いバッチ処理時間の短縮バッチ処理の短縮で何が可能になるのか？ ① 今まで時間的な制約できなかった処理を何度も行うことができる月次・週次での処理を日次で行える。可能であれば「即時処理」シミュレーション・確定処理・クレンジング・引当・受発注・在庫管理・予測処理 ② 時間的に処理が不能であったデータも処理をする 13 か月実績推定から 100 カ月超のデータも取り込むデータ種が異なるデータもまとめて処理にかける ③ 無駄な時間がなくなり、運用のコストが劇的に下がる夜間バッチをなくして、運用監視の人的なコストを下げる 4. 実際どんなものか？基幹バッチ処理の例～一部抜粋仕入データ取り込み残高更新照合処理仕入明細データ仕入返品デー

sadah 2011/11/13

hadoop

リンク

110701 asakusa説明資料

This document summarizes Asakusa, an open source framework for developing and executing batch applications on Hadoop. It discusses how Asakusa uses domain specific languages to define batch workflows as directed acyclic graphs (DAGs) of operators, and compiles these into MapReduce jobs executed on Hadoop. It also describes components like ModelGenerator, Ashigel compiler, and ThunderGate for integ

sadah 2011/11/13

hadoop

リンク

Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

sadah 2011/11/13

hadoop

リンク

Asakusa Framework

Asakusa Frameworkとは、Hadoop上で大規模な基幹バッチ処理を行うためのフレームワークです。大容量データを多数のサーバーに分散し、並列処理させることで高速なデータ処理を実現しています。基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装しているため、Asakusa Frameworkを使えば、複雑な業務処理もHadoopを意識せずに開発可能です。 2019年12月18日 Asakusa Framework 0.10.4 リリース Asakusa Framework 0.10.4 リリース本リリースの概要は以下のとおりです。 Asaksua Gradle Pluginが追加するMavenリポジトリのプロトコル変更 Asaksua Gradle Pluginがプロジェクトに対して追加するMavenリポジトリのURLプロトコルを http: から https:

sadah 2011/11/02

リンク

Asakusa hack-a-thonに参加しました #afhack - nokunoの日記

というわけで品川のイーシー・ワンさんの会議室で行われた、Asakura Hack-a-thonに参加してきました。Asakusa Framework hack-a-thon with Charity - [PARTAKE]まずは発表を聞いてのメモ。 Asakusa Framework Tutorial 自己紹介：@marblejenka さん趣旨：とりあえずさわってみよう！概要：商品マスタにある商品の注文の合計を集計 Model: DDLからwritableを自動生成 Test：Excelシートを自動生成演算子：実装が不要なものはabstractにしておくAsakusa Framework Tutorial β版 View more presentations from shingo furuyama Asakusaの現状と今後 @okachimachiorzさん Asakusa D

sadah 2011/11/02

リンク

Asakusa Frameworkメモ(Hishidama's Asakusa Framework Memo)

データモデルデータをHiveで読む [/2014-12-13] データをPigで読む [2011-08-15] テキストファイルを扱う [2015-12-05] シーケンスファイルを扱う [2012-07-11] バイナリーファイルを扱う [2012-07-10] データモデルドライバー [/2015-07-25] テストドライバー [2011-08-27] dmdlファイルの読み込み [2018-11-25] サンプル Oracleシーケンス [/2018-11-01] Asakusa Frameworkの概要 AsakusaFWは、（複数のマシンで）分散して処理を行うバッチアプリケーションを開発する為のフレームワーク。[/2015-07-04] AsakusaFWの独自言語（Asakusa DSL）で処理を記述し、コンパイルすることで、実行用のバイナリーを生成する。 AsakusaF

sadah 2011/11/02

リンク

NTTデータのHadoop報告書を読んでみた - wyukawa's diary

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、１か月ほど前からHadoop仕事を始めたこともあり読んでみました。ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら２章です。もうちょっと突っ込むなら関連する８章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが２章は割とページをいったりきたりしたので。２章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象本にもHadoo

sadah 2011/10/30

hadoop

リンク

CDH3のインストール - wyukawa's diary

至る所に書かれてますがメモっとく。環境はMac10.6.7上のVirtualBox4.0.8上のCentOS5.6にCDH3を擬似分散モードでインストールします。ディスク容量はデフォルトの8Gより大きくした方がよさげ。なぜなら後で気軽に増やせないからw 増やすには可搬性疑似仮想アプライアンスサーバーシステム構想 « Midnightjapan にあるようにLVMをうごうごしないといけません。ちなみにディスク容量不足の状態でHDFSにデータ突っ込むと could only be replicated to 0 nodes, instead of 1というエラーがでますw ともあれ、インストール方法いきます。本家の記事はこちら https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-Instal

sadah 2011/10/27

hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

sadah 2011/10/27

hadoop
java

リンク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

sadah 2011/10/20

hadoop

リンク

MapReduceによる大規模データ処理 at Yahoo! JAPAN

1. MapReduceによる大規模データ処理 at Yahoo! JAPAN 2011/09/26 ヤフー株式会社 R&D統括本部角田直行、吉田一星 2. 自己紹介角田直行(かくだなおゆき) R&D統括本部プラットフォーム開発本部検索開発部開発4 – 2005年ヤフー株式会社入社 – Yahoo!地図 – Yahoo!路線 – Yahoo!検索 … – 2011年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3. 自己紹介吉田一星(よしだいっせい) R&D統括本部プラットフォーム開発本部検索開発部開発4 – 2008年ヤフー株式会社入社 – 検索プラットフォームでHadoopに関する開発 – 画像処理、iPhone向け技術開

sadah 2011/10/08

hadoop

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

sadah 2011/10/03

hadoop

リンク

R&Dトレンドレポート記事一覧 | gihyo.jp

第25回マッシュアップ開発のススメ［その11：モバイル版アプリケーションを作ろう⑤］脇本武士 2011-10-19

sadah 2011/10/03

hadoop

リンク

エンタープライズビジネスを加速させるHadoop 記事一覧 | gihyo.jp

sadah 2011/10/03

hadoop

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

sadah 2011/10/03

hadoop

リンク

テキストマイニングで始める実践Hadoop活用

Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説しますいまさら聞けないHadoopとテキストマイニング入門テキストマイニングで始める実践Hadoop活用（1）　それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します

sadah 2011/10/03

hadoop

リンク

企業で使われるHadoop

sadah 2011/10/03

hadoop

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

sadah 2011/10/03

hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

sadah 2011/10/03

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

hadoopに関するsadahのブックマーク (27)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス