タグ

hadoopに関するsadahのブックマーク (27)

  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
    sadah
    sadah 2013/03/22
  • Asakusa Enterprise Batch Processing Framework for Hadoop

    3. 目的 Asakusa の目的 基幹バッチ処理を Hadoop 上で、開発・実行・運用すること Hadoop 上で基幹を動かすことの狙い バッチ処理時間の短縮 バッチ処理の短縮で何が可能になるのか? ① 今まで時間的な制約できなかった処理を何度も行うことができる 月次・週次での処理を日次で行える。可能であれば「即時処理」 シミュレーション・確定処理・クレンジング・引当・受発注・在庫管理・予測処理 ② 時間的に処理が不能であったデータも処理をする 13 か月実績推定から 100 カ月超のデータも取り込む データ種が異なるデータもまとめて処理にかける ③ 無駄な時間がなくなり、運用のコストが劇的に下がる 夜間バッチをなくして、運用監視の人的なコストを下げる 4. 実際どんなものか? 基幹バッチ処理の例~一部抜粋 仕入データ 取り込み 残高 更新 照合 処理 仕入明細 データ 仕入返品 デー

    Asakusa Enterprise Batch Processing Framework for Hadoop
    sadah
    sadah 2011/11/13
  • 110701 asakusa説明資料

    Hadoop World 2011: Proven Tools to Manage Hadoop Environments - Joey Jablonsk...Cloudera, Inc.

    110701 asakusa説明資料
    sadah
    sadah 2011/11/13
  • Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

    Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

    Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary
    sadah
    sadah 2011/11/13
  • Asakusa Framework

    Asakusa Frameworkとは、Hadoop上で大規模な基幹バッチ処理を行うためのフレームワークです。 大容量データを多数のサーバーに分散し、並列処理させることで高速なデータ処理を実現しています。 基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装しているため、Asakusa Frameworkを使えば、 複雑な業務処理もHadoopを意識せずに開発可能です。 2019年12月18日 Asakusa Framework 0.10.4 リリース Asakusa Framework 0.10.4 リリース リリースの概要は以下のとおりです。 Asaksua Gradle Pluginが追加するMavenリポジトリのプロトコル変更 Asaksua Gradle Pluginがプロジェクトに対して追加するMavenリポジトリのURLプロトコルを http: から https:

  • Asakusa hack-a-thonに参加しました #afhack - nokunoの日記

    というわけで品川のイーシー・ワンさんの会議室で行われた、Asakura Hack-a-thonに参加してきました。Asakusa Framework hack-a-thon with Charity - [PARTAKE]まずは発表を聞いてのメモ。 Asakusa Framework Tutorial 自己紹介:@marblejenka さん 趣旨:とりあえずさわってみよう! 概要:商品マスタにある商品の注文の合計を集計 Model: DDLからwritableを自動生成 Test:Excelシートを自動生成 演算子:実装が不要なものはabstractにしておくAsakusa Framework Tutorial β版 View more presentations from shingo furuyama Asakusaの現状と今後 @okachimachiorzさん Asakusa D

  • Asakusa Frameworkメモ(Hishidama's Asakusa Framework Memo)

    データモデル データをHiveで読む [/2014-12-13] データをPigで読む [2011-08-15] テキストファイルを扱う [2015-12-05] シーケンスファイルを扱う [2012-07-11] バイナリーファイルを扱う [2012-07-10] データモデルドライバー [/2015-07-25] テストドライバー [2011-08-27] dmdlファイルの読み込み [2018-11-25] サンプル Oracleシーケンス [/2018-11-01] Asakusa Frameworkの概要 AsakusaFWは、(複数のマシンで)分散して処理を行うバッチアプリケーションを開発する為のフレームワーク。[/2015-07-04] AsakusaFWの独自言語(Asakusa DSL)で処理を記述し、コンパイルすることで、実行用のバイナリーを生成する。 AsakusaF

  • NTTデータのHadoop報告書を読んでみた - wyukawa's diary

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、1か月ほど前からHadoop仕事を始めたこともあり読んでみました。 ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。 で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら2章です。もうちょっと突っ込むなら関連する8章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが2章は割とページをいったりきたりしたので。 2章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象にもHadoo

    NTTデータのHadoop報告書を読んでみた - wyukawa's diary
    sadah
    sadah 2011/10/30
  • CDH3のインストール - wyukawa's diary

    至る所に書かれてますがメモっとく。環境はMac10.6.7上のVirtualBox4.0.8上のCentOS5.6にCDH3を擬似分散モードでインストールします。ディスク容量はデフォルトの8Gより大きくした方がよさげ。なぜなら後で気軽に増やせないからw 増やすには 可搬性疑似仮想アプライアンスサーバーシステム構想 « Midnightjapan にあるようにLVMをうごうごしないといけません。 ちなみにディスク容量不足の状態でHDFSにデータ突っ込むと could only be replicated to 0 nodes, instead of 1というエラーがでますw ともあれ、インストール方法いきます。 家の記事はこちら https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-Instal

    CDH3のインストール - wyukawa's diary
    sadah
    sadah 2011/10/27
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
    sadah
    sadah 2011/10/20
  • MapReduceによる大規模データ処理 at Yahoo! JAPAN

    1. MapReduceによる大規模データ処理 at Yahoo! JAPAN 2011/09/26 ヤフー株式会社 R&D統括部 角田直行、吉田一星 2. 自己紹介 角田 直行(かくだ なおゆき) R&D統括部 プラットフォーム開発部検索開発部 開発4 – 2005年 ヤフー株式会社入社 – Yahoo!地図 – Yahoo!路線 – Yahoo!検索 … – 2011年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3. 自己紹介 吉田 一星(よしだ いっせい) R&D統括部 プラットフォーム開発部検索開発部 開発4 – 2008年 ヤフー株式会社入社 – 検索プラットフォームでHadoopに関する開発 – 画像処理、iPhone向け技術

    MapReduceによる大規模データ処理 at Yahoo! JAPAN
    sadah
    sadah 2011/10/08
  • Hadoopの異端さが面白い - wyukawa's diary

    Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH

    Hadoopの異端さが面白い - wyukawa's diary
    sadah
    sadah 2011/10/03
  • R&Dトレンドレポート 記事一覧 | gihyo.jp

    第25回マッシュアップ開発のススメ[その11:モバイル版アプリケーションを作ろう⑤] 脇武士 2011-10-19

    R&Dトレンドレポート 記事一覧 | gihyo.jp
    sadah
    sadah 2011/10/03
  • エンタープライズビジネスを加速させるHadoop 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    エンタープライズビジネスを加速させるHadoop 記事一覧 | gihyo.jp
    sadah
    sadah 2011/10/03
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
    sadah
    sadah 2011/10/03
  • テキストマイニングで始める実践Hadoop活用

    Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します いまさら聞けないHadoopとテキストマイニング入門 テキストマイニングで始める実践Hadoop活用(1) それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します

    sadah
    sadah 2011/10/03
  • 企業で使われるHadoop

    Copyright © 2004-2024 Impress Corporation. An Impress Group Company. All rights reserved.

    sadah
    sadah 2011/10/03
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
    sadah
    sadah 2011/10/03
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    sadah
    sadah 2011/10/03