タグ

hadoopとHadoopに関するn-3104のブックマーク (15)

  • GitHub - hishidama/Hadoop-example2-CSV: Hadoop example2 csvfile sum

    n-3104
    n-3104 2012/02/17
    Java・Pig・Hive・AsakusaFW(WindGate)・CascadingでCSVファイルを集計したサンプルソース。
  • Cloudera Blog

    In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturingit’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

    Cloudera Blog
    n-3104
    n-3104 2012/01/10
    バージョンのイラストが分かりやすい。
  • Cloudera Blog

    In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturingit’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

    Cloudera Blog
    n-3104
    n-3104 2012/01/04
    emailをMRを使ってLuceneのインデックスに変換してSolrで参照する方法について書かれている。
  • Hadoop Troubleshooting 101 - Japanese Version | Apache Hadoop for the Enterprise | Cloudera

    View Date Thursday, December 1st, 2011 Description This is a presentation given by Cloudera's Sho Shimauchi in Japan.

  • Prof. David J. DeWitt's Home Page

    n-3104
    n-3104 2011/10/16
    2011のパワポがhadoopの説明。まとまっているし、アニメーションで説明が入っていて分かりやすかった。
  • Robust log process

    2. はじめに 1. スケーラブルなログ集計を安全に構築するために我々が考慮していることを説明します。 2. 広告集計という特性上、「超高速にかつ高効率に!」というよりはどちらかというと「多少の非効率は目をつぶって安全側に寄せる」という設計方針になっています。 3. 上司から突然「来月から 1 日 10 億越えのアクセスをうことになるから集計システムはよろしくね♪」という日が来るかもしれないので、来たる日に備えてもらえればと思います。 4. 自己紹介 山崎大輔 Twitter: @yamaz Blog : 最速配信研究会 http://d.hatena.ne.jp/yamaz/ 現在:株式会社スケールアウト 代表 1 日数億~を超えるような配信をカジュアルに行うための 広告配信システム「 ScaleAds 」の開発と販売およびコンサル かれこれオンライン広告業界で 14 年やってます

    Robust log process
    n-3104
    n-3104 2011/09/21
    ログ集計における集計内容ごとの方式の違いについて書かれている。
  • Toad World Blog

    The next release of Toad for Oracle is right around the corner and, as ever, we have ... Keep reading >

    n-3104
    n-3104 2011/09/17
    nosqlに関するWiki。定義関連でなんか分かんないことがあったら、見てみるとよさげ。
  • MRUnitってマイナー?

    marble @marblejenka @yanaoki あれもびみょうなんですけどね。。最近のMRUnitとくらべてだとどうかわからないですが、Jobに対してテストが書けるのと、多段MRのテストがちょっと書きやすいとか、そのくらいです。 marble @marblejenka Asakusaのtest-driverだけ切り離したらどうか説もあるけど、ツンデレ門とくっついてることに価値があるという側面もあり、なんとも。 marble @marblejenka あと、0.21.x以降だと思うけど、MiniDfsCluster的なものでもうちょっと疑似分散っぽいテストが、簡単かどうかはさておき、できるはずで、そういう意味だとMRUnitの存在意義はどうなのかという話も。

    MRUnitってマイナー?
    n-3104
    n-3104 2011/08/25
    あんまり使えないのかなー。
  • 衛星データ処理勉強会 分散処理システムHadoop

    n-3104
    n-3104 2011/08/03
    導入する上での適用箇所やコスト比較とか、実際に検証した際のトラブルとその対応が載っていたりする。
  • 文系 Hadooper でも分かる Dijkstra アルゴリズム - cocoatomo衝動日記〈移行後版〉

    今日の Hadoop ソースコードリーディングで Dijkstra アルゴリズムの知名度が低かったので, 解説を書いてみたぜ. このアルゴリズムを一言で説明すると? グラフ上のある始点からあるノードへの最短経路とその距離を求めるアルゴリズム. 用語が分かんないんだけど... グラフというと y = 2x とかを思い浮かべるかもしれないが, この場合の「グラフ」というのは「いくつかの丸 (= ノード, 節) を線 (= エッジ, 辺) でつないだもの」で, 状態遷移図もグラフの一種. 状態遷移図は「有向グラフ」と呼ばる. 丸と丸とをただの線ではなく矢印でつなぐので「有向」=「向きが付いている」と言う. "DAG" は "Directed Acyclic Graph" の略で「非循環有向グラフ」と訳される. "Directed" と "Acyclic" の順序が逆になってるのは気にせんでくれい

    文系 Hadooper でも分かる Dijkstra アルゴリズム - cocoatomo衝動日記〈移行後版〉
    n-3104
    n-3104 2011/07/26
    ダイクストラ法(最短経路問題)の解説。既に判明している最短経路を利用することで計算量を減らすって理解で良いのか?
  • はてなブログ | 無料ブログを作成しよう

    トルコ水紀行 -前編 イスタンブール- みなさんこんばんは、地図子です!8月は久しぶりに毎月更新にしようと思います。今までずっと名古屋について書いてきましたが、ワープして・・・ トルコについて書きたいと思います。 2024年6月に念願のトルコに行ってきました。いつからトルコに行きたかったかわから…

    はてなブログ | 無料ブログを作成しよう
    n-3104
    n-3104 2011/07/24
    MRUnitも調べてみたいなぁ。
  • Apache Hadoop Goes Realtime at Facebook

    Apache Hadoop Goes Realtime at Facebook Dhruba Borthakur Kannan Muthukkaruppan Karthik Ranganathan Samuel Rash Joydeep Sen Sarma Nicolas Spiegelberg Dmytro Molkov Rodrigo Schmidt Facebook {dhruba,jssarma,jgray,kannan, nicolas,hairong,kranganathan,dms, aravind.menon,rash,rodrigo, amitanand.s}@fb.com Jonathan Gray Hairong Kuang Aravind Menon Amitanand Aiyer ABSTRACT Facebook recently deployed Facebo

    n-3104
    n-3104 2011/07/15
    FacebookがHBaseを導入するにあたって選定理由や修正点、運用・監視をどのように行っているかまで書かれている。
  • Hiveのソースを見てみた。 - wyukawa's diary

    対象はCloudera版の0.7 どこがエントリポイントかっていう話がまずあるわけだが、hiveコマンドをたたくとこうなりますよね。 $ hive Hive history file=/tmp/wyukawa/hive_job_log_wyukawa_201107032314_538554893.txt >hiveコマンドの実態である$HIVE_HOME/bin/hiveをみると、hiveコマンドをたたくとcliって最後に実行してますね。 cliっていうのはシェルの関数で実態は$HIVE_HOME/bin/ext/cli.shに書かれてます。 で、最終的にはorg.apache.hadoop.hive.cli.CliDriverを実行します。ここにmainメソッドがあります。 >!pwd;みたいな!ではじまるものが指定された場合はそのコマンドがそのまま実行されます。 HiveQLが指定され

    Hiveのソースを見てみた。 - wyukawa's diary
    n-3104
    n-3104 2011/07/14
    ソース見なきゃなー
  • HbaseとHadoopMR - 急がば回れ、選ぶなら近道

    Hbase勉強会のまとめの延長として 今後の考え方をまとめておきます。 まずは前提として <一般論> Hbaseにかぎらず、NoSQL系一般に言えることではあるが Usecaseを意識して利用する事が必要だ、ということだと思う。 最近の傾向としては、Googleでも顕著だけど、 一定の用途をターゲットにして 特定のミドルを開発するという方法が結構多い。 Hbaseもその流れはあるので、 そのあたりは意識する必要はあるかもしれない。 Hbaseついては、注目するとすればFacebookになるかな。 http://www.cloudera.com/resource/hw10_hbase_in_production_at_facebook いずれにしても、割とうまくいっているUsecaseの情報の有用性は 他の技術よりも高いと思う。 基的に単純に分散KVSを使いたいならHbaseにこだわる必要

    HbaseとHadoopMR - 急がば回れ、選ぶなら近道
    n-3104
    n-3104 2011/06/22
    勉強になるなー。単純な追加ならMRだけで問題ないのだけど、あるレコードの更新みたいなユースケースがあるとHBaseなのかと思う。
  • Cloudera Blog

    In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturingit’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

    Cloudera Blog
    n-3104
    n-3104 2011/06/08
    とりあえず、あっさり構築できた。
  • 1