タグ

Hadoopに関するshishimarubyのブックマーク (9)

  • Jenkinsとhadoopを利用した継続的データ解析環境の構築

    2. Meta Information • 2006.4 – 2012.3 – Keio University • Artificial Intelligence, Semantic Web, Ontology Engineering • 2011.2 – 2012.3 – CTO at Trippiece, Inc. • Software Engineering • 2012.4 – – Engineer at adingo, Inc. • Data Analysis, Operation Engineering twitter: @suzu_v http://blog.kentasuzuki.net

    Jenkinsとhadoopを利用した継続的データ解析環境の構築
  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

  • 分析技術編:Hadoopへの期待と課題

    >>前回 この連載では、ビッグデータの収集から格納までのシステムデザインについて概観してきた。最終回は締めくくりとして、分析技術の課題と今後の方向性を考えてみる。 ビッグデータにおける分析技術の課題 分析技術の課題を考えるために、前回取り上げたECサイトの消費者行動ログデータの分析を想定してみる。図1は、割引率と売上額の相関だけでなく、購入時に表示されていた口コミ情報がどの程度の影響を与えるかを分析する例を示したものだ。この例では、口コミ評価が高いと、割引率に関係なく売上額が高いことを示している(右グラフの円の大きさは売上額の大きさを示す)。 このような分析を行う場合、1回のデータベース検索だけでは結果を出せないため、次のような複数の処理ステップが必要となる。 (1)1画面に含まれる複数の口コミ評価から、価格に関する評価を除外し、総合評価指数を算出する。 (2)会員向け割引を加算するなど割

    分析技術編:Hadoopへの期待と課題
  • Asakusaでの設計・実装の方法についてのドキュメント - 急がば回れ、選ぶなら近道

    Asakusaのドキュメントを大幅に見直し+追加しました。自分の担当は設計関連の部分だったので、その辺の“あとがき”的なものを以下。自分で書いて気になったところもまとめて置く感じで。 http://www.asakusafw.com/techinfo/methodology.html 1.設計手法について 理論的な背景はともかく、業務バッチ処理をどのように設計するか、ということについての一つの「やり方」を書きました。これは完全に経験則と過去の方法論の掘り起こしによるものです。基幹バッチ処理をデータフローで、ゼロから設計するという手法は、周りを見るところ、ほぼ完全なロスト・テクノロジーになってしまっていて、ちょっと見当たらないです。(調査が足りないという話もありますが) データフローベースの、(有り体にいうとCOBOLライクな環境での)バッチの作成は、現状では、メンテナンスで既存に手をいれる

    Asakusaでの設計・実装の方法についてのドキュメント - 急がば回れ、選ぶなら近道
  • Hadoop本読書会 - 13章 ZooKeeper - 大規模分散技術勉強会 in 名古屋

    大規模分散技術勉強会 in 名古屋 トップページページ一覧メンバー編集 Hadoop読書会 - 13章 ZooKeeper 最終更新:ID:hgJMx3CHVA 2011年04月01日(金) 00:02:28履歴 Tweet Hadoop13章が分かりやすい解説になっているとは言えないので、勉強会資料を書き起こしてます。Hadoopは参考書程度に。(terurou) ZooKeeperとは A Distributed Coordination Service for Distributed Applications 「分散システムのための分散協調サービスです(キリッ」 『えっ』「えっ」 簡単に言うと分散システムでの面倒なところをよしなにしてくれるモノ 分散システムでロック・メタデータ共有・データ更新時のイベント通知等を行ってくれる Google MapReduceファミリーのChub

    Hadoop本読書会 - 13章 ZooKeeper - 大規模分散技術勉強会 in 名古屋
  • 分散リアルタイムデータベース「SenseiDB」がオープンソースで公開。LinkedInのインフラとして開発

    テキストなど非構造化データのデータベース機能とサーチエンジン機能を兼ね備えた分散リアルタイムデータベース「SenseiDB」が、オープンソースとして公開されています。 SenseiDBとは先生DBの意味らしく、「Sensei (先生) means teacher or professor in Japanese」と説明があり、ロゴにも「師」の文字が使われています。なぜ先生なのか、その意味について以下のように説明があるのですが…… This name indicates that the system can be used in place of Oracle database in many applications. この名前が示しているのは、このシステムが多くのアプリケーションにおいてOracleデータベースで使われているところで利用可能だということです。 TeacherやProfe

    分散リアルタイムデータベース「SenseiDB」がオープンソースで公開。LinkedInのインフラとして開発
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • 1