タグ

Hadoopに関するnakaji999のブックマーク (38)

  • HadoopとMongoDBを活用したソーシャルアプリのログ解析

    The document describes the structure of various user activity log collections stored in different databases. It includes collections for errors, access logs, attribute changes, status changes, and purchase charges with details on the fields captured for each user event.Read less

    HadoopとMongoDBを活用したソーシャルアプリのログ解析
  • 平成21年度産学連携ソフトウェア工学実践事業(高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業))事業成果報告書

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • Hadoopとかに入門してみる 〜 分散技術が出てきた背景 - 都元ダイスケ IT-PRESS

    調べたメモ。色々思い込みや想定に基づいた事も書いてるので、鵜呑みして騙され注意報発令さしとく。 最近分散技術系の話題をよく聞くようになりました。企業内グループ内で使うような業務システムであれば、そこまで無茶な数のアクセスも無いだろうから、数台〜数十台規模のサーバを立てればだいたい事足りたのだろう。例えば、サーバ構成を「Webサーバ - APサーバ - DBサーバ」という3レイヤにして、各サーバを冗長化していく、等の手法でどうにかなった。 ただ、処理リクエスト数の増大や、処理対象データの増大、そして処理ロジックの複雑化に伴って、大量のデータを逐次処理するだけでは処理が追いつかない世界が出てきた。業務システムではなく、サービスプロバイダの世界では、この現象は顕著。 また、Webサーバ層とAPサーバ層の冗長化は比較的簡単だけども、DBサーバ層は大量のステートを持っているレイヤだから冗長化がめんど

    Hadoopとかに入門してみる 〜 分散技術が出てきた背景 - 都元ダイスケ IT-PRESS
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • はてなブログ | 無料ブログを作成しよう

    トルコ水紀行 -前編 イスタンブール- みなさんこんばんは、地図子です!8月は久しぶりに毎月更新にしようと思います。今までずっと名古屋について書いてきましたが、ワープして・・・ トルコについて書きたいと思います。 2024年6月に念願のトルコに行ってきました。いつからトルコに行きたかったかわから…

    はてなブログ | 無料ブログを作成しよう
  • 第1回Hadoop関西勉強会 に参加 - 桜、抹茶、白、日記

    大阪まで[twitter:@munetika]さん主催の勉強会に行ってきました。 http://atnd.org/events/6153 日時:2010年07月31日(土) 18:00〜20:00 場所:株式会社ロックオン 会議室 ホテルにチェックインしてまったりしていたら、結構ぎりぎりの時間になってしまいました。でも10分前に到着して3〜4番目位でした。 そういえば、[twitter:@nakaji](id:nakaji999)さんも参加していた。リアルでお会いするのはこれで2回目。メモ書きしているのをチラ見したら結構綺麗な字だったw [twitter:@nakaji]さんの参加レポートも自分が当たり前だろ?と端折ってしまった部分についても言及されていたりと、色々と参考になりますので併せてどうぞ。 d:id:nakaji999:20100801#1280659543 - 第1回Hadoo

    第1回Hadoop関西勉強会 に参加 - 桜、抹茶、白、日記
    nakaji999
    nakaji999 2010/08/01
    やっぱ勉強してる人のまとめは違うなぁ
  • http://agilecatcloud.com/2010/07/26/hadoop-%E3%83%A2%E3%83%87%E3%83%AA%E3%83%B3%E3%82%B0%E5%BA%A7%E8%AB%87%E4%BC%9A-twitter-live-%E9%80%9F%E5%A0%B1-hadoopmodeling-%EF%BC%83hadoop-nosql-cloud-cloudcpmputing-cbajp/

  • KarmaSphereでおじさんにもMapReduce(Java)できた - masayang's diary

    ここ数年Javaからは遠ざかっていた。理由は色々だけど、なんか面倒くさいとか、あの辺が面倒だなとか、annotationsがなんか不気味で面倒っぽいなとか、まあそういうことで。あとコンパイルしてjar作ってとか。なんか昔その物じゃないですか。あ、エディタはフルスクリーンなの? カード穿孔機は不要なの? そりゃすごい。 そういうこともあって最近遊んでいるMapReduceはPythonでストリーミングのを書くことでほぼ用は足りているのだけど、この先もしかしたらJavaでしか実現できない状況に追い込まれるかもしれん。それをガリガリとコードで書くのかPigとやらで実現しちゃうのかはわからんが、でもまあ原理を突き詰めるためにコードで苦労しておくのは損はないかな、と。その場合はJavaですよやっぱ。でもね、Javaって面倒じゃないですか。あの辺とかその辺とか。 そんな自分の脳裏にKarmaSpher

    KarmaSphereでおじさんにもMapReduce(Java)できた - masayang's diary
  • 大名古屋#01 に参加 - 桜、抹茶、白、日記

    d:id:youandi:20100521#p2 大規模分散技術勉強会 in 名古屋(略して大名古屋)の第一回勉強会に行ってきました。 自分でもビックリする位、技術書を読もうという気が起きないので無理矢理読む事にする。 大名古屋#01 http://atnd.org/events/4900 日時:2010年06月13日(日) 10:30〜12:00 場所:株式会社ニューキャスト セミナールーム(名古屋市営地下鉄 東山線 千種駅/JR 千種駅) 公式Twitterタグ:#dainagoya Hadoop 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型購入: 9人 クリック: 449回この商品を含むブログ (73件) を見るイベント内容はオライリー社刊行のHadoop読書会です。今回のHadoopの範囲

    大名古屋#01 に参加 - 桜、抹茶、白、日記
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Đăng nhập alo 789 Cờ bạc trực tuyến hàng đầu | 2024 Best Betting Sites

    alo 789 đăng nhập Hãy tham gia những trang web hàng đầu để trải nghiệm cờ bạc trực tuyến và tăng cơ hội giành giải lớn cùng với phần thưởng hấp dẫn, giúp quyết định dễ dàng hơn. Truy cập trang web hàng đầu để tham gia slot game và tăng cơ hội chiến thắng bằng cách đặt cược sau khi nghiên cứu! Chọn trò cá cược trực tuyến phổ biến, đăng ký thành viên và bắt đầu trải nghiệm ngay hôm nay. Sàn cá cược

  • Welcome to Apache Hadoop!

    Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです

  • Hadoop Virtual Image Documentation - Google Code University - Google Code

    Hadoop Virtual Image Documentation Setting up a Hadoop cluster can be an all day job. However, if you want to experiment with the platform right now, we have created a virtual machine image with a preconfigured single node instance of Hadoop. While this doesn't have the power of a full cluster, it does allow you to use the resources on your local machine to explore the Hadoop platform and run simp

  • Littel-hadoop

    私たちリッテルは、Google化時代の切り札、Hadoop(ハドゥープ)技術を活かして、大規模データの収集や処理を高速、安価に実現。大規模分散処理プラットフォームの構築支援を行います。 勝間和代さんが、『効率が10倍アップする新・知的生産術』 というベストセラーをだされましたが、そのに 『―自分をグーグル化する方法』というサブタイトルがありました。 どれだけ情報を無駄なく、効率よく出し入れできるか? どれだけ有効に情報を抽出し明日の業績につなげるか? といった内容のです。 そこで、会社そのものを『google化する方法』を考えてみませんか? Webアプリケーション、例えばEコマースなどでは、アクセスデータだけでなく、 男女・年齢など顧客データや、購買履歴、時間、商品、回数などの購買状況など、 日々蓄積される膨大なデータやログが集積されていることでしょう。 大量のデータはあって

  • HadoopはBI市場の破壊的テクノロジーになる

    「Big Data」という言葉を見かけることが最近増えてきました。数テラバイトなど大規模なデータを表す言葉です。 このBig Dataをデータを分析し、有用な情報を見いだしてビジネス上の意志決定に活かそうというのがBI(ビジネスインテリジェンス)ですが、BIを実現するためにデータウェアハウスを構築し、OLAPなどの分析ソフトを導入するためのシステム構築は非常にコストのかかるものでした。大規模なデータを保存すること、そしてそれを高速に分析するためには高価で高性能なハードウェアとソフトウェアが必要でした。 そのBIの分野で新たなテクノロジーとして注目されているのがHadoopです。HadoopはBig Dataの保存と分析を、安価なコモディティサーバの集合体で実現します。その点が従来のBI市場にインパクトを与えつつあり、先月、BIツールとHadoopを統合しようとする動きが相次いで顕在化しまし

    HadoopはBI市場の破壊的テクノロジーになる