タグ

技術:KVSに関するis302622のブックマーク (33)

  • リクルートのビッグデータ活用の鍵を握るHadoop解析

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    リクルートのビッグデータ活用の鍵を握るHadoop解析
  • はてなブログ | 無料ブログを作成しよう

    吹奏楽コンクール リウマチの調子が悪い!薬の副作用もやばい! 副作用のせいでご飯が全然べられなくなって顔から痩せていくんだけど、お腹とかお尻から痩せたらいいのに。蓄えがあるから多少痩せたってちょうどいいくるいやけど、幸薄そうに見えるから顔は太ったままがいいなぁ。 お…

    はてなブログ | 無料ブログを作成しよう
  • Hadoop

    13. $ env | grep JAVA JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/CurrentJDK/Home $ java -version java -versionjava version quot;1.5.0_07quot;Java(TM) 2 Runtime Environment, Standard Edition (build 1.5.0_07-154)Java HotSpot(TM) Client VM (build 1.5.0_07-87, mixed mode, sharing) $ curl -O http://www.apache.org/dist/lucene/hadoop/stable/hadoop-0.13.0.tar.gz $ tar zxvf hadoop-0.13.

    Hadoop
  • ちょっとHadoopについて語ってみるか(仮題)

    35. public class WordCount { public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { //Map } public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { //Reduce } public static void main(String[] args) throws Exception { JobConf conf = new JobConf(WordCount.class); conf.setJobName("wordcount"); conf.s

    ちょっとHadoopについて語ってみるか(仮題)
  • はやわかりHadoop

    HDFS新機能総まとめin 2015 (日Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

    はやわかりHadoop
  • MapReduce解説

    2. Overview • What is MapReduce? • Product point of view • Computational Model point of view • Framework point of view • Example tasks • Simple experiments in Gumi using amazon elastic mapreduce • Future work

    MapReduce解説
  • Hadoopの紹介

    3. 謝辞 以下のホームページを参照&資料を貸していただきました http://hadoop.apache.org http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html http://www.techcrunch.com/2008/01/09/google-processing-20000-terabytes-a-day-and-growing/ http://codezine.jp/article/detail/2448?p=1 http://www.slideshare.net/kakuda/hadoop/ 4. outline what is Hadoop? Hadoop distributed file system Hadoop mapreduce H

    Hadoopの紹介
  • リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

    リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用--リクルート リクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

    リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大
  • ウルシステムズ、基幹バッチ用フレームワークをOSS化--Hadoopベースに開発

    ウルシステムズは2月9日、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク「Asakusa Framework」を開発、オープンソース化して提供することを発表した。オープンソースソフトウェア(OSS)の分散並列処理フレームワークの「Hadoop」をベースにしている。 Asakusaは企業の基幹バッチシステムの高速処理を目的に開発、Hadoopに対応した業界初のソフトウェアという。Hadoop上に基幹バッチシステムに必要な開発環境や実行環境、運用環境を実装しており、従来長時間かかっていた業務処理を高速に、安価に、かつ安全に実行できるとしている。 Hadoopに詳しくない技術者でもAsakusa上で簡単にシステム開発できることから、分散技術によるメリットを広い分野で享受できると説明している。ウルシステムズによると、実案件での適用が進んでおり、Asakusaにより4時間かか

    ウルシステムズ、基幹バッチ用フレームワークをOSS化--Hadoopベースに開発
  • NoSQLとしてMySQLを使うDeNAが、memcachedよりも高速な75万クエリ/秒を実現

    モバゲーで知られるDeNAは、バックエンドデータベースにNoSQLを使っていません。なぜか? それはMySQL/InnoDB 5.1の環境で秒間75万クエリという、多くのNoSQLでも実現できないような高性能を実現しているから。DeNAの松信嘉範(まつのぶよしのり)氏は、自身のブログにこんな内容のエントリ「Using MySQL as a NoSQL - A story for exceeding 750,000 qps on a commodity server」(英語)をボストしています。 Yoshinori Matsunobu's blog: Using MySQL as a NoSQL - A story for exceeding 750,000 qps on a commodity server 松信氏が指摘するように、大規模なネットサービスを提供している企業の多くは分散環境で

    NoSQLとしてMySQLを使うDeNAが、memcachedよりも高速な75万クエリ/秒を実現
  • Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表

    Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表 業務アプリケーションによるソーシャル機能の取り込み、NoSQLによるスケーラブルなデータベース、Hadoopによる分散データ処理。これらはエンタープライズITの新たなテクノロジートレンドですが、これらをすべて取り入れた業務アプリケーション用のプラットフォームを、NTTデータイントラマートが開発中であることを明らかにしました。 NTTデータイントラマートが先週10月22日に行った同社のイベント「intra-mart Enterprise Web Solution 2010」で、同社が開発中の業務アプリケーションフレームワーク「intra-mart WebPlatform Ver8.0」のデモンストレーションを公開。そこには、Twitterライクなタイムライン、NoS

    Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

    8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。 その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。 原因はアクセスの急増ではなかった プレスリリースの中で、今回の障害の原因は以下のように説明されています。 『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。 高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根的な原因の究明に時間が

    [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
  • [次世代DB編]分散KVSに重要なデータを置いてはいけない

    分散KVS(キーバリューストア)は、RDBMSの代わりになると思ってはいけない。RDBMSでは当たり前だった機能の一部は、あきらめる必要がある。このため、重要なデータをむやみやたらと分散KVS上に置くのはやめた方がよい。 分散KVSであきらめなければならない機能には、次の四つがある、 ・トランザクション機能 ・排他制御機能 ・読み取り一貫性を保証する機能 ・スプリットブレイン対策機能 逆にいえば、これらを取り込まないことで、分散KVSはRDBMSではかなわなかった、無尽蔵なスケーラビリティーや、極端に短いレイテンシー(要求が返ってくるまでの遅延時間)による高パフォーマンスを実現できたわけだ。 ところが、使い方を間違えれば、たちまち問題が生じてしまう。とりわけ、業務システムにおける重要なデータを分散KVS上に置く場合は注意が必要だ。 トランザクション処理に支障 重要なデータとは、不整合や損失

    [次世代DB編]分散KVSに重要なデータを置いてはいけない
  • Hive/Presentations - Hadoop Wiki

    Presentations about Hive A list of presentations mainly focused on Hive. Hive ApacheCon 2008, New Oreleans, LA (Ashish Thusoo, Facebook) Facebook and Open Source, UIUC, (Zheng Shao, Facebook) Hive: Data Warehousing with Hadoop, NYC Hadoop User Meetup (Jeff Hammerbacher, Cloudera) Hive: Data Warehousing Analytics on Hadoop, UC Berkeley, (Joydeep Sarma, Namit Jain, Zheng Shao, Facebook) An Introduct

  • Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera

    グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。 Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。 Hadoopは新しいデータ分析プラットフォームになる Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョ

    Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera
  • 次の一歩を踏み出した“NoSQL”

    「クラウドでパケ死」。 5月中旬、こんな言葉がTwitterで発信された。米Amazon Web Servicesのクラウドサービス「Amazon EC2」と「Amazon EBS」を使ったことろ、わずか5日ほどで利用料が25万円を超えてしまったのだという。ご人のTwitterをたどると、原因は容量が30テラバイトの巨大な仮想ストレージを3台も借りてしまったことにあるようだ。このストレージに、データベースソフト「Cassandra」を使って1兆件を超えるレコードを登録したのだという。 Cassandraとは、米Facebook社が自社のサービス基盤向けに開発したデータベースソフトである。現在はOSSとして公開され、Apache Software Foundationが開発を進めている。特徴は、複数のノードにデータを分散管理できることで、ノードを追加するだけで容易に処理性能を高められる仕組

    次の一歩を踏み出した“NoSQL”
  • HadoopはBI市場の破壊的テクノロジーになる

    「Big Data」という言葉を見かけることが最近増えてきました。数テラバイトなど大規模なデータを表す言葉です。 このBig Dataをデータを分析し、有用な情報を見いだしてビジネス上の意志決定に活かそうというのがBI(ビジネスインテリジェンス)ですが、BIを実現するためにデータウェアハウスを構築し、OLAPなどの分析ソフトを導入するためのシステム構築は非常にコストのかかるものでした。大規模なデータを保存すること、そしてそれを高速に分析するためには高価で高性能なハードウェアとソフトウェアが必要でした。 そのBIの分野で新たなテクノロジーとして注目されているのがHadoopです。HadoopはBig Dataの保存と分析を、安価なコモディティサーバの集合体で実現します。その点が従来のBI市場にインパクトを与えつつあり、先月、BIツールとHadoopを統合しようとする動きが相次いで顕在化しまし

    HadoopはBI市場の破壊的テクノロジーになる
  • グーグルのBigQuery、大規模処理の「仕組みは秘密です」

    先週行われたグーグルのイベント「Google I/O」で発表された、大規模データをSQLライクな命令によって高速に処理してくれる新サービス「BigQuery」。3日前に公開した記事「グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作」で、その概要をお伝えしました。 そのBigQueryについて、Google I/Oのセッションに参加されていたスティルハウス 佐藤一憲氏が「BigQueryってなんぞ?」とエントリをブログに書いています。自由にコピペしていいと許可をいただいたので、あらためてBigQueryとはどんなものなのか、ポイントを紹介しましょう。 大規模なデータを処理できるといえば、思い浮かぶのはMapReduceです。佐藤氏はBigQueryとMapReduceの違いをこう書いています。 MapReduceとはどう違う? 大規模な

    グーグルのBigQuery、大規模処理の「仕組みは秘密です」