並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 6097件

新着順 人気順

hadoopの検索結果121 - 160 件 / 6097件

  • Google Code University - Google Code

    Build AI experiences Build AI-powered Android apps with Gemini APIs and more. Get started Start by creating your first app. Go deeper with our training courses or explore app development on your own.

      Google Code University - Google Code
    • グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作

      「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。 グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ(いわゆる「Big Data」)の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。 まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます(ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれ

        グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作
      • When Google disowns you | Software as Services | ZDNet.com

        Microsoft watcher Mary Jo Foley's blog covers the products, people and strategies that make Microsoft tick. Larry Dignan and other IT industry experts, blogging at the intersection of business and technology, deliver daily news and analysis on vital enterprise trends.

          When Google disowns you | Software as Services | ZDNet.com
        • ところてん - アットウィキ

          「日記/2012年02月09日/大手通信会社の研究所を辞めて、ソーシャルゲーム屋さんに行きます。」は管理者からの閲覧のみ許可しています。 ログイン ログイン

            ところてん - アットウィキ
          • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

            大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

              TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
            • S3とFluentdを用いた効率的なログ管理 | SmartNews開発者ブログ

              ゴクロの大平です。 私にとって一番大事で替えの効かないミュージシャンはさだまさしさんですが、私にとってクラウドコンピューティングのサービスの中で一番大事で替えが効かないサービスはS3です。 多種多様なAPIを用いて柔軟にファイルの操作が出来る事や、”99.999999999%”と謳われている高い耐障害性、S3にあるデータをElastic MapReduceやRedshiftなどを用いて手軽にデータ解析を行える基盤が提供されていることなど、あまりに便利すぎてS3の代替となるサービスを探しだすのが難しい状態です。 もちろん多くのAWSユーザーが同じようにS3の便利さを享受していると思いますし、インターネット上でも多くのブログ等でその魅力が語られています。その中で本記事は既に存在する記事と似たような内容を書いてしまうかもしれませんが、弊社なりのS3の使い方についてご紹介したいと思います。 なお

              • MacRuby: The Definitive Guide

                Thank You! Open Feedback Publishing System (OFPS) is now retired. Thank you to the authors and commenters who participated in the program. OFPS was an O'Reilly experiment that demonstrated the benefits of bridging the gap between private manuscripts and public blogs. Readers gained access to in-progress O'Reilly manuscripts and were able to communicate suggestions with the authors, follow others'

                  MacRuby: The Definitive Guide
                • 機械学習チュートリアル@Jubatus Casual Talks

                  機械学習の社会実装では、予測精度が高くても、機械学習がブラックボックであるために使うことができないということがよく起きます。 このスライドでは機械学習が不得意な予測結果の根拠を示すために考案されたLIMEの論文を解説します。 Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "" Why should i trust you?" Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.

                    機械学習チュートリアル@Jubatus Casual Talks
                  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

                    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

                      FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
                    • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

                      Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

                        “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
                      • グーグルとアマゾンのクラウドの違い ― @IT

                        2008/05/29 米グーグルは現地時間の5月27日、これまでプレビュー版として一部ユーザーに公開していたWebアプリケーションプラットフォームサービス「Google App Engine」(GAE)を、一般向けに公開すると発表した。同時に2008年後半に導入予定の料金体系も明らかにした。 これまで通り500MBのストレージ、月間500万ページビューまでの利用であれば無料。それを超える分については、1CPUコア1時間当たり10~12セント、1GB・1カ月当たり15~18セントかかる。通信帯域の月額は受信について1GB当たり9~11セント。送信については1GB当たり11~13セントとなっている。 この価格設定はAmazon Web Services(AWS)と極めて類似している。例えば「Amazon EC2」(Elastic Compute Cloud)は、1.7GBのメモリ、1CPUコア

                        • 『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』ノート

                          2012/10/09に開催された『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』のノートです。 SIをやっている人には是非読んでほしいです。私のノート作成スキルを割り引いてもさておいても …です。 ※(2012/10/10追記)上の文について、言葉の選び方が不適切だったので修正致しました。「私の資料作成能力の限界で、okachimachiorz1様の伝えたいことの半分も伝わっていないかもしれない。だけど、それでも読む価値がある内容です」ということが、上の文で私が言いたかったことです。申し訳ないです。 ◆今日の勉強会について ◇今日の構成 ・最初にokachimachiorz1様の話を40分くらい ・その後休憩を挟んで来ている人達で感想、深く聞きたいということを皆で話合う ・Q&A ◇この回をやろうと思った経緯 ・okachimachiorz1様のブログを一生懸命呼んでいるうち、そ

                          • データサイエンティストに必要な3つのスキル | quipped

                            久しぶりにタイトルで釣りにいっているが、ブラウザの「戻る」ボタンを押さないでくれw ... ... ... (よし、まだ「戻る」ボタンを押してない!) ぼく自身、データサイエンティストだったことはないが、一応大学では数学を勉強していたし、金融でクオンツトレーダーもやっていたし、人生3回分(と言ったら言い過ぎか)くらいのSQLクエリは書いている。なので、これから書くことは、本屋に立ち並ぶ歯の浮く様なビッグデータ談義よりは、普遍的な価値があると自負できる。 もう一つ本題に移る前に、「データサイエンティスト」という呼称について感じる両価的な感情について軽く説明したい。 ぼくは幸いにも優秀な同僚や友人に恵まれていて、彼らの中には、データ分析屋さんでありながら、データを集めてきて(広義の)データウェアハウスに突っ込むという非常に面倒くさい一連の作業もちゃっちゃか出来る奴が2、3人いる。そういうマルチ

                            • blog.katsuma.tv

                              greeさんで開催されたKey Value Store勉強会に行ってきました。 時間にして4時間超え、内容も国内のKey-Value Storeなソフトウェアの最前線の話ばかりで相当なボリューム。以下、メモってたのを残しておきたいと思います。(誤字、脱字、内容に誤りを含むものなどありましたらお伝えください)また、発表者の方やプロダクトについて、ざっくり調べてURL見つけられたものについてはリンク張っています。 森さん / 末永さん   groonga Sennaの後継エンジン 融通が効かないのがSennaのデメリット スコア算出式のカスタマイズなど Sennaの転置索引 索引の構成部品を自由に組み合わせて使える APIもいろいろ QL DB Low Level memcached互換のkey-value store バイナリのみ対応 計測 クライアント memstorm-0.6.8 mem

                              • Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」

                                Googleのあの巨大な検索システムなどを支えるデータベース「BigTable」は書き込みが毎秒700MB、読み込みが毎秒18GBという化け物システムなのですが、それのクローンを作るプロジェクト「Hypertable」というのがあるようです。既にバージョンが今年の2月4日に「0.9 Alpha」まで到達しており、超巨大な分散データベースを考えている人々から注目されているようです。 詳細は以下から。 Hypertable: An Open Source, High Performance, Scalable Database http://www.hypertable.org/ ダウンロードは以下から。同梱されているテキストファイルにインストール方法などが記されています。 Download Hypertable 実際のテスト結果などは以下に書いてあります。 PerformanceTestAO

                                  Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」
                                • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

                                  執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

                                    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
                                  • Hadoopを用いた大規模ログ解析

                                    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

                                      Hadoopを用いた大規模ログ解析
                                    • Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ

                                      ホリデー事業室の内藤です。 ホリデー事業室は昨年の4月に発足した部署で、Holiday(https://haveagood.holiday)という新規サービスの開発を行っています。 Holiday とは、クックパッドが長年取り組んでいる「毎日の料理を楽しみにする」分野からは少しだけ離れ、「いつもの休日を楽しくすることで人生を豊かにする」ことを目指したサービスです。 例えばこちらのおでかけプランのように、「〇〇に行くならここも行ったほうがいいよ」や「〇〇を散策するならこのコースだよね」など、おでかけのレシピを投稿したり探すことができるようになっています。 今回は、全文検索エンジン Elasticsearch を使って、全文検索と位置情報を絡めた検索についてお話したいと思います。 本稿で説明する内容は、実際に Holiday の中でも応用を加えた形で使われています。 Holiday では、複数

                                        Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ
                                      • Hadoopを使いこなす(1)

                                        まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

                                          Hadoopを使いこなす(1)
                                        • 靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!

                                          やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話

                                            靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!
                                          • 日々進化するHadoopの 「いま」

                                            第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日本Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

                                              日々進化するHadoopの 「いま」
                                            • 分散システムについて語らせてくれ

                                              ↓↓↓↓訂正あります。↓↓↓↓ 2018/07/02に株式会社エフコード社内で行われた勉強会のスライドです。 訂正版(随時更新中): https://docs.google.com/presentation/d/15HOMfAbtdWwO48njcB8IdkN3kVAMu3wsmZo0O3S-f_4/edit?usp=sharing 専門家による資料・専門家向けの資料ではありません。自分自身で学習し、論文・文献等を読解してまとめた内容となります。間違い等あるかもしれませんが、あれば是非コメント頂ければと思います。 【訂正事項】 スライド16: 誤:たった一つのプロセスが故障しただけでも有限時間で合意できない 正:たった一つのプロセスが故障しうるだけでも有限時間で合意できない スライド20: 誤: 重要: あるschedule σ1, σ2 がdisjoint (nodeが被ってない) なら

                                                分散システムについて語らせてくれ
                                              • OSSで支えられるライブドアの巨大ログ集計 #nhntech

                                                PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

                                                  OSSで支えられるライブドアの巨大ログ集計 #nhntech
                                                • そろそろHadoopについてひとこと言っておくか - nokunoの日記

                                                  もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

                                                  • 【レビュー】良くも悪くも『Amazon EC2』は"自由"だった - MOONGIFT運営でわかったこと (1) コストは算出しづらいが…… | ネット | マイコミジャーナル

                                                    Amazon EC2の利用を考えていますか? 筆者の管理サイト「MOONGIFT」は、2008年3月にAmazon Web Services(AWS)が提供する『Amazon EC2』(Amazon Elastic Compute Cloud)上での運営に切り替えました。今年に入ってから"クラウド"という単語が出回るようになり、その先駆者とも言えるAmazon EC2に注目が集まっています。日本の企業や個人であっても利用者が増えているのは事実ですが、実際の利用にまで踏み切れず躊躇している方が多いのもまた事実です。要因としてはセキュリティの確保や、米国のデータセンターにデータが預けられること、速度面での問題など様々に考えられますが、もっとも大きい問題としては未知なものに対する怖さがあるのだと思われます。 そこで今回はMOONGIFTがこれまでAmazon EC2を利用してきた中で感じたメリッ

                                                    • NoSQLの現状

                                                      このため、NoSQLの知識を持つ開発者やアーキテクトに対する需要が高まってきています。最近の調査によると、最近必要とされる開発スキルは次の通りです。 HTML5 MongoDB iOS Android Mobileアプリ Puppet Hadoop jQuery PaaS ソーシャルメディア 技術的要求のトップ10の中で、NoSQLデータベースは2つあります。1つは、iOSよりも上です。これがNoSQLをほめているのでなかったら、何なのでしょう?! しかし、一見したところ、NoSQLはますます速く深いところまで適用されるようになっています。2011年の夏に、有名な報告書の中でOracleは次のように述べました。NoSQL DBがアイスクリームの味のように感じるかもしれないけれど、あまり深入りしない方がいい、NoSQLはそれほど長く残らないかもしれないから。そのわずか2、3ヶ月後、Oracl

                                                        NoSQLの現状
                                                      • “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

                                                        シリコンバレーの日本人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷(以下、TECH 大谷):太田さんというと、Hadoopの人というイメージがありますが、そもそものバックグラウンドを教えてください。 トレジャーデータ 太田氏(以下、TD 太田):はい。もともと私のバックグラウンドはHPC(High Performance Computing)のエリアで、19歳くらいからあまり学校にも行かず(笑)、プリファードインフラストラクチャという会社のCTOをやらせていただきました。あと、米オレゴンの国立研究所で

                                                          “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)
                                                        • ログ集計システムを自前で作る - Y's note

                                                          Index ログ集計システムの要件 DB設計 データ保存方針 table設計 サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する 集計用のバッチ その他 Table肥大化防止 可視化 ログ集計システムの要件 爆弾ログ処理班の@yutakikuchi_です。 ログ集計システムというものを作る時に皆さんはどのように対応していますか? 以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。 ツール 導入難易度 正確性 可視化 リアルタイム 長期集計 スケール 運用費用 リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

                                                            ログ集計システムを自前で作る - Y's note
                                                          • Javaスクールの危険 - The Joel on Software Translation Project

                                                            Joel Spolsky / 青木靖 訳 2005年12月29日木曜 近頃の若い者ときたら。 勤勉はいったいどこへ行ってしまったんだ? 「近頃の若い者」は我慢がないと不平を言うようになったのは、私も年を取ったということなのかもしれない。 そりゃ恵まれてるね。私は3ヶ月汚水浄化槽の中の茶色い紙袋に住んでいたよ。朝6時に起きて、袋を掃除し、固くなったパンの耳を食べ、工場まで歩いて行くと、1日14時間、毎週毎週働きつづけ、家に帰ると親父にベルトでたたかれて寝床についていたんだ。 ——モンティ・パイソンの空飛ぶサーカス 4人のヨークシャー人 私は若い頃、パンチカードでプログラムを作る方法を学んだ。ミスをしたら、それを訂正するためのバックスペースのような近代的な機能は存在しなかった。カードを捨ててはじめから打ち直すのだ。 私は1991年にプログラマの面接をするようになった。コーディングの問題に答える

                                                            • BLOG::broomie.net: 機械学習の勉強を始めるには

                                                              thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

                                                              • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

                                                                大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

                                                                  日々進化するHadoop。これまでのおさらいと最近の動向(前編)
                                                                • Google の大規模データ処理: Days on the Moon

                                                                  Google の鵜飼文敏さんによる講演会「大規模データ処理を可能にする Google の技術」に行ってきました。内容的には筑波大学で開かれたものと同じではないかと思います (「新ビジネスモデル」がそのままだったことなどから)。以下、上記記事に載っていないことを中心にメモから抜書きを。 此頃 Google にはやる物 現在 Google では Google の使命 (Google's mission is to organize the world's information and make it universally accessible and useful...) の早打ちが流行中。鵜飼さんは 50 秒程度、一番速い人は 30 秒程度。 Google の扱う情報 Google のいう「情報」はインターネット上のものだけに限らない (例: Google ブック検索)。 データセンター

                                                                  • 1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?

                                                                    By Chris Halderman 1日の長さは通常24時間ですが、2015年7月1日はうるう秒(閏秒)が挿入されることで通常より1秒長い「24時間1秒」になります。うるう秒とは、現行の協定世界時(UTC)と地球の自転のズレを調整するために追加・削除される時間のことで、2012年7月1日に実施された際にはインターネット上でうるう秒バグが発生しました。 INTERNATIONAL EARTH ROTATION AND REFERENCE SYSTEMS SERVICE(IERS) http://hpiers.obspm.fr/iers/bul/bulc/bulletinc.dat フランスのパリに本部を置く国際地球回転・基準系事業(IERS)は、「うるう秒」を2015年6月30日(世界標準時)に実施することを発表しました。これにより2015年6月30日は23時59分59秒の後に23時59分

                                                                      1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?
                                                                    • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

                                                                      はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

                                                                        第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
                                                                      • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

                                                                        はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

                                                                          フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
                                                                        • MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note

                                                                          MongoDBイン・アクション 作者: Kyle Banker,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2012/12/14メディア: 大型本購入: 5人 クリック: 55回この商品を含むブログ (4件) を見る MongoDB集計機能 CentOSでNginxのログをFluentdを使ってMongodbにリアルタイムで格納する - Yuta.Kikuchiの日記 時給3000円のCEOと揶揄されている@yutakikucです。今日は簡単にMongodbのログ集計機能を紹介します。機能が豊富過ぎて泣けてくるんで、ログ解析する人は是非使ってみて下さい。FluentdでMongodbにNginxのLogを流し込む設定は上のエントリーを参照して下さい。次回はAggregationFramework/MapReduce周りについて触れたいと思います。 泣ける話 : 集

                                                                            MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note
                                                                          • Underscore.js

                                                                            Table of Contents Collections each, map, inject, detect, select, reject, all, any, include, invoke, pluck, max, min, sortBy, sortedIndex, toArray, size Arrays first, last, compact, flatten, without, uniq, intersect, zip, indexOf Functions bind, bindAll, delay, defer, wrap Objects keys, values, extend, clone, isEqual, isElement, isArray, isFunction, isUndefined Utility uniqueId, template Collection

                                                                            • memcachedを超える成果も、Interopで若手技術者がクラウドを支える技術を競う

                                                                              「日本でゼロからクラウドを生み出すムーブメントを作り出したい」(実行委員長 門林雄基氏)---“クラウドを支える技術”の開発力を競う「クラウドコンピューティングコンペティション」が2009年6月11日、Interop 2009の会場で開催された(写真1)。企業や大学・大学院の研究者、そして高校生を含む若手エンジニアが、新しいアイディアと技術力で作り上げたクラウドコンピューティングの基盤ソフトウエアを披露した。 クラウドコンピューティングコンペティションは、奈良先端科学技術大学院大学の門林雄基准教授らの呼びかけで実現したイベント。若手のエンジニアがP2P(ピア・ツー・ピア)技術や分散データ処理技術といったクラウドコンピューティングの基盤技術を開発し、その成果を競う。検証環境として、情報通信研究機構(NICT)が運用するクラスタ環境「StarBED」のコンピュータを最大1000台まで使用可能で

                                                                                memcachedを超える成果も、Interopで若手技術者がクラウドを支える技術を競う
                                                                              • クラウドを支える基盤技術の最新動向と今後の方向性

                                                                                知っているようで知らないNeutron -仮想ルータの冗長と分散- - OpenStack最新情報セミナー 2016年3月 VirtualTech Japan Inc.

                                                                                  クラウドを支える基盤技術の最新動向と今後の方向性
                                                                                • ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを

                                                                                  When Alex Ewing was a kid growing up in Purcell, Oklahoma, he knew how close he was to home based on which billboards he could see out the car window.…

                                                                                    ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを