並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 6097件

新着順 人気順

hadoopの検索結果161 - 200 件 / 6097件

  • グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開

    グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。 書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL(Domain Specific Language)で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS(Google File System)とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。 なぜSawzallはオープンソースとして公開されたのか? グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグルに

      グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
    • ここが大変だよBigtableとGoogle App Engine

      ここが大変だよBigtableとGoogle App Engine:分散Key-Valueストアの本命「Bigtable」(3)(1/2 ページ) RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説 月間3000万PVの大規模サイトの運用費が月額4万円!? 月間3000万PV相当の膨大なトラフィックを楽々とさばく大規模サイトが、月額4万円弱で運用されている。 Google App Engine(以下、App Engine)が普及するにつれて、そんな驚愕の国内事例も登場しつつあります。GClueがApp Engine上で実装したmixiアプリモバイルモバイルには、1日100万PV以上のアクセスが集中している状態でもサービスのレスポンス低下やダウンは皆無

        ここが大変だよBigtableとGoogle App Engine
      • Amazon.co.jp: Googleを支える技術 ‾巨大システムの内側の世界 (WEB DB PRESSプラスシリーズ): 西田 圭介: 本

          Amazon.co.jp: Googleを支える技術 ‾巨大システムの内側の世界 (WEB DB PRESSプラスシリーズ): 西田 圭介: 本
        • Java 7 CMS GCの基本的な情報の整理 - nekop's blog

          バッチ処理などスループット重視のアプリケーションはデフォルトのパラレルGCで良いが、Java EEアプリケーションサーバなどレスポンスタイム重視のものやHadoopなどのクラスタ系ソフトウェアで死活監視に引っ掛る系などのstop the worldをなるべく避けたいいわゆるサーバ系ソフトウェアを運用する場合には、UseConcMarkSweepGCを付与して停止時間の短いCMS GCを使う。その場合にCMSのチューニングに踏み込もうとするとなんだか難しい記述がいっぱいで若干困るので、簡単なガイドをメモとして書いておく。 対象バージョンは以下。 $ java -version java version "1.7.0_51" OpenJDK Runtime Environment (fedora-2.4.5.1.fc20-x86_64 u51-b31) OpenJDK 64-Bit Serve

            Java 7 CMS GCの基本的な情報の整理 - nekop's blog
          • 大規模分散処理向けの国産“ウェブOS”をRubyで開発中 − @IT

            2007/11/26 2007年11月24日、「楽天テクノロジーカンファレンス2007」において、Ruby言語の開発者で楽天技術研究所フェローのまつもとゆきひろ氏は、開発中の大規模分散処理基盤「Roma」(ローマ)と「Fairy」(フェアリー)のコンセプトを語った。研究段階ではあるものの、米グーグルなど世界トップクラスのネット企業だけが持つ大規模分散処理技術に真っ向から挑戦する試みだ。 米グーグル、米ヤフー、米アマゾンなど世界トップクラスの大手ネット企業は、巨大なトラフィックに対処するため、大規模データセンターの信頼性、可用性、性能などを確保する大規模分散処理基盤の研究開発を進めている。最近では、こうした大規模分散処理基盤は“ウェブOS”と呼ばれることもあり、注目を集めている。つまり世界トップクラスのネット企業は“ウェブOS”を自社開発しているわけだが、楽天でも国産の“ウェブOS”が生まれ

            • ウェブ系エンジニアがおさえておきたい技術ブログまとめ(海外編) - nokunoの日記

              こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge

              • Treasure Dataを支える(中の人に必要な)技術 - myui's memo

                Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行本(ソフトカバー)購入: 47人 クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

                  Treasure Dataを支える(中の人に必要な)技術 - myui's memo
                • はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー

                  はてなブックマークに関連エントリーを配信する機能を追加しました。詳しくは 告知日記で。 この関連エントリーは、株式会社プリファードインフラストラクチャー (以下 PFI) の技術者のみなさんと一緒に開発しました。週末に2泊3日で京都で合宿をしてコア部分を作り、その後京都と東京に分かれてオンラインで連絡を取りながら2週間ほど作り込みをして、今日リリースです。 この合宿では何チームかに分かれて、今回の関連エントリーの機能以外の開発も行っています。その辺の成果はまた後日にリリースできるのではないかと思います。 はてなブックマークの一つの問題として、昔のエントリーがデータベースに埋もれてしまうという点がありました。その問題の解決策としての類似記事抽出、それから検索機能の強化を以前から考えていました。PFI のメンバーのみなさんは情報検索技術のスペシャリストです。アカデミックな研究の成果を製品化を通

                    はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー
                  • 「分散システムのためのメッセージ表現手法に関する研究」 - 筑波大学大学院を卒業しました - Blog by Sadayuki Furuhashi

                    このたび筑波大学大学院を卒業し、修士号を取得しました。卒業にあっては本当に多くの方々にご助力いただきました。この場を借りて御礼申し上げます。ありがとうございました。 現在は起業して、12月からアメリカに在住しています。新たな価値を生み出すべく "下から上まで" システムの設計と開発に携わっており、エキサイティングな毎日を送っています。 修論シーズンに日本にいなかったので、修士論文はメールで送って提出し、卒業式にも出席していないというありさまなので、本当に卒業できたのかどうか実感がないのですが、友人によれば「学位記はあった」らしいので、きっと大丈夫でしょう。(写真はカリフォルニア州マウンテンビューにて) さて、せっかく時間を割いて書いたので、修士論文を公開することにしました。 分散システムのためのメッセージ表現手法に関する研究と題して、バイナリ形式のシリアライズ形式である MessagePa

                      「分散システムのためのメッセージ表現手法に関する研究」 - 筑波大学大学院を卒業しました - Blog by Sadayuki Furuhashi
                    • データセンターの原価計算について〜「クラウド」の別側面として - 急がば回れ、選ぶなら近道

                      要するにデータセンターの「原価計算」です。いろいろこのあたりに関わっています。複雑な計算ロジックと大量のデータを扱う必要があるので、大規模並列計算の適用が必須になり、結果として当方の出番になった、という状態。尚、実行基盤にHadoop(MapR)を利用しています。(一応予定ではSparkに移行するつもりで、開発も始まっています。) さて、いろいろやっていて思うところがあるので、現時点での考え方をまとめておきます。機微な部分はNDAになるので書きませんし、以下は自分の「個人的な」意見であり、特定のサービサーの話をしているわけではありません。基本的にInteropで公にしゃべった話のまとめです。 ■現状認識 現在、国内DCはほぼ乱立状態に近いと思われます。ここへ来て春先のAWSの値下げのインパクトもありました。今後は、より競争的なマーケットになるでしょう。退場する企業やM&Aも活発化していくで

                        データセンターの原価計算について〜「クラウド」の別側面として - 急がば回れ、選ぶなら近道
                      • Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services

                        Amazon Web Services ブログ Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを 私達が扱わなければいけないデータの量は日々増え続けています(私は、未だに1,2枚のフロッピーディスクを持っていて、1.44MBというのが当時はとても大きいストレージだったことを思い出せるようにしています)。今日、多くの人々が構造化されたもしくは準構造化されたペタバイト規模のファイル群を、日常的に処理してクエリしています。彼らはこれを高速に実行したいと思いつつ、前処理やスキャン、ロード、もしくはインデックスを貼ることに多くの時間を使いたいとは思っていません。そうではなくて、彼らはすぐ使いたいのです: データを特定し、しばしばアドホックに調査クエリを実行して、結果を得て、そして結果に従って行動したいと思っていて、それらを数分の内に行いたいのです。 Amazon

                          Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services
                        • Hadoopのインストールとサンプルプログラムの実行

                          前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

                            Hadoopのインストールとサンプルプログラムの実行
                          • cronの代替になりそうなジョブ管理ツールのまとめ - Qiita

                            たまに検討するけど、よく忘れるのでまとめておく。ごく個人的な感想としては、Rundeck, Azkabanあたりで始めてみるのがいいかもと思う。 要件 重複実行の防止 ジョブの実行結果、かかった時間、ログ出力などが見れる 失敗時の通知 候補 OSS系 Rundeck http://rundeck.org/ Java Runtimeで動く RUNDECK PROという有料サービスもある http://simplifyops.com/ 参考: http://heartbeats.jp/hbblog/2015/01/rundeck.html Oozie http://oozie.apache.org/ Workflow Scheduler for Hadoop Java http://oozie.apache.org/docs/4.1.0/DG_Overview.html Webコンソールもある

                              cronの代替になりそうなジョブ管理ツールのまとめ - Qiita
                            • DMMゲームのログ解析~ログ収集と解析の概要~ - DMM.comラボエンジニアブログ

                              現在オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。 今回のブログでは【DMMオンラインゲームで実際に実装しているログとKPI】に関して3回にわたってご紹介致します。 DMMオンラインゲームでは、これまではオンラインゲームのプロジェクトごとに行っていたログの収集方法を統一し、プロジェクトに依存しない基本KPI機能とゲーム独自のKPI機能を実装するためのフレームワークを開発しましたのでその事例をもとにご紹介します。 ログ収集、解析の概要 まず、オンラインゲームのログ収集の全体像をご紹介します。 オンラインゲームのログ収集ではApacheやnginx、PHPのログをfluentdで収集しています。 fluentdに集めたログをHadoopの分散処理システムに保存し、HiveやImpalaで解析をする流れになっています。 ご存知の方も多いと思いますが、HiveとはHD

                                DMMゲームのログ解析~ログ収集と解析の概要~ - DMM.comラボエンジニアブログ
                              • Hadoop Streaming - naoyaのはてなダイアリー

                                id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

                                  Hadoop Streaming - naoyaのはてなダイアリー
                                • データがどのように更新されてきたのか追跡する - クックパッド開発者ブログ

                                  こんにちは。技術部の吉川です。 みなさんは、異常なデータを見つけたが、どうしてそのような状態になったのか追跡できず困ったという経験はないでしょうか。 今回は、そんなときにクックパッドで利用されているAuditログについてご紹介します。 Auditログとは クックパッドでのAuditログは特定のデータレコードに対して発生したイベントをコンテキストとともに記録するものです。 一般的に監査ログ、証跡ログといったものがありますが、それらとは多少異なっています。 ここでのイベントとは、あるデータレコードが 作成された 更新・変更された 削除された といったものです。またそれ以外にもログインした、ログアウトした、セキュアな情報が閲覧された、といったイベントも含まれています。 コンテキストは以下のようなものを記録します。 いつ どこで 処理が行われたホスト 何が イベント 何を 対象データの情報 スキー

                                    データがどのように更新されてきたのか追跡する - クックパッド開発者ブログ
                                  • 試すのが難しい―機械学習の常識はMahoutで変わる

                                    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

                                      試すのが難しい―機械学習の常識はMahoutで変わる
                                    • NTTデータ公式サイト

                                      NTTデータ(国内事業会社) 企業情報 プロフィール 社長メッセージ 役員一覧 NTTデータのテクノロジー NTTデータグループ(持株会社) 企業情報 プロフィール 社長メッセージ Our Way 役員一覧 サステナビリティ 沿革 グループ会社 協賛・文化活動 取引先企業の皆様へ NTT DATA, Inc.(海外事業会社) 企業情報

                                        NTTデータ公式サイト
                                      • NoSQLについて知っておくべき10の事柄

                                        TechRebublicに「10 things you should know about NoSQL databases」(NoSQLデータベースについて知っておくべき10の事柄)という記事が掲載されています。NoSQLデータベースについての現状がよくまとまっている内容でしたので、見出しとポイントをまとめて紹介したいと思います。 10の事柄は前半と後半の2つに分かれていて、前半の5つではNoSQLの利点について説明されており、後半の5つは課題について説明されています。原文はそれなりに長い説明がされているので、詳しくは原文をぜひ見てみてください。以下はそれを1行程度に要約したものです。 5つのNoSQLの利点 Five advantages of NoSQL 1:Elastic scaling (弾力性のあるスケーラビリティ) NoSQLデータベースでは、ノードの追加による拡張性に柔軟に対

                                          NoSQLについて知っておくべき10の事柄
                                        • ssig33.com - DeNA TechCon 2018 『『Nintendo みまもり Switch』を支える技術』 の内容紹介と感想

                                          そういうわけで https://techcon.dena.com/ にいってきました。 表題の発表は、撮影および SNS での内容共有の禁止ということになっていたので、内容を個人サイトで共有致します。その場にいなかった方でこの記事を読んだ方であればこの記事およびその内容を SNS で共有することは一切禁じられないかと思いますのでよろしくお願いします。 発表者 DeNA 堀、平賀 任天堂 名前メモし忘れた 公開されたスケジュールでは堀および平賀による発表ということになっていたが、任天堂の何者かが急遽参加したということだった。おそらく技術者ではなく広報の人。 サービス紹介 (任天堂の人) サービス内容については検索すれば分かることを普通にしゃべり、クッパがサービスを使うあの動画を流すだけ。(ssig33 の感想: なにしにきたんだコイツ) 開発体制 (堀) 任天堂は企画、ディレクション、 Sw

                                          • Efficient data transfer through zero copy

                                            IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

                                              Efficient data transfer through zero copy
                                            • IIJ、Ooyala(ウーヤラ)社と動画配信分野で提携 | プレスリリース | IIJ

                                              • スケーラブルで関数型でオブジェクト指向なScala入門

                                                Scalaの特徴を紹介し、基本構文や関数、 クラスなど、Scalaの基本的な機能について 解説する入門連載 EclipseでScalaプログラミングを始めるための基礎 スケーラブルで関数型でオブジェクト指向なScala入門(1) 概要や5つの特徴を紹介し、開発環境を構築して対話型実行環境「REPL」やEclipse上でHello Worldを実行します

                                                • PC

                                                  認定整備済みパソコンの研究 富士通直販PCの「わけあり品」は電源が入っていないもの、アウトレットは新品 2024.02.09

                                                    PC
                                                  • 転職してから4年が経ちました - 科学と非科学の迷宮

                                                    といっても4月1日の話なのでもう一ヶ月以上も前になるのですが、色々と忙しくて後回しにしてました。 ブログで転職報告してから4年の間、どういう仕事をしてきたのか書いてないことに気づいたので、せっかくなのでちょっとまとめてみようと思います。 1年目(2011年) 「朝、ベッドから起きると、そこが職場になっていた」 この感覚は今でも忘れません。オフィスも同僚もいなかった私は、在宅勤務という形で Cloudera での仕事を始めました。1Kの小さいマンションに住んでいたため他の作業部屋がなく、自分のベッドの横の机がそのまま仕事場になりました。 サポートエンジニア(今は COE = カスタマー・オペレーション・エンジニアという名前になっている)として今の会社での仕事を始めたのですが、肩書き通りの仕事だけをしていればいいなんていうことは当然あるわけもなく、日本にいる唯一のエンジニアとして何でも仕事をこ

                                                      転職してから4年が経ちました - 科学と非科学の迷宮
                                                    • クックパッド株式会社を卒業します - (゚∀゚)o彡 sasata299's blog

                                                      2013年01月31日18:37 その他 クックパッド株式会社を卒業します 私事ですが、このたびクックパッド株式会社を退職することになりました。 有給消化の関係でまだしばらく所属はしていますが、本日1/31が最終出社日です。2009年の8月に入社したので、約3年半お世話になったことになります。ついこの間JOINした気がするのに早いものですね。 短い間でしたが、クックパッドの素晴らしい環境と素晴らしい仲間に恵まれて本当に幸運でした。美味しいご飯も食べられるし。僕の人生の中で、クックパッドにJOINすることに決めたのはかなり上位に食い込む素晴らしい決断だったと思います! やってきたこと せっかくなので振り返ってみます。クックパッドでは以下のようなことをやってきました。 ・HadoopやEMRを利用した大規模データ分析 ・クックパッドという巨大なサイトへの機能追加、改善 ・新規事業へのチャレンジ

                                                      • 分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development

                                                        1年経ってiPhone4の電池がヘタってきた、太田です。 指数関数的にエントリ数が少なくなってきた本ブログですがw、景気付けのためにエントリを投稿したいと思います!本日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた!あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック 保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。 ま

                                                          分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development
                                                        • 第3回 MongoDB勉強会 ダイジェスト

                                                          「第3回 MongoDB 勉強会 in Tokyo」 : ATND 先週土曜日(2011年5月14日)にフューチャーアーキテクトさんのセミナールームにて行われたMongoDBの勉強会に行ってきました。 MongoDBの仕様・機能などの体系的な話からチューニングの話、開発に利用する話、プロダクションとして運用している話と、バランスよくまとまっていてとても勉強になりました。 RDBとの違いや特有の挙動をきちんと把握して利用すれば、十分プロダクションで利用出来るというビジョンが見えました。 詳細は各発表者の方のスライドを見るとわかると思いますが、当日会場でメモしたものでダイジェスト的にまとめました。 MongoDB勉強会は毎月開催(予定)しているそうなので、興味を持たれた方は是非参加して見てください。 MongoDBコミュニティー:MongoDB JP | Google グループ 【発表1】Mo

                                                            第3回 MongoDB勉強会 ダイジェスト
                                                          • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

                                                            こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

                                                              Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
                                                            • MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜

                                                              MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜

                                                                MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
                                                              • Welcome to Apache™ Hadoop™!

                                                                This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

                                                                • CassandraとHBaseの比較して入門するNoSQL

                                                                  ブログでもいろいろ解説しています。 http://little-hands.hatenablog.com/entry/top ドメイン駆動設計屈指の難解な概念「境界付けられたコンテキスト」について解説します。 --- 公式DDD Referenceの定義は以下の通りです。(和訳はだいぶ意訳しています) bounded context A description of a boundary (typically a subsystem, or the work of a particular team) within which a particular model is defined and applicable. 境界付けられたコンテキスト 特定のモデルを定義・適用する境界を明示的に示したもの。 代表的な境界の例は、サブシステムやチームなど。 まぁなかなかよくわからないですよね。DDD

                                                                    CassandraとHBaseの比較して入門するNoSQL
                                                                  • 並列データベースシステムの概念と原理

                                                                    2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907Read less

                                                                      並列データベースシステムの概念と原理
                                                                    • MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

                                                                      MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも

                                                                        MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT
                                                                      • eto.com/d - Google Base論。

                                                                        Google Baseの登場の仕方は面白い。 私もそのニュースをきいて、さすがに面白いことをやるなーと 思って見てみているのだが、私の面白いと思ったポイントは 他の人とずれてるみたいなので、ちょっと書いてみることにした。 http://amrita.s14.xrea.com/d/?date=20051028#p01 この議論はなかなかいいところをいっているんだけど、 本当はもっと奥が深いんじゃないですかね。 Googleがいままでやってきたことはなんだったのだろうか。 それを一言でいえば、「keyとvalueを結びつけること」である。 検索という仕事でいえば、検索語と検索対象のURLを結びつけることである。 他の仕事も全部これで切り取ることができる。 Google Cacheは、URLに対して中身をとってくること、 つまりKey=URL、Value=Contentだ。 GMailとか、他の

                                                                        • サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ

                                                                          私事ですが、本日をもって株式会社サイバーエージェントを退職しました。 正式には6月30日が退職日なのですが、本日が最終出社日*1なのでサイバーの同僚の皆さんと(同僚として)お会いするのはこれで最後です。 思えば、アカデミックなキャリアから民間企業キャリアに転じようと決心し、昨年の6月1日にサイバーに入社して以来、本当に色々なことがありました。 そもそも実はその正式な入社日以前から、12新卒エンジニアたちに混じってJava研修を受けさせてもらったり、その12新卒の彼らから物凄いカルチャーショックを受けたり(笑)*2、よくよく考えたらアカデミアでは一番の若手だったのにサイバーでは最年長レベルだと気付いて萎えたり*3、正式入社の直後にビッグサプライズがあったり*4、右も左もわからないうちに渋谷ラボ(当時)の室長を任されたり*5、突然外国人が半数以上の技術委員会の委員を引き受けることになったり*6

                                                                            サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ
                                                                          • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)

                                                                            基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWS:Amazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。 (本記事は「基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)」の続きです) 和製クラウドでトラブルが続き、やむなくAWSへ移行 インフラについて。やはり和製クラウドベンダのインフラは値段が高い。いろいろ話をして安くならないかと相談したけれど、無理でした。理由は簡単です。デ

                                                                              基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)
                                                                            • その分析、Hadoopなら速く安くできます

                                                                              ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

                                                                                その分析、Hadoopなら速く安くできます
                                                                              • 情報系の学生がやっておくべき10000のこと - nokunoの日記

                                                                                「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます。 0000 – 自分のドメインを買う 0001 – Apacheをインストールして設定をいじる(複数ドメイン対応とか) 0010 – WordPressをインストールしてブログを書く。文章スキルも大事。 0011 – 自分のウェブサイトを運営する 0100 – LAMPでウェブアプリを書く。少なくとも1つ、できればPHPとPythonで。 0101 – 自分のサーバー(物理orクラウド)を持つ

                                                                                • HadoopをWindows上の仮想マシンで手軽に試す方法

                                                                                  Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

                                                                                    HadoopをWindows上の仮想マシンで手軽に試す方法