タグ

nosqlに関するTakaoのブックマーク (39)

  • データベースについてのそもそも論

    先月のはじめのほうで、「リレーショナルデータベースとの上手な付き合い方」というタイトルで、2回発表をした。ひとつは「まべ☆てっく Vol.1」であり、もうひとつは「Hacker Tackle(ハカタクル?)」である。 「リレーショナルデータベースの開発・運用に纏わるもろもろの話をして欲しい」というような内容の話をしてくれないかという同じような依頼を、ちょうど2日違いのイベントで頂いた。9/8のまべ☆てっくと、9/10のHacker Tackleである。そうなると必然的に話す内容も、同じようなものになってくる。同じ人物(=私)が話すのだから、テーマも同じで時期も同じであれば、内容が同じようなものになるのが自然である。もし違うものになってしまっているのであれば、片方はウソをついているということになるはずだ。今日は発表に使用したスライドを紹介しつつ、なぜデータベースを使うべきなのか(あるいは使う

    データベースについてのそもそも論
  • Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison :: Software architect Kristof Kovacs

    Hello, I’m Kristof, a human being like you, and an easy to work with, friendly guy. I've been a programmer, a consultant, CIO in startups, head of software development in government, and built two software companies. Some days I’m coding Golang in the guts of a system and other days I'm wearing a suit to help clients with their DevOps practices. While SQL databases are insanely useful tools, their

  • データベース研究者から見た"ビッグデータ"の意義 「HadoopもNoSQLも邪道だけど…」

    情報処理における全国のエキスパートが一堂に会したリクルート主催の「春の情報処理祭」。人々が日常的に大量のデータを生成・消費するに伴い、「ビッグデータ」の重要性が高まっていると語る、大阪大学准教授の原隆浩氏。「ビッグデータを制する者が世界を制する」とまで言われ、その研究に注目が集まるデータベース分野の歴史と可能性について解説します。(春の情報処理祭in京都より) 高校生の頃まで、パソコンが苦手だった 原隆浩氏:まず、今日データベース研究会のほうから代表ということで来ましたので、自己紹介を兼ねてお話したいと思います。私は今、大阪大学で准教授をしていまして、42歳になります。なので、大学を卒業してちょうど20年経っているぐらいです。 研究の専門分野は、あんまりデータベースっぽくなくて、どちらかというとネットワークとデータベースの境界領域みたいなことをやって、アドホックとかセンサーネットワークにデ

    データベース研究者から見た"ビッグデータ"の意義 「HadoopもNoSQLも邪道だけど…」
  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review. This week had two major events from OpenAI and Google. OpenAI’s spring update event saw the reveal of its new model, GPT-4o, which…

    TechCrunch | Startup and Technology News
  • 『HBaseCon2013参加レポート(後編)』

    General Sessionの中で出てきたHBaseエコシステムに触れると、今年のHBaseConのセッションのいくつかを紹介できるのでまずHBaseエコシステムについて書きます。 Hadoopエコシステムの1つとしてHBaseがあるわけですが、そのHBase自身のエコシステムも発展してきています。まず、SQLライクなクエリでHBaseにアクセスできるオープンソースプロダクトとして、ClouderaのImpala、SalesForceのPhoenix、Apache Drillといったものがあります。今回それぞれカンファレンスでセッションがありました。 Impala はデータサイエンティストがHadoop上のデータをインタラクティブに解析できることを目指したクエリエンジンで、HBase・HDFSの両方をサポートしています。高速に動作するようC++で開発されており、クエリがHiveQLがベ

    『HBaseCon2013参加レポート(後編)』
  • NoSQLに関するまとめ

    2. NoSQLとは? • Not Only SQLの略 – 元々は当に「No SQL」だったみたいだけ ど、印象悪いのでこうなったらしい • SQLを使わない非リレーショナルなデータ ベースの総称 – おおざっぱに言うとMySQLとかPostgreSQL以外 • どんなものがあるか – kumofs, redis, Amazon SimpleDB, hBase, Cassandra, memcachedb, Couch DB, MongoDB, ... 3. NoSQL登場の背景 • RDBでは大規模なウェブ環境に対応できな くなってきた。特にスケーラビリティの 面で。 – MySQLでのスケーラビリティを考える – readのスケーラビリティ: レプリケーション +ロードバランシング – writeのスケーラビリティ: sharding/partitioning – いずれにしろ、M

    NoSQLに関するまとめ
  • カラム型データベースはなぜ集計処理が高速で、トランザクションが苦手なのか。インメモリとカラム型データベースの可能性を調べる(その4)

    カラム型データベースはなぜ集計処理が高速で、トランザクションが苦手なのか。インメモリとカラム型データベースの可能性を調べる(その4) 現在主流となっているOracleSQL Server、DB2などのリレーショナルデータベースは事実上すべて、行(ロー)指向で内部の処理を行っています。一方で、最近急速に注目されているのが、列指向で内部処理を行い、大量データの集計や分析処理に優れた「カラム型データベース」(あるいはカラム指向データベース、カラムナーデータベース)です。 カラム型データベースはSybase IQやNetezza、Verticaなどデータウェアハウス専用のデータベースで主に採用されています。また、SQL Serverには「ColumnStore Index」、Oracle Exadataには「Hybrid Columnar Compression」と呼ばれるカラム型データベースの

    カラム型データベースはなぜ集計処理が高速で、トランザクションが苦手なのか。インメモリとカラム型データベースの可能性を調べる(その4)
  • MongoDBが適さないケース - 中年engineerの独り言 - crumbjp

    > 原文(Why MongoDB is a bad choice for storing our scraped data) 私自身はMongoDBを推進する立場なのだが、確かにMongoDBに適さないケースはある。 闇雲に推進しても結局は全員がアンハッピーになるので、この様なネタもどんどん紹介していこうと思う。 この記事はMongoDBを徹底的に使い尽くしたエンジニアが書いている様で状況が良く解った。 ちょっと難しい所もあるので要点を意訳して、軽く解説を書いてみる。 (もちろん是非原文で読むのをお勧めする) 状況 最初はMongoDBでうまく動いていたが、だんだん苦労が増えてきて 元々のアーキテクチャを刷新するタイミングでMongoDBから別のプロダクトに乗り換える事にした。 システムの規模 詳しく書かれていないが、1ノード辺り数TBとあるのでSharding環境ではないかと思われる。

    MongoDBが適さないケース - 中年engineerの独り言 - crumbjp
  • ドキュメント指向のNoSQLデータベース(CouchDB、MongoDB)編

    書籍紹介 連載は下記書籍から第5章を基に、@IT向けに再構成して掲載しています。 目次 序 章 ビッグデータの時代 第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル 第3章 アーキテクチャの基概念と技術 第4章 HadoopはNOSQL? 第5章 主なNOSQLデータベース製品 第6章 NOSQLデータベースの選択基準 第7章 NOSQLを使うビジネス 連載は書籍『NOSQLの基礎知識』(リックテレコム刊、ISBN:978-4897978871)で解説されている内容から一部を抜粋し、連載向けに一部再編集して掲載したものです。 書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基概念から、各プロダクトの特徴を理解できる内容になっていま

    ドキュメント指向のNoSQLデータベース(CouchDB、MongoDB)編
  • cassandraを運用していて困っていること - oranie's blog

    ※2013/03/05に追記 Yuki Morishita(@yukim)さんより以下のエントリについてアンサーを貰いました!!! https://gist.github.com/yukim/5086476 - なんか呟いたら「m9(^Д^)プギャー」な意味なのかRTとかがついたので、まとめておこう。きっと「これやれば解決するのに・・・プークスクス!」って教えて貰えるに違いない。半分くらい僕の技術力の低さから来ているのが多いので、Cassandra特有の問題から外れている気がするけど気にしない。 前提条件として HW:CPU12core メモリ64GB Disk:SSDやHDD(RAID10)を使用(詳細な構成は割愛) Cassandra 1.1.5 JDK 1.6.0_33-1 Simple Strategyを使用 1ノード辺り100〜200GB程度のデータを想定 クラスタの数とかは

    cassandraを運用していて困っていること - oranie's blog
  • 【CyberAgent】技術情報/TechReport - テックレポート/MongoDBの運用について | 株式会社サイバーエージェント

    ■はじめに 弊社でも、ピグライフをはじめとしてモバイルゲームなどのサービスでMongoDBを使い始めています。 運用に関してはMySQL等にはまだノウハウ的にはかなわないものの、NoSQLのジャンルの中では有用なプロダクトであるといえるかと思います。 ですが、運用に関しての共有ができておらず、有効な使い方ができていないパターンも多いです、そのため運用に関してノウハウを共有するための資料を作成しました。 ■概要/特徴 MongoDBには以下のような特徴がある ●      BSONによる、JSONによるスキーマレスなデータ運用 これにより、柔軟なデータ構造をわかりやすく表現できる。 加えてスキーマレスなため、データの構成を柔軟に帰ることが出来る ●      レプリカセットによる冗長化対応 MySQLでも、マスタを冗長化するためには、MySQLCluster、MHAなどのプロダクトがあ

  • The Citus Blog | Citus Data

    Thoughts about the Citus database—as well as PostgreSQL, sharding, distributed databases, and other open source extensions to Postgres. Now in its 3rd year, POSETTE: An Event for Postgres 2024 is not only bigger than previous years but some of my Postgres friends who are speakers tell me the event is even better than past years. Sweet. Formerly called Citus Con (yes, we did a rename), POSETTE is a

    The Citus Blog | Citus Data
  • オラクル、エンタープライズ向けNoSQLの新版「Oracle NoSQL Database 2.0」リリース。オープンソースの無償版も公開

    Oracle NoSQL Databaseは、キーバリューストアであるOracle Berkeley DB Java Editionをベースに、分散処理機能、ロードバランス、管理機能、マルチノードバックアップ機能などを追加したもの。昨年10月に最初のバージョンが公開され、今回がそれ以来初のメジャーバージョンアップとなります。 性能向上やOracle、Hadoopとの統合強化 Oracel NoSQL Databaseの基的なアーキテクチャは変わらず、プライマリキーのハッシュによって指定されたノードにキー/バリューのペアを書き込む分散キーバリューストア。シングルマスター/マルチレプリカ方式で、マスターノードが落ちたときにはPAXOSベースの自動フェイルオーバーを行い、単一障害点の排除と可用性を実現しています。 バージョン2.0での主な強化点は、性能向上、自動リバランシング、Oracel D

    オラクル、エンタープライズ向けNoSQLの新版「Oracle NoSQL Database 2.0」リリース。オープンソースの無償版も公開
  • KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)

    序 章 ビッグデータの時代 第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル 第3章 アーキテクチャの基概念と技術 第4章 HadoopはNOSQL? 第5章 主なNOSQLデータベース製品 第6章 NOSQLデータベースの選択基準 第7章 NOSQLを使うビジネス 連載は書籍『NOSQLの基礎知識』(リックテレコム刊、ISBN:978-4897978871)で解説されている内容から一部を抜粋し、連載向けに一部再編集して掲載したものです。 書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基概念から、各プロダクトの特徴を理解できる内容になっています。 連載では、この書籍の内容から、主要プロダクトを紹介している第5章を抜粋し、そのエッ

    KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)
  • 「MongoDBのはじめての運用テキスト」を書いてみた - 256bitの殺人メニュー

    MongoDB使いましょって時に、やれ、レプリカセットだの、シャーディングだの、いちいち手順とか教えていくのがめんどくさくなったので、これを見たらコマンド的な手順はひと通りいけますよ。だから後は自分で調べてね、っていう資料をつくってみたのだ。 というわけで、「MongoDBのはじめての運用テキスト」SlideShareにあげました。 MongoDBのはじめての運用テキスト from Akihiro Kuwano 内容 PDFには、以下の様な内容を盛り込んでいます。 インストール レプリカセット構築 シャーディング設定 基的なオペレーション Stat系ツールの見方。 ただし、徐々に古い情報にはなってくると思うので、詳しい情報や、最新の情報を見たい方には公式のWikiなり、ソースなり見ていただくのを推奨いたしますw 意図 以前MongoDBの薄いなどもあって、あれはすごくわかりやすい入門テ

    「MongoDBのはじめての運用テキスト」を書いてみた - 256bitの殺人メニュー
  • NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(前編)

    NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(前編) 代表的なNoSQLデータベースの1つ「Apache Cassandra」をテーマにしたイベント「Cassandra Summit 2012」が、8月8日にサンタクララで開催されました。 Cassandraは、キーバリュー型データストアとして高速なデータの入出力や高いスケーラビリティが特徴です。最新バージョンではマルチデータセンター、マルチテナンシーなど高度な機能も搭載しました。 そうした最新機能などが紹介された、Cassandra Summit 2012で行われたCassandraの主要な開発者Jonathan Ellis氏の基調講演「The State of Cassandra, 2012」の内容をダイジェストで紹介します。 The State of Cassandra, 2012

    NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(前編)
  • NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(後編)

    NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(後編) 代表的なNoSQLデータベースの1つ「Apache Cassandra」をテーマにしたイベント「Cassandra Summit 2012」が、8月8日にサンタクララで開催されました。 (記事は「NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(後編)」の続きです) 最新版Cassandra 1.1で追加された機能とは Cassandraはどう進化してきたか。昨年1月の0.7が最初のモダンなバージョンだったというのが私の考えだ。0.8では分散カウンターを実装し、セルフチューニング要素を強めた。1.0は、1.0を宣言したこと、そして圧縮機能を備えるなどの前進があった。 そして現在のバージョンが4月にリリースしたCassandra 1.

    NoSQLデータベースの「Cassandra」最新動向。Cassandra Summit 2012(後編)
  • pixivのデータストア/キャッシュ戦略 その3 - pixiv engineering blog

    HHKB Professional Type-Sが欲しいインフラ兼ソフトウェアエンジニアのbokkoです。 普段はHHKB Proの日語配列キーボードを愛用しています。英語配列は苦手です。このことを同僚のエンジニアに言うとジト目で見つめられ・・・睨みつけられること請け合いです。 連載の最後となる今回はpixivのデータストア/キャッシュ戦略を支える周辺ミドルウェアについて解説していきます。 memcachedからKyotoTycoonへ移行した際に発生した問題 前回の記事の最後にもあったようにpixivではAPの数だけあったmemcachedへのリクエストを少数のKyotoTycoonにまとめたことで一部のKyotoTycoonサーバへのTCPコネクション数が爆発してKyotoTycoonサーバのCPUやメモリリソースには余裕があるのにネットワークで詰まるという問題が起こりました。 元

  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(後編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 この記事は、「FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)」の続きです。 事例1 Titan(Facebookメッセージ) HBaseがFacebookでどのようなアプリケ-ションで使われているのかを紹介しよう。 Facebookの新メッセージ機能。

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(後編)
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門