Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more
![Large-scale graph computing at Google](https://cdn-ak-scissors.b.st-hatena.com/image/square/dbd55ab0448c50716670c90c91b4abc554bb62fd/height=288;version=1;width=512/https%3A%2F%2Fresearch.google%2Fstatic%2Fimages%2Fblog%2Fgoogle-ai-meta.png)
Greenplum Databaseはオープンソーステクノロジを基盤としたDWH用データベースエンジンです。PostgreSQLにシェアード・ナッシング・アーキテクチャを拡張することで、複数のPostgreSQLデータベースインスタンス間の通信を可能にし、システムを1つの論理データベースとして動作させます。そのデータベースに対する並行クエリ実行、並列データロードで、大規模データウェアハウスを構築できる様々な機能をサポートしています。 またGreenplum Databaseは巨大ポータルサイトで分散処理アーキテクチャとして証明されているMap Reduceを実装し、クエリだけではなくプログラムの並列処理も可能にすることで開発リードタイムを短縮します。 これによりキーワード分析やコンテンツ索引化などさまざまなアプリケーションで膨大な非構造化データの分析も投資を抑えて高速化させることができま
Emacsではdmacro.elでキー操作の繰返し 2006-01-17-3 [Tips] Dynamic Macro - キー操作の繰返し検出 & 実行 <http://pitecan.com/DynamicMacro/> <http://pitecan.com/papers/JSSSTDmacro/dmacro.el> Emacs に必ず入れてるのが、増井俊之さん作 dmacro.el。 同じキー操作を2回やったら、 あとはキー(私はC-tに割り当ててあります)を押すたびに それを繰り返してくれます。 私のような生ぬるいEmacsユーザにとっては、 キーボードマクロよりも操作が極端に簡単で嬉しいです。 使わない日はありません。 ref. Emacs ユーザーの方に質問です。これは便利! と思える elisp プログラムを教えてください。... <http://www.hatena.ne
圧縮接尾辞配列の第一人者、定兼先生が開発、公開してくださっているcsalibを試してみたのでメモ。 http://researchmap.jp/sada/csalib/ まずはgooglecodeからcsalibとdbwtを入手。解凍しmakeする。 $$ mkdir csalib/ $$ cd csalib/ $$ wget http://csalib.googlecode.com/file/csalib100810.zip $$ unzip csalib100810.zip $$ make $$ cd .. $$ mkdir dbwt/ $$ cd dbwt/ $$ wget http://csalib.googlecode.com/file/dbwt100730.zip $$ make $$ cd ..このライブラリはdbwtでテキストをBurrows-Wheeler変換し、その後m
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
先日、Google の社員に対してよく使っている Chrome エクステンションについてアンケートをおこないました。その中からさらに厳選したトップ10を、今回はランキング形式でご紹介します。ぜひ、試してみてください。 たくさんあるのはいいけれど、その中から目当てのものを探すのは大変だったりします。なので、こうした企画はありがたいですね。 紹介されているのは、以下の機能拡張です。 ・Doc PDF/PowerPoint Viewer ・RSS Subscription Extension ・Chromed Bird ・Google Quick Scroll ・はてなブックマーク Google Chrome 拡張 ・goo.gl URL Shortener ・AutoPatchWork ・Webpage Screenshot ・Evernote ウェブクリッパー ・Chrome 用 TooMa
¶ Tornado is a Python web framework and asynchronous networking library, originally developed at FriendFeed. By using non-blocking network I/O, Tornado can scale to tens of thousands of open connections, making it ideal for long polling, WebSockets, and other applications that require a long-lived connection to each user. Quick links¶ Current version: 6.4 (download from PyPI, release notes) Source
Google Percolator – global search jolt sans MapReduce comedown Google Caffeine — the revamped search infrastructure recently rolled out across Google's worldwide network of data centers — is based on a distributed data-processing system known as Percolator. Designed by Google and, until now, jealously guarded by Google, Percolator is a platform for "incremental processing" — a means of continually
(現在執筆中の解説記事の草稿です。乞ご意見、コメント) 1. 私たちのLinked Data? Linked Dataはデータの共有の新しい方法として欧米で認知され、実践が進んでいる。日本においてはどうだろうか。セマンティックWeb自体の未普及もあって、まだ認知すらされているとはいえない状況である。日本においてもLinked Dataは可能のだろうか。いやそれ以前にそもそもLinked Dataは日本に必要なのだろうか。 本稿では日本におけるLinked Data化活動を概観する。 まず、前提としてなぜLinked Dataが必要なのかから考察をはじめる。情報共有の問題である。これはLinked Dataだけに関わる問題ではないのだが、Linked Dataというのは情報共有の新しい世界である以上、避けて通れない。その上で、日本あるいは日本語固有の課題を挙げ、どのような解決法があるか考える
3.日本におけるLinked Data化の課題 LOD活動はヨーロッパおよびアメリカにおいて盛んであり、単に情報研究者の活動の域を超えて、個々の分野の専門家や政府などの組織を巻き込む活動になっている。 残念ながら日本ではさほど活動的であるとはいえない。それはなぜなのか、その解決はあるのかというのは本節で述べる。ここで「日本」と呼んでいるのは、日本国内の活動and/or日本語での活動をさしている。もちろんLODは本質的にグローバルであり、こんな区分は本質的でないが、現状を把握するためにはあえて分けて考えてみる。 3.1.情報公開・共有の文化 日本の社会、ことに組織においては前節で説明したような情報公開・共有の重要性は十分に理解されているとはいえない。情報循環は情報の公共性を維持することであり、情報公開・共有はその情報循環を実現する要素として重要であるということが理解されていなければ、情報公開
4.現在の日本/日本語のLinked Data ここでは日本において大規模にLODあるいはRDFを公開している例をいくつか取り上げる。 4.1 理化学研究所のDB 理化学研究所が運営している公開DBサービスであるサイネス(SciNetS.org)においてはすべてのデータがOWL/RDFとして利用可能である。バイオ系を中心に現在100個以上のデータベースが登録されている。全インスタンス数は約900万件、データサイズは約11TBである。また、サイネスを使って国際的なデータ連携のプロジェクトが行われている(例:マウス表現型データの国際共有化/InterPhenome )。 サイネスではバイオ研究者が求める検索を実現するために通常のSPARQLエンジンではなく、統計処理機能を拡張した独自開発の検索エンジン(GRASE)を採用している。また、RDFのままではウェブブラウザやJavaScriptが直接
Home about About IBM Creators, partners and clients putting technology to work in the real world Get the latest IBM news Explore financial information Our clients’ systems support modern society. In making them faster, more productive, and more secure, we don’t just make business work better. We make the world work better. Arvind Krishna Chairman and CEO IBM See IBM leadership
Microsoft社が「Understanding Microsoft Virtualization Solutions、From the Desktop to the Datacenter (Second Edition) 」(Microsoft社の仮想化ソリューションをデスクトップからデータセンターまで理解する - 第2版)という無償電子ブックを公開した。 Mitch Tulloch著のこの電子ブックは2009年にリリースされたものの改訂版となっている。今回の新版はWindows Server 2008 R2対応となり、全466ページの6章構成となった。 「…本書はWindows Server 2008 R2のHyper-VやRemote Desktop Services、Microsoft Virtual Desktop Infrastructure、Microsoft Applic
モバゲーで知られるDeNAは、バックエンドデータベースにNoSQLを使っていません。なぜか? それはMySQL/InnoDB 5.1の環境で秒間75万クエリという、多くのNoSQLでも実現できないような高性能を実現しているから。DeNAの松信嘉範(まつのぶよしのり)氏は、自身のブログにこんな内容のエントリ「Using MySQL as a NoSQL - A story for exceeding 750,000 qps on a commodity server」(英語)をボストしています。 Yoshinori Matsunobu's blog: Using MySQL as a NoSQL - A story for exceeding 750,000 qps on a commodity server 松信氏が指摘するように、大規模なネットサービスを提供している企業の多くは分散環境で
Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン
About CRISP-DM The CRISP-DM project developed an industry- and tool-neutral data mining process model. Starting from the embryonic knowledge discovery processes used in early data mining projects and responding directly to user requirements, this project defined and validated a data mining process that is applicable in diverse industry sectors. This methodology makes large data mining projects fa
Business apps shouldn't suck. With Vaadin you can craft stunning full-stack web apps at lightning speed. Scaling from hobby projects to enterprise.
BIシステムは欲しい、でも構築が面倒――増加し続けるデータ量にハードウェアの進化が追いつたいまこそ、BIをビジネスに有効活用すべきとき。分析アプライアンスの「IBM Smart Analytics System」なら、いまは気付かないニーズを「分析」のチカラで手に入れられる。 ビジネス・インテリジェンス(BI)というと、「大企業の、ごく一部のユーザーが利用するもの」と思い込んでいるエンジニアも多いだろう。基幹系のシステムから一部の重要データを取り出し、多次元データとしてキューブを回す――そのためには多くのリソースが必要であり、そのコストを許容できた企業は少なかったかもしれない。 ただし、それは過去の話だ。BIに関するコスト、つまりCPUリソースや管理コストの考え方は激変している。これまでのBIが持つ印象をがらりと変えるアプライアンスソリューション、日本アイ・ビー・エムの「IBM Smart
Jaql(a query language desired for JSON:JSON用に位置づけられたクエリ言語)は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日本語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。 もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。本原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト 本記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON(
Google Researchにて「Large-scale Incremental Processing Using Distributed Transactions and Notifications」という論文が公開されました。GoogleはこれまでMapReduceにて大規模な処理を扱っていましたが、常にデータ全体に対して行わなければならず、小さな更新をたくさん行うような処理には向いていません。これに対し、Web検索エンジンのようにクローラがWebページを取得するたびに逐次的に処理を行い、短い間隔で検索インデックスの更新を可能にしたシステム「Percolator」を構築しました。論文ではPercolatorの概要やアーキテクチャ、導入による効果検証について書かれています。 Percolatorの特徴は、ペタバイト級のリポジトリに対してランダムアクセスが可能な点です。また、利用者側がリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く