Introduction This page describes some new pseudorandom number generators (PRNGs) we (David Blackman and I) have been working on recently, and a shootout comparing them with other generators. Details about the generators can be found in our paper. Information about my previous xorshift-based generators can be found here, but they have been entirely superseded by the new ones, which are faster and b
Do you have a software project in which you need a fast and space-efficient approximate set data structure, like a Bloom filter ? Then probably what you want is actually a cuckoo filter , a plug-in replacement for Bloom filters that is faster, more space-efficient, and more versatile (because it allows elements to be deleted as well as inserted). Michael Mitzenmacher has described cuckoo filters i
2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介 以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる?HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日本語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure
Kohei Ozaki (a.k.a. @smly) is a Software Engineer at Ubie. My specialties are around data and machine learning. I love to discover knowledge and hidden values in data.保険/金融/広告ほか様々な事業でデータ分析や研究開発などの業務を 10 年以上経験してきました。 現在はUbie株式会社でソフトウェアエンジニアをしています。またTURING株式会社でフェローをしています。 I am a Grandmaster of Kaggle competitions (an honor for top competitors with outstanding data science skills) with 19 gold medals
これは@sakanazensen君が主催する『Computer Vision Advent Calendar 2013』の12/8の記事です。今年はあまり活発でないようなので、小ネタですが参戦しました。 はじめに 昨今のコンピュータビジョン・パターン認識分野で特徴ベクトルのバイナリベースの記述法が流行っています。その利点の一つとして、特徴ベクトル間の距離としてコンピュータにとって計算が容易な「ハミング距離」が使える、というものがあります。これはXOR演算と PopCount演算(いくつのビットが1かをカウントする演算)で構成されており、特に近年のCPUにはまず搭載されているベクトル計算命令セットの一つ「SSE4.2」の専用命令「POPCNT」が高速演算の根拠としてよく引き合いに出されます。二つともかなりプリミティブな命令ですから確かに高速に計算できそうな感じはします。しかしながら、例えばL
1. STORM COMPARISON – INTRODUCTION - CONCEPTS PRESENTATION BY KASPER MADSEN MARCH - 2012 2. HADOOP VS STORM Batch processing Real-time processing Jobs runs to completion Topologies run forever JobTracker is SPOF* No single point of failure Stateful nodes Stateless nodes Scalable Scalable Guarantees no data loss Guarantees no data loss Open source Open source * Hadoop 0.21 added some checkpointing
こんにちは。 #stormjp のタグでStormの雑多な情報まとめその7です。 段々、終わりが見えてきたような感はありますw ○81.Stormクラスタ自体のアップデートは起動しっぱなしでは無理。 安全確実を期すなら下記のフロー。 1.Topology全部落とす 2.Storm-Nimbus、UI、Supervisorを落とす 3.ZK上とローカルのファイルを全部削除 4.Storm-Nimbus、UI、Supervisorを再起動 尚、Stormにとっては動作しながらのクラスタ自体のアップデートへ対応する優先度は低い。 ○82.storm.yamlのworker.childoptsでWorkerプロセス起動時のJVM引数を指定できるが、 その際「%ID%」と指定すればWorkerプロセスのIDに置換されて実行される。 83.LinearDRPCですとSpout/Boltの生成タイミング
Introduction Apache HBase is the Hadoop open-source, distributed, versioned storage manager well suited for random, realtime read/write access. Wait wait? random, realtime read/write access? How is that possible? Is not Hadoop just a sequential read/write, batch processing system? Yes, we’re talking about the same thing, and in the next few paragraphs, I’m going to explain to you how HBase achiev
XOR連結リスト(英: XOR linked list)は、プログラミングにおけるデータ構造の一種。ビット毎の排他的論理和 (XOR) の特徴を生かして、双方向連結リストに必要なメモリ量を削減する。なお、以下ではXOR演算を ⊕ と記述する。 通常の双方向連結リストは、リスト上の前後のノードのアドレスを各ノードに格納する。従って、アドレス格納フィールドを2つ必要とする。 ... A B C D E ... –> next –> next –> next –> <– prev <– prev <– prev <– XOR連結リストでは、同じ情報を1つのアドレスフィールドに圧縮する。このとき、"prev" と "next" のアドレスについてビット毎のXOR演算を行った値をそのフィールドに格納する。 ... A B C D E ... <–> A⊕C <-> B⊕D <-> C⊕E <-> こ
ダブル配列におけるキャッシュの効率化 Cache-Efficienct Double-Array 矢田 晋 森田 和宏 泓田 正雄 平石亘 青江 順一 Susumu Yata Kazuhiro Morita Masao Fuketa Wataru Hiraishi Jun-ichi Aoe 徳島大学工学部 Faculty of Engineering, Tokushima University 1. はじめに 辞書からキーを検索するという処理は,コンパイラ, 索引検索,フィルタリング,形態素解析などの様々な分 野で必要となるため,計算機処理における基礎技術の 一つとされている [1].特に,文字単位で照合をおこな うトライは,理論的な検索時間がキーの長さで抑えら れる,入力に前方一致するキーを容易に検出できるな どの理由から,自然言語辞書を中心として幅広く利用 されている.このトライを実現す
年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く