[B! c++][algorithm] tettsyunのブックマーク

話題のwat-arrayを使ってBurrows-Wheeler変換(BWT)してみた - EchizenBlog-Zwei

先日PFIの岡野原氏によってwat-arrayというライブラリが公開された。 wat-array : wavelet木を利用した高速配列処理ライブラリ : Preferred Research Blog このライブラリは内部でウェーブレット木(wavelet tree)という簡潔データ構造(succinct data structure)を使っている。このため文字列に対するrank()やselect()などの操作が効率的にできるようになっている。・・・といっても馴染みのない人にとっては何が嬉しいのかピンと来ないかもしれない。そこでBurrows-Wheeler変換(BWT, Burrows-Wheeler Transf orm)を例にとってwat-arrayの使いみちを説明してみる。 Burrows-Wheeler変換というのはテキストを同じ文字が並びやすいように変換したもので、通常ランレ

tettsyun 2011/01/03

リンク

wat-array : wavelet木を利用した高速配列処理ライブラリ - Preferred Networks Research & Development

こんにちは岡野原です。もう年末になりましたが、私の今年はこれからです。 wat-arrayというC++ライブラリを公開しました。 google code:wat-array wat-arrayはフリーソフトウェアであり、修正BSDライセンスに基づいて利用できます． wat-arrayはwavelet木と呼ばれるデータ構造を利用することにより、配列上の様々な処理を効率的に行うことができるC++ライブラリです。例えば、 – 任意の連続した範囲内にある最大値 /最小値 / k番目に大きい値, またそれらの出現位置、頻度 – 任意の連続した範囲内にある指定した文字cの出現回数、c未満/より大きい文字の出現回数 – 任意の文字のi番目の出現位置といったものを求めることが全て範囲長、入力長に対して定数時間で行うことができます。例えば長さ10億、値の範囲が0から1000万であるような配列A中のA[

tettsyun 2010/12/18

リンク

開発メモ: ローカルMapReduceの性能

Kyoto CabinetにMapReduceを実装したという話は前回書いたが、そのLuaバインディングでもMapReduceをサポートした。また、Kyoto Tycoonとそのスクリプト言語拡張でもMapReduceをサポートした。今回はその性能について解説する。ローカルMapReduceのツボ世に言うMapReduceは分散処理のフレームワークだけれども、KC/KTの「ローカルMapReduce」は分散処理を行わない。分散処理をしなかったらデータ処理能力が上がらないじゃないかと思うかもしれないけれども、そうとも限らないのだ。前回も書いたけども、MapReduceフレームワーク部分をうまく実装すると、時間効率と空間効率の双方を向上させることができる。特にキャッシュとソートの部分に工夫がある。 MapReduceは、リポジトリ内（KCではデータベースファイル内）の各レコードからキーと値

tettsyun 2010/11/08

リンク

Spaghetti Source - 各種アルゴリズムの C++ による実装

ACM/ICPC（プログラミングコンテスト）系列の問題を解くことを目標にして，各種アルゴリズムを C++ で実装してみた．極めて意地が悪い類の問題には対応していないし，特定の入力に対して高速に動くということもない．計算量も最良とは限らない．これらを参考にする方への注意とお願い：これらの記述は正確とは限りません．参考文献を参照することを強く推奨します．間違っている場合は是非教えてください．これらのプログラムは間違っているかもしれません．各人で検証することを強く推奨します．バグがあれば是非教えてください．分類が怪しいので，これはこっちだろう，ということがあればコメントを下さると助かります．注意！現在書き換え中 TODO 分類を正しく行う．全体的に説明と使い方を詳しく． Verify していないものを Verify．ボロノイ図（いつになることやら……）基本テンプレートグラフ

tettsyun 2010/11/07

リンク

開発メモ: トップNソートの検討

上位N件をソートした状態で取り出すという、いわゆる「トップNソート」の効率的な実装について検討してみた。背景データベースに対して、ある順序でソートした時の最初の何件かが欲しいというクエリを投げることはよくあるだろう。SNSで言えば、誰かのコンテンツの最新10件を表示するとかいう場合だ。SQLだと　"ORDER BY xxx LIMIT yyy" とかいう感じ。同じような操作は全文検索システムのスコアリングでも定番である。俺もよく自分で実装するわけだが、その度に適当な試行錯誤をして時間がもったいないので、今回は入念に調べて決定版を出そうじゃないか。全体をソートして上位を取り出せば目的は満たせるのだが、それだと無駄な計算が多い。100万件の中から上位10件だけ欲しい場合に、残りの99万9990件まで律儀にソートする必要はない。ということで、上位N件をソートして取り出すという「トップNソー

tettsyun 2010/10/31

リンク

GitHub - kpeeters/tree.hh: An STL-like C++ header-only tree library

tree.hh: an STL-like C++ tree class by Kasper Peeters <kasper.peeters@phi-sci.com> The tree.hh library for C++ provides an STL-like container class for n-ary trees, templated over the data stored at the nodes. Various types of iterators are provided (post-order, pre-order, and others). Where possible the access methods are compatible with the STL or alternative algorithms are available. The librar

tettsyun 2010/10/30

リンク

taiju - Project Hosting on Google Code

Code Archive Skip to content Google About Google Privacy Terms

tettsyun 2010/10/12

リンク

Policy-Based Data Structures

Ami Tavory and Vladimir Dreizin, IBM Haifa Research Laboratories, and Benjamin Kosnik, Red Hat pbassoc@gmail.com This is a library of policy-based elementary data structures: associative containers and priority queues. It is designed for high-performance, flexibility, semantic safety, and conformance to the corresponding containers in std and std::tr1 (except for some points where it differs by de

tettsyun 2010/09/16

リンク

GitHub - sile/mphf: An implementatin of Minimal Perfect Hash Function.

tettsyun 2010/09/16

リンク

初心者への GNU perf のススメ

Last modified: Mon Oct 29 15:01:59 JST 2018 初心者への GNU perf のススメ Lynx Optimized Pages! 50727 accesses since 2001/07/27. 6 accesses per day. [ TOP ] 目次: 初めての gperf (1) …簡単なプログラムを作ってみる初めての gperf (2) 初めての gperf (3) …文字の重複問題を解決する gperf 実用編(1) …構造体にアクセスする gperf 実用編(2) …構造体の初期化 gperf が出力したソースコードの権利について終わりに初めての gperf (1) 一部から完全ハッシュ関数を作るツール gperf の使い方を知りたい、というリクエストがあったので、軽く説明してみようと思います。 (深く突っ込めないという話も。

tettsyun 2010/09/15

リンク

研究紹介 - SketchSort（スケッチソート）法 - Yasuo Tabeiの日記

SketchSort(スケッチソート)法の論文が ACML2010にアクセプトされました。今年も採択率30%の難関でした。 http://sugiyama-www.cs.titech.ac.jp/ACML2010/ Yasuo Tabei, Takeaki Uno, Masashi Sugiyama, Koji Tsuda: Single Versus Multiple Sorting in All Pairs Similarity Search, The 2nd Asian Conference on Machine Learning (ACML2010), Tokyo, Japan, 2010. Link to the paper SketchSort法は、データー点の集合が与えられたら、集合中の２点間の距離がある閾値以内のペアー(近傍ペアー)を全て求める問題(全点間類似度検索)を高速

tettsyun 2010/09/12

リンク

行列分解ライブラリredsvdを公開しました - DO++

大規模疎行列向けの行列分解ライブラリredsvdを公開しました． redsvd 大規模疎行列向けの特異値分解や主成分分析，固有値分解を行うライブラリredsvdを公開しました．修正BSDライセンスで公開しており，コマンドラインから使える他，C++ライブラリが用意されています．例えば，行と列数がそれぞれ10万，非零の要素が1000万からなる疎行列に対する上位20位までの特異値分解を約2秒で処理します．特異値分解とか，使っている技術の詳細とか応用事例を以下に簡単に紹介しましたので，興味のある方は参考にしてください．特異値分解とはまず行列を適当に復習します．行列Xの転置をX^tと表すことにします．またIを単位行列とし，Oを全ての成分が0である零行列とします．また，行列XX^t=IであるようなXを直交行列と呼びます．Xが直交行列の時，Xvはベクトルvを長さを変えずに回転させます．ここでは

tettsyun 2010/08/31

リンク

Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました．類似文字列検索とは，文字列集合（データベース）の中から，クエリ文字列と似ているものを見つけ出す処理です．コンピュータは，正確に一致する文字列を探すのは得意ですが，表記揺れに出くわすと，途端に対応できなくなります．例えば，「スパゲティ」に対して，レストラン情報などを返すサービスにおいて，「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると，通常のデータベースでは情報を提示することが出来ません．類似文字列検索を用いると，表記揺れが検索クエリに与えられても，「スパゲティ」という既知語を代替クエリとして提案したり，「スパゲティ」の情報をダイレクトに引き出すことができるようになります．似てる語を探す技術って，文字列処理の基本中の基本で，自然言語処理では当たり前のように使われていてもおかしくな

tettsyun 2010/05/24

リンク

SACHICA(類似文字列列挙アルゴリズム) - Yasuo Tabeiの日記

SACHICA(類似文字列列挙アルゴリズム)のC++による実装を公開しました。 http://sites.google.com/site/yasuotabei/sachica sachicaは、同じ長さの文字列集合を入力として、ハミング距離がある閾値以下のすべてのペアーを超高速に出力します。　アルゴリズムは、マルチソーティングという手法に基づきます。詳しくは、ハミング距離がd以内で長さがmの文字列集合があったとします。初めに、各文字列をk (> d)の部分文字列のブロックに分割します。今、ハミング距離がd以内の文字列のペアーを求めたいので、もし、ハミング距離がd以内の文字列のペアーが存在すれば、鳩の巣原理により、それらにはk - d個の完全一致するブロックが存在します。この原理に基づき、sachicaはcombination(k, k-d)のすべての組み合わせのブロックをラディックスソ

tettsyun 2010/05/17

リンク

Google Sites: Sign-in

Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

tettsyun 2010/05/17

リンク

Private Site

Build a website. Sell your stuff. Write a blog. And so much more.

tettsyun 2010/05/16

bitcount

リンク

Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転改

Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。変換アルゴリズムはどんな感じか？ twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基本的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

tettsyun 2010/05/15

リンク

fujimap: 簡潔な連想配列 - DO++

博論終わったので仕事の合間にfujimapというライブラリを作ってみました。 fujimap project fujimapは作業領域が非常に小さい連想配列で、文字列からなるKeyを利用して、整数値もしくは文字列からなるValueを登録・参照することができるライブラリです。今巷では大規模なKey Value Stroe (KVS)が流行っていますがFujimapは一台のマシンのメモリ上で動作することを想定して作成されています．Fujimapの特徴は必要な作業領域量が非常に小さいことです．キー自体を明示的に保存しないため、作業領域は値を格納するのに必要なサイズと、許容するfalse positive（後述）にのみ依存します。例えば、google N-gramのunigramの約1300万キーワードとそれらの頻度の対数を記録する場合、false positiveを気にしないなら、一キーワー

tettsyun 2010/02/23

false positive を許して情報理論的限界を破ることで作業領域を改善

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

tettsyun 2010/02/21

bloom filter

リンク

[IR] Google WSDM'09講演で述べられている符号化方式を実装してみた - tsubosakaの日記

MG勉強会の後にid:sleepy_yoshiさんに教えてもらったWSDM 2009における講演"Challenges in Building Large-Scale Information Retrieval Systems"で述べられている符号化方式のGroup Varint Encodingを実装してみた。資料講演スライドスライドの日本語による解説記事整数の符号化方式転置インデックスなどで文章番号のリストを前の値との差分で表すなどの方法を用いると出現する、ほとんどの値は小さな値となるためこれを4バイト使って表現するのは記憶容量の無駄である。このためVarint Encoding、ガンマ符号、デルタ符号、Rice Coding、Simple 9、pForDeltaなど様々な符号化方式が提案されている。このうちVarint Encodingは実装が手軽なことからよく用いられて

tettsyun 2010/02/05

符号化

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

c++とalgorithmに関するtettsyunのブックマーク (32)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス