You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
最近は、簡潔データ構造を中心に調べたりしていたけど、文字列マッチングを考えた場合、別のアプローチもあります。そう、grepのような逐次文字列検索ですね。以下の解説がおもしろいです。 http://www.i.kyushu-u.ac.jp/~takeda/papers/IPSJMagazineCPM.pdf CSAとかFM-Indexに隠れてしまっていますが、実はかなり強力です。特に、クエリが固定で、テキストが頻繁に変更されるようなケースでは有効です。中でも使いやすのは、Aho-Corasick法(AC法)ですね。複数のパターンを同時に検索することができます。KMPを拡張した方法です。 AC法については、日本語だと 情報検索アルゴリズム 作者: 北研二,津田和彦,獅々堀正幹出版社/メーカー: 共立出版発売日: 2002/01メディア: 単行本購入: 6人 クリック: 552回この商品を含むブ
最適化ソフトとテスト問題集 (Optimization Softwares and Test Problems) 最適化ソフトウェアとテスト問題集 Optimization Softwares and Test Problems English version is here. このページに加えた方が良い場所をご存知の方は、御一報下さい。 特に日本国内の場所(商用もOK)についての情報をお待ちしております。 初めていらっしゃった方へ ここには、最適化関連のソフト(コード)に関するリンクを集めました。 初めての方は以下の検索用のサイトを用いるのも一つの手です。 Guide to Available Mathematical Software (GAMS) NETLIB Index search OPT-NET Index search あとは、各サイトのインデックスを御利用下
This index provides access to an online publication library of several of my more recent papers -- as well as a few oldies but goodies. In a few cases, I also include the overhead transparencies for talks. Most of the papers and talks deal with the design and analysis of algorithms and data structures. They are grouped, roughly in chronological order, according to the specific topic areas listed b
Graphillion は膨大な数のグラフに対して検索や最適化、列挙を行うための Python モジュールです。このビデオは Graphillion の概要を知るためのチュートリアルです。「フカシギの数え方」 http://youtu.be/Q4gTV4r0zRs の続編として作成されました。 Graphillion is a Python software package on search, optimization, and enumeration for a very large set of graphs. This video is a quick tutorial to learn what Graphillion is. The story follows our previous episode, "Let's count!" http://youtu.be/Q4gT
A Random Walk Through Geek-Space Brain dumps and other ramblings from Sebastian Sylvan Robin Hood Hashing should be your default Hash Table implementation 8/May 2013 There’s a neat variation on open-addressing based hash tables called Robin Hood hashing. This technique isn’t very well-known, but it makes a huge practical difference because it both improves performance and space utilization compare
CSAやFM-Indexの構築時にボトルネックとなる省メモリなBWTの構築方法について調べた。実際、SAから構築する方法だとInduced Sortingを使うわけだが、最終的なCSAやFM-Indexの結果に比べてメモリを使いすぎる。これはちょっと嫌がられる。今はメモリが安いとはいえ、個人で買えるサイズは数十GBだろうし、かなり投資できる会社であっても数百GBだろう。価格とのトレードオフを考えるとこのあたりが妥当だと思う。 ってことで、ここ最近の悩みは、BWTを構築する時の中間メモリのサイズだった。というのも、仮に中間メモリが元のテキストの5倍必要であれば、メモリ的には、10GB使えても、テキストとしては、2GBしか扱えないことになる。これはかなり無駄だと思う。2GBずつ作って、5個のCSAやFM-Indexにして、メモリに上げておくという方法も考えられるが、この場合、検索性能は、1/5
LinkedIn operates the world’s largest professional network with more than 645 million members in over 200 countries and territories. This team builds distributed systems that collect, manage and analyze this digital representation of the world's economy, while our AI experts, data scientists and researchers conduct applied research that fuel LinkedIn’s data-driven products and provide insights tha
Sketch of the Day: Probabilistic Counting with Stochastic Averaging (PCSA) Before there was LogLog, SuperLogLog or HyperLogLog there was Probabilistic Counting with Stochastic Averaging (PCSA) from the seminal work “Probabilistic Counting Algorithms for Data Base Applications” (also known as the “FM Sketches” due to its two authors, Flajolet and Martin). The basis of PCSA matches that of the other
1. 2013 年 3 月 20 日 @ NTT DATA 駒場研修センター 第 12 回日本情報オリンピオック春季トレーニング合宿 様々な全域木問題 前原 貴憲 (@tmaehara) 国立情報学研究所 2. 自己紹介 • 前原 貴憲(まえはら たかのり) • Twitter: @tmaehara • Web: http://www.prefield.com (Spaghetti Source) • 略歴: 2004 沼津工業高等専門学校卒 2007 東京大学 工学部 計数工学科卒 2012 東京大学大学院 情報理工学系研究科卒 現在 国立情報学研究所 • 専門分野:連続・離散最適化,数値計算 2/ 71
This should automatically forward you to http://depts.washington.edu/madlab/proj/dollar/index.html
Algorithms for calculating variance play a major role in computational statistics. A key difficulty in the design of good algorithms for this problem is that formulas for the variance may involve sums of squares, which can lead to numerical instability as well as to arithmetic overflow when dealing with large values. A formula for calculating the variance of an entire population of size N is: Usin
In your /var/log/ you will most probably have logs that have grown too large and rolled over. Per default your system logger gzips and stores a few of the older ones and finally when they get too numerous, it just deletes them. Same thing for log handlers in most languages, for example Python’s RotatingFileHandler. Backups are usually also handled the same way, when you don’t want to store every b
Department of Computer Science University of California, Irvine Abstract In this paper we study how to efficiently perform set-similarity joins in parallel using the popular MapReduce framework. We propose a 3-stage approach for end-to-end set-similarity joins. We take as input a set of records and output a set of joined records based on a set-similarity condition. We efficiently partition the dat
Welcome to the VFML (Very Fast Machine Learning) toolkit for mining high-speed data streams and very large data sets. VFML is made up of three main components. The first is a collection of tools and APIs that help a user develop new learning algorithms. The second component is a collection of implementations of important learning algorithms. The third component is a collection of scalable learning
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く