「SuffixArray」を検索 - はてなブックマーク

1 - 40 件 / 126件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SuffixArrayの検索結果1 - 40 件 / 126件

「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
- 243 users
- echizen-tm.hatenadiary.org
- テクノロジー
- 2013/01/08
「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。キーワードは3つオビにも書いてあるけれど、本書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基本的な道具として本書の色々なところで出て
B木 - naoyaのはてなダイアリー
- 240 users
- naoya-2.hatenadiary.org
- 暮らし
- 2009/04/12
昨年から続いているアルゴリズムイントロダクション輪講も、早いもので次は18章です。18章のテーマはB木(B Tree, Bツリー) です。B木はマルチウェイ平衡木(多分木による平衡木)で、データベースやファイルシステムなどでも良く使われる重要なデータ構造です。B木は一つの木の頂点にぶら下がる枝の本数の下限と上限を設けた上、常に平衡木であることを制約としたデータ構造になります。輪講の予習がてら、B木を Python で実装してみました。ソースコードを最後に掲載します。以下は B木に関する考察です。 B木がなぜ重要なのか B木が重要なのは、B木(の変種であるB+木*1など)が二次記憶装置上で効率良く操作できるように設計されたデータ構造だからです。データベースを利用するウェブアプリケーションなど、二次記憶(ハードディスク)上の大量のデータを扱うソフトウェアを運用した経験がある方なら、いかにディ
- algorithm
- アルゴリズム
- programming
- python
- ssd
- b-tree
- database
- performance
- db
- naoya
OOP in Python: How to Create a Class, Inherit Properties and Methods
- 170 users
- diveintopython.org
- 暮らし
- 2005/11/04
Classes in Python allow developers to create reusable components for their code, making it easier to maintain and modify. In this article, we will explore the basics of classes in Python and how to use them effectively in your projects. Basic Principles of Object-Oriented Programming Object-oriented programming (OOP) is a programming paradigm that uses objects and their interactions to design appl
- ruby
- test
- coverage
- rcov
- ruby1.9
- vim
- programming
- emacs
- ri
- development
Burrows Wheeler Transform と Suffix Array - naoyaのはてなダイアリー
- 153 users
- naoya-2.hatenadiary.org
- 暮らし
- 2008/10/16
,. -‐'''''""¨¨¨ヽ (.＿＿_,,,... -ｧァﾌ|　　　　　　　　　　あ…ありのまま今日　起こった事を話すぜ！ |i i|　　 }!　}} /／| |l､{　　j}　/,,ｨ//｜　　　　　　　『BWT について調べていたら Suffix Array のライブラリができていた』 i|:!ヾ､_ﾉ／ u {:}//ﾍ |ﾘ u' }　 ,ﾉ　_,!V,ﾊ | ／´fト､_{ﾙ{,ィ'ｅﾗ　, ﾀ人　　　　　　　　な…　何を言ってるのか　わからねーと思うが /' 　ヾ|宀| {´,)⌒`/ |<ヽﾄiゝ　　　　　　　　おれも何をされたのかわからなかった… ,ﾞ　／ )ヽ iLﾚ　u' |　| ヾｌﾄﾊ〉 |／_／　ﾊ !ニ⊇　'／:} 　V:::::ヽ　　　　　　　　頭がどうにかなりそうだった… /／二二二7'T'' ／u'　__ /:::::::/｀ヽ /'
- algorithm
- perl
- bwt
- アルゴリズム
- suffixarray
- suffix array
- programming
- nlp
- naoya
- sort
作って理解するAjax (3)：IT Pro
- 133 users
- xtech.nikkei.com
- 暮らし
- 2005/12/16
図1 インクリメンタル検索を実現<br>作成したサーバーCGIプログラムを使ってインクリメンタル検索する様子。計画通りに稼働しているのが分かります。前回は，インクリメンタル検索を実現するAjaxアプリケーションのクライアント・サイドの実装を紹介しました。今回は，サーバーとして稼働するCGIプログラムを作成します。このCGIプログラムは，クライアントから送られてきたクエリーに基づいてテキストを検索し，その結果を返送します。Ajaxアプリケーションは通常のWebアプリケーションに比べて，サーバー・アクセスが増加しがちです。このためサーバーをいかに効率よく実装できるかが，サービスを快適に提供できるかどうかを左右します。サーバー負荷を下げる手法についても考えてみましょう。テキスト検索にsaryを使用みなさん，テキスト検索といえばどんな方法を思いつくでしょうか。単純なところではgrepコマンド
- ajax
- javascript
- sary
- search
- 検索
- programming
- SuffixArray
- プログラミング
- web2.0
- cgi
suffix array
- 129 users
- homepage3.nifty.com
- 暮らし
- 2005/03/24
更新履歴 2004/01/07 　O(N) 構築アルゴリズム三種追加（Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報（例えば、単語の出現回数など）を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分（例えばCCAG）を調べるといった場合
転職先の募集
- 100 users
- gist.github.com/imaya
- テクノロジー
- 2013/10/29
gistfile1.md 転職先の募集これは退職エントリではなく退職届を出したので転職先を募集する求職エントリです。退職と転職先募集これといった大きな理由はないのですが細かい不満が溜まったため、今年いっぱいで退職することになりました。細かい不満といってもチームメンバーや業務内容に文句があるわけではなく、逆に素晴らしい環境を提供していただいたと感謝しています。後先考えずに退職届を提出したため、次の職場や今後に関してはまったくの未定です。特に顔が広いわけでもコミュ力があるわけでもないので、gist を使って募集してダメだったら諦めようかなとおもってこの記事を書いてます。興味があれば @y_imaya などに連絡ください。フロントエンドエンジニア？退職することにしたので、建前として、本当は働きたくはないんですが、表面上は、次の仕事を探さなくてはいけません。そこでまずは Web
- 転職
- javascript
- ライブラリ
- IT
- *Work
- node
- web
- json
- 開発
- career
perlによる大規模データの取扱い
- 97 users
- www.lr.pi.titech.ac.jp/~abekawa
- 暮らし
- 2005/03/24
本ページでは，perlでどのようにして大規模なデータを保存するかついて説明します．主にスタンドアロンで動くもの (クライアント<->サーバ型でない，いわゆる組込み型) について紹介したいと思います． Menu Berkeley DB BerkeleyDB DB_File SDBM SDBM_File GDBM GDBM_File CDB CDB_File QDBM Depot Curia Villa TDB TDB_File SQLight DBD::SQLite SUFFIX ARRAY SUFARY SARY 複雑なデータ構造 Data::Dumper Storable MLDBM いろいろな比較ファイルサイズ Benchmark Link サンプルデータについて Berkeley DB Berkeley DBは，組み込み向けデータベースです．通常データベースというとOracl
- perl
- db
- database
- programming
- sary
- DBM
- suffixarray
- storage
- algorithm
Algorithm - Suffix Array を JavaScript で再発明してみた : 404 Blog Not Found
- 85 users
- dankogai.livedoor.blog
- テクノロジー
- 2012/01/16
2012年01月16日16:30 カテゴリアルゴリズム百選Lightweight Languages Algorithm - Suffix Array を JavaScript で再発明してみた WEB+DB 総集編 [Vol. 1〜60] もう10年以上前に某社のCTOだったころ、Suffix array(接尾辞配列)の解説を毎週の技術者ミーティングでしたら一名を除いて「ハァ?」状態だったことを思い出しつつ。 Suffix Arrayは何が画期的だったのか? 以下は、計算機科学者でなくても直感的に理解できると思います。ソートされていない通常のデータの中にあるサブデータ(キー)を検索しようとすると、データの大きさに比例した時間(O(n))がかかる。ソート済みのデータであれば、二分探索でデータの大きさの対数時間(O(logn))でキーを検索できる。さらにキーからIDを定数時間で作成でき
横着プログラミング第9回: sary: Suffix Array のライブラリとツール
- 84 users
- 0xcc.net
- 暮らし
- 2005/06/17
最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル
- suffix array
- algorithm
- sary
- suffixarray
- search
- アルゴリズム
- programming
- データ構造
- library
- c
BlockSorting
- 78 users
- homepage3.nifty.com
- 暮らし
- 2005/05/09
BlockSortingは、今までのデータ圧縮で有名な方法であるLZ法とは全く違う、ユニークな操作を用いてデータを圧縮する方法であり、M.BurrowsさんとD.J.Wheelerさんが作者なので「BWTransform」ともいいます。このアルゴリズムは簡単に言ってしまえば、「データをぐるぐる回してソートして出力」というものです。簡単すぎるかもしまいませんが、本当にそうなんです。ちなみに、このBlockSorting、単体では全く圧縮しません。ただ可逆な形にデータを変換するというものです。しかし、BlockSorting後のデータは非常に圧縮されやすい状態になります。例えると、色々な形をしたスポンジ（データ）が箱にごちゃごちゃに入って山積みになっているとします。　これをそのまま上からギューっと押しつぶすのがLZ法やHuffman法なのに対し、一度、形が似たも
はてなブックマークFirefox拡張, JavaScript で IS 法による Suffix Array 構築 - naoyaのはてなダイアリー
- 77 users
- naoya-2.hatenadiary.org
- 暮らし
- 2009/04/16
昨日、はてなブックマークFirefox拡張をリリースしました。おかげさまでベータ版からダウンロード数は累積で1万ダウンロードを突破し、アクティブユーザー数も伸びています。はてなブックマークFirefox拡張で新しいインターネットを体験しよう http://b.hatena.ne.jp/guide/firefox_addon 開発者の id:secondlife が g:subtech:id:secondlife:20090415:1239804170 で技術的な側面からのちょっとした TIPS なども紹介していますので、興味のある方はご一読ください。検索では思いのほか SQLite の like 検索が高速なのに驚いた。はてブ検索では、検索ワードから URL, Title, コメントにマッチしたものを表示していて、それ専用の search_data だかかんらかの検索用カラムがある。
- algorithm
- javascript
- firefox
- hatena
- suffixarray
- bookmark
- search
- SuffixArrays
- はてな
- programming
Coursera の Algorithms on Strings 受けました - たにしきんぐダム
- 55 users
- tanishiking24.hatenablog.com
- テクノロジー
- 2017/01/05
Cousera の Algorithms on Strings を受講していて、平日にお昼ご飯食べながらビデオを見たり休日とかに課題をやったりしていたのですが先日完走しました！(講義は4週分なのですが忙しかったり難しかったりで2ヶ月くらいかかってしまった) お金を払うと課題提出システムみたいなのが使えて提出したプログラムの時間/空間計算量を教えてくれるらしいけど無料でも授業ビデオと資料にはアクセスできためちゃくちゃ良かったのでみんなも受講しましょう www.coursera.org きっかけはアルバイト先で開催されていたのに参加させてもらったのと、 ISUCON6予選で高速な文字列マッチングアルゴリズムが全く分からず悔しい思いをしたから(正規表現の更新・キャッシュをうまく頑張れば十分な点数は獲得できたみたいですが...)でした。学んで終わりじゃ多分忘れるから何とか応用とかできたら良い
昨年の論文をふりかえる - DO++
- 55 users
- hillbig.cocolog-nifty.com
- 暮らし
- 2009/01/16
新年すっかりあけてました。今年もよろしくお願いします。年末年始はドタバタして昨年を振り返られなかったのですが、せっかくなので2008年に読んだ論文で私個人のベスト５を以下に列挙してみます。 D. Sontag, et. al. "Tightening LP Relaxations for MAP using Message Passing", UAI 2008 [pdf] Graphical ModelのMAP推定問題で従来解けなかった規模の複雑さの問題を高速にしかも最大であるという保障付きで解けるようにした。書いたメンバーはこの問題に関するオールスターのような感じ。解く問題は、n個の頂点からなるグラフで、各頂点には変数x1...xnがついていて、各頂点と各枝に対し関数gi(xi)、gij(xi,xj)が与えられた時、∑i gi(xi) + ∑ij gij(xi,xj)が最大となるよう
- algorithm
- 論文
- paper
- NLP
- アルゴリズム
- research
- 研究
- programming
Burrows-Wheeler変換の線形時間アルゴリズム - DO++
- 48 users
- hillbig.cocolog-nifty.com
- 暮らし
- 2009/07/04
研究紹介です。今夏のSPIRE 2009という学会で "A Linear-Time Burrows-Wheeler Transform using Induced Sorting", D. Okanohara, K. Sadakane, SPIRE 2009 pdf(draft) というのを発表します。これは与えられた文字列に対し接尾辞配列を経ないでBurrows-Wheeler変換を直接行うというもので、アルファベットサイズによらず入力長に対して線形時間で行えます。基本的なアイディアは昨年のInduced Sortingによる接尾辞配列の線形時間構築アルゴリズム（いわゆるSAIS）を接尾辞配列を使わないでシミュレートするものです。pushとpop操作だけからなり、そのまま外部記憶上での構築とかにも対応できるようになっています。 Burrows-Wheeler変換（BWT, Block S
[を] Suffix Array の解説文書のリンク集
- 47 users
- nais.to/~yto
- 暮らし
- 2006/04/10
Suffix Array の解説文書のリンク集 2006-04-10-3 [Algorithm] Suffix Array について解説している日本語による文書のうち、 Webで閲覧できるもののリンク集。随時更新予定。 - 用語解説: Suffix Array (PDF) via http://nais.to/~yto/tools/sufary/ - Suffix Array の解説 in D論 (PDF) via http://nais.to/~yto/tools/sufary/ - 横着プログラミング第9回: sary: Suffix Array のライブラリとツール http://0xcc.net/unimag/9/ - Suffix Arrayの簡単な説明 http://sary.sourceforge.net/docs/suffix-array.html
接尾辞配列 - Wikipedia
- 45 users
- ja.wikipedia.org
- テクノロジー
- 2007/06/23
接尾辞配列（せつびじはいれつ）やサフィックス・アレイ（英: suffix array）とは、文字列の接尾辞（開始位置を異にし終端位置を元の文字列と同じくする部分文字列）の文字列中の開始位置を要素とする配列を、接尾辞に関して辞書順に並べ替えて得られる配列である。接尾辞木の配列版。主に文字列探索、全文検索などに利用される。1990年に Udi Manber と Gene Myers が発表した[1]。
TXTCache Index uniquely : ホーム
- 42 users
- txtcache.com
- 暮らし
- 2008/11/17
圧縮インデックスライブラリ「TXTCache」,圧縮Suffix ArrayなどのJava実装パッケージ,オンメモリで全文検索を行うことができる,高速な検索エンジンやユニークなデータモデルの開発が可能となる圧縮インデックス(Compressed Index)のJavaのライブラリ。接尾辞配列(Suffix Array)、圧縮接尾辞配列(Compressed Suffix Array)、LZ-Indexなどを含んだパッケージ。オープンソース。ライセンスは、GPLまたはLGPLのユーザー選択式。無償。 GPL版ダウンロード LGPL版ダウンロード Operaの場合、お手数ですが、ダウンロード後、ファイル名に.zipを付ける必要があります。
GoとSuffixArray | フューチャー技術ブログ
- 40 users
- future-architect.github.io
- テクノロジー
- 2020/08/07
フューチャー夏休みの自由研究連載の5回目です。はじめにTIG の辻です。 Go は標準ライブラリが充実しているとよく言われます。標準ライブラリだけで、HTTP サーバを作れたり、暗号化処理や、JSON や CSV といったデータ形式を扱うことができます。go list std | grep -v vendor | wc -l としてパッケージ数を見てみると、約 200 ものパッケージが存在することがわかります。本記事では、その多くの Go の標準ライブラリの中でも、個人的に面白いなと思ったライブラリを紹介したいと思います。suffixarray パッケージです。 suffixarray パッケージは Suffix Array を扱うライブラリです。suffixarray パッケージの魅力を感じるには、まず Suffix Array とは何か？を知る必要があるでしょう。 Suffix A
Organizing Go code
- 39 users
- talks.golang.org
- テクノロジー
- 2014/09/23
Organizing Go code David Crawshaw Packages 2 Go programs are made up of packages All Go source is part of a package. Every file begins with a package statement. Programs start in package main. package main import "fmt" func main() { fmt.Println("Hello, world!") } For very small programs, main is the only package you need to write. The hello world program imports package fmt. The function Println i
- golang
- Go
- development
- *あとで
- あとで読む
[を] Suffix Array の解説文書のリンク集
- 38 users
- chalow.net
- テクノロジー
- 2007/05/09
Suffix Array の解説文書のリンク集 2006-04-10-3 [Algorithm] Suffix Array について解説している日本語による文書のうち、 Webで閲覧できるもののリンク集。随時更新予定。 - 用語解説: Suffix Array (PDF) via http://ta2o.net/tools/sufary/ - Suffix Array の解説 in D論 (PDF) via http://ta2o.net/tools/sufary/ - 横着プログラミング第9回: sary: Suffix Array のライブラリとツール http://0xcc.net/unimag/9/ - Suffix Arrayの簡単な説明 http://sary.sourceforge.net/docs/suffix-array.html - Suffix Trees and
DO++ : 部分文字列の話
- 38 users
- hillbig.cocolog-nifty.com
- 暮らし
- 2009/04/25
ここしばらく、部分文字列の統計量を利用した機械学習やデータマイニングをやっている。そこの話からちょっと抜粋。長さnの文字列T[1,...,n]が与えられた時、T中に出現する部分文字列T[i...j] (1≦i≦j≦n）の数はn個の中からiとjの2箇所を選ぶのでO(n^2)個ある。例えば、n=10^6(1MB)だったら、部分文字列の数は約10^12個(1T)と非常に大きい。しかし、これらの部分文字列の出現位置は同じである場合が多い。例えばT="abracadabra"であれば、"abra"と"abr"の出現場所は1番目と8番目であり、全く同じである。では出現位置（部分文字列の左端を出現位置とする）が全く同じであるような部分文字列をまとめてグループにした場合、グループの数はいくつになるのだろうか。これは接尾辞木（wikipedia 授業の資料）を知っているなら簡単に説明できる。 Tに対
ブロックソート - Wikipedia
- 36 users
- ja.wikipedia.org
- テクノロジー
- 2007/11/27
ブロックソート、ブロックソーティング、Burrows-Wheeler変換 (Burrows-Wheeler Transform; BWT) は、1994年にマイケル・バローズ (Michael Burrows) とデビッド・ホイーラー (David Wheeler) が開発した可逆変換の方式で、データ圧縮の前処理に応用される。ブロックソート自体はデータの大きさを変えない。しかし、データを整列することでデータ中に出現するパターンを、いくつかのよく知られている手法で圧縮し易いものにできる。後処理としてMove To Front (MTF)・連長圧縮 (RLE)・エントロピー符号と組み合わせて、データを圧縮する。実装はbzip2等。長さ n のデータを巡回シフトし、得られるすべての文字列を辞書順にソートする。このようにしてできた n×n 行列の第 n 列を取り出したものが、BWT系列である
- algorithm
- bwt
- compress
- suffixarray
- アルゴリズム
- ソート
- compression
- wikipedia
CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei
- 34 users
- echizen-tm.hatenadiary.org
- テクノロジー
- 2010/09/05
しばらく前から作っていた全文検索ライブラリtsubomiを公開しておく。本ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。本ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。以下、簡単に紹介。 tsubomiはGoogleCodeでコードを管理している。詳細は下記URLを参照。 http://code.google.com/p/tsubomi/ コード管理にはsubversionを使っているので $$ svn checkou
- suffixarray
- library
- compression
- IR
- nlp
サービス終了のお知らせ
- 33 users
- thanks.yahoo.co.jp
- テクノロジー
- 2008/10/04
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
sary: a suffix array library and tools
- 32 users
- sary.sourceforge.net
- テクノロジー
- 2005/03/30
What is sary? sary is a suffix array library and tools. It provides fast full-text search facilities for text files on the order of 10 to 100 MB using a data structure called a suffix array. It can also search specific fields in a text file by assigning index points to those fields. Table of Contents What's New Characteristics Brief Introduction to Suffix Array libsary Reference Manual Using the I
- sary
- suffix array
- library
- search
- 全文検索
- tool
- programming
- c
- algorithm
Suffix Array を作る - SA-IS の実装
- 32 users
- blog.beam2d.net
- テクノロジー
- 2011/08/19
Suffix Array は今若者の間で人気のデータ構造です．マイ suffix array を実装することで，オシャレ度がアップしてモテ系になり，女子力も上がると言われています．その中でも今特に，手軽でクールな SA-IS (アルファベットサイズ固定の下で線形時間で省メモリで suffix array が作れる今最強のアルゴリズム) の実装がブームです．僕もブームに便乗して，実装してみました．ところで，SA-IS は流行っているので，日本語でもすでに様々なところで記事が書かれています (日付順)． SAIS(Suffix Array - Induced Sorting) - EchizenBlog-Zwei SA-IS: SuffixArray線形構築 - sileの日記 SA-IS - (iwi) ｛反省します - TopCoder部接尾辞配列(Suffix Array)の
[を] Perl による Suffix Array の実装
- 31 users
- nais.to/~yto
- 暮らし
- 2006/04/11
Perl による Suffix Array の実装 2006-04-10-2 [Programming][Algorithm] 昔作った「Perlによるsuffix arrayの実装」を発掘したので公開しておきます。ソースコードです。 #!/usr/bin/perl -w use strict; my $t = "mississippi"; # Text - 対象テキスト my @sa = (0..length($t)-1); # Suffix Array - 初期設定 ### Suffix Array の作成 @sa = sort {substr($t, $a) cmp substr($t, $b)} @sa; # テスト出力 for (0..$#sa) { print "$_ $sa[$_] ",substr($t, $sa[$_]),"\n"; } ### バイナリサーチ
- perl
- algorithm
- アルゴリズム
- code
- Search
- tutorial
- 言葉
- memo
- ツール
最高のはてなサマーインターン - うに
- 31 users
- leptont.hatenablog.jp
- 暮らし
- 2015/09/08
はじめに id:Leptonです。08/10 ~ 09/04 にはてなでインターンをしました。応募過去のはてなインターンのエントリを見て最高だと思い「大規模システムコース」に応募しました。面接「大規模システムコース」では面接がありました。自分の場合は、東京オフィスに行き、京都とリモートで面接しました。最高の会議室でした。面接では、色々なことを幅広く聞かれました。また、後半課程でやることの候補のことを聞きました。インターン開始前事前課題をしました。前半課程の課題は量が多いので、余裕があれば、「初めてのPerl」「続・初めてのPerl」を読んでおくとよいです。これらの本は最高です。自分はAOJ-ICPCをしていて忙しくて「初めてのPerl」の11章までしかしませんでしたが、全部読むことをオススメします。まあでも、後半でやることがはっきりしていれば、そちらを優先するほうが良
【Google App Engine】すごいのはGDriveより全文検索でしょ！？
- 31 users
- blog.virtual-tech.net
- テクノロジー
- 2010/01/18
Google Docsのオンライン・ファイルストレージ機能先日、Google Docsにオンライン・ファイルストレージ機能を追加するという発表があった。画像・動画、ZIPファイルなどあらゆる種類のファイルをGoogle Docsで保管でき、アップロードしたファイルは検索機能や共有フォルダ機能の対象にもなる。アップロードできるファイルのサイズは1つにつきMAX250MB※までだが、全体の容量の制限はなく、1GBまでは無料である。それ以上は追加で購入できる。ストレージの値段は、現時点で20GBが5ドル/年だが、Google Apps Premier Editionユーザーに対しては、1GB=3.50ドル/年で今後数ヶ月以内に提供する計画とのこと。（※ MAX1Gに変更された。2010/1/28） Documents List API: Upload any file and more (1
- Google App Engine
- google
- gae
- GoogleDocs
- Google Docs
- GoogleAppEngine
- api
- search
- Development
神戸市須磨区のトイレつまり修理【1,200円〜】水道局指定業者の水協
- 30 users
- nais.to/~yto
- テクノロジー
- 2005/09/15
弊社は神戸市須磨区水道局より認定を受けた水道局指定業者ですので安心してご相談ください。トイレや排水溝などのつまりや水漏れなど、あらゆる水回りのトラブルに適切に対応させていただきます。 1200円〜の業界最安値水準の低価格で修理対応しております。もちろんトラブルの原因によって価格は異なりますが、神戸市須磨区内のお宅ではまずは無料出張で現地を確認、無料でお見積もりをご提出させていただきます。その際に価格やサービス内容にご納得いただけずお断りいただいた場合は一切費用はかかりませんので、まずはお気軽にご相談ください。
- suffix array
- algorithm
- nlp
- search
- 検索
- library
テキスト圧縮はこれ一冊でOK！？な優良書籍「The Burrows-Wheeler Transform」を読んだ - EchizenBlog-Zwei
- 29 users
- echizen-tm.hatenadiary.org
- テクノロジー
- 2011/01/16
以前より気になっていた書籍「The Burrows-Wheeler Transform Data Compression, Suffix Arrays, and Pattern matching」を読む機会を得ることができた。それなりに高額な本だったので購入が躊躇っていたのだけど、これは自分用に購入してもいいかも。というくらいの良書だったので紹介しておく。本書はタイトルのとおりBWT(Burrows-Wheeler変換)に関する書籍。サブタイトルにあるようにデータ圧縮やSuffixArrayによる全文検索についても充実した内容になっている。最後のPattern matchingはテキストから検索キーとexactにマッチした、もしくは類似した箇所を取り出すよ、という話。2008年の本なので比較的新しい話題も扱っていて満足度が高い。また本書の特色は圧縮ありきで始まり、そこから全文検索可能な
- algorithm
- suffixarray
- bwt
- Search Engine
- compression
- nlp
- book
Sign in - Google Accounts
- 28 users
- sites.google.com
- テクノロジー
- 2008/10/13
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
- suffixarray
- algorithm
- suffix array
- sort
- research
- bwt
- 実装
- c++
- library
Suffix ArrayをRustで実装した - Islands in the byte stream
- 26 users
- gfx.hatenablog.com
- テクノロジー
- 2016/12/30
suffix arrayを一番簡単なアルゴリズムで実装する - アルゴリズム学習(その6) - $shibayu36->blog; を読んで、ちょうど自分も何らかの形で全文検索を一部実装してみようと思っていたのでRustで真似してみました。 Rustを選んだ理由は、以下の理由からです。実際に全文検索を実装するのに耐えうるパフォーマンスであることパッケージマネージャなどのエコシステムが完備されていること Rustについてはそれほど詳しくはないのですが、GCや例外がないとのこと。であればパフォーマンスチューニングがC言語並にやりやすい可能性がありますし、一度真面目に勉強してみたいと思っていました。Goと異なり、ジェネリクスがあるのも魅力的です。というわけでコードこんな感じになりました: pub fn make_suffix_array(s: &str) -> Vec<i64> { use
木メモ - Negative/Positive Thinking
- 26 users
- jetbead.hatenablog.com
- テクノロジー
- 2012/06/26
はじめに立派な庭師になるために、木についてちょっと調べてみたので、まとめておく。木(構造)とは閉路を含まない無向グラフを「森」という連結な森を「木」という与えられた頂点が全てつながっていて、閉路を含んでいない閉路を含まない有向グラフは「DAG(Directed acyclic graph)」というある頂点を根(Root)としてもつ木を「根付き木」という 2点v,wが辺を持ち、vの方が根に近い場合、vを「親」、wを「子」という 2点v,wについて、根とvとの経路にwが存在する場合、wはvの「先祖」、vはwの「子孫」という子を持たない頂点を「葉」という根から各点への経路の長さ(1辺を1とする)を「高さ」という各点の子の数が常にn子の木を「n分木」という連結グラフGについて、閉路ができなくなるまで辺を除去し続けると、残ったものは「全域木」となる根付き木を探索などに用いるこ
- algorithm
- tree
- Algorithms
- programming
- search
定兼邦彦 (Kunihiko Sadakane) - 圧縮接尾辞配列ライブラリ - researchmap
- 25 users
- researchmap.jp
- テクノロジー
- 2010/08/29
文字列を圧縮したまま検索するライブラリです．文字列の一部を高速に復元することもできます．圧縮接尾辞配列ライブラリ (2010-08-10版) Direct BWT construction External Memory BWT construction http://code.google.com/p/csalib/ にもあります．注意: dbwt100717.zipにはバグがありました．Ubuntuでは動かない可能性が高いです． dbwt100730.zipを使ってください．索引とは，本の索引と同じ意味で，検索を高速に行うためのデータのことです．ただし，本の索引では代表的な言葉のみが登録されていますが，このライブラリの索引は任意の語が検索できるようになっています．このライブラリの索引は自己索引 (self-index) と呼ばれるもので，索引自体に元のファイルの情報を全
- suffixarray
- library
- search
- C
- algorithm
- research
大規模文字列解析の理論と実践＠IBISML - DO++
- 25 users
- hillbig.cocolog-nifty.com
- 暮らし
- 2010/06/16
IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。本番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。久しぶりのこうした研究会参加で大変刺激になりました。
LCP(Longest Common Prefix)を用いたSuffix Arrayの検索 - EchizenBlog-Zwei
- 25 users
- echizen-tm.hatenadiary.org
- テクノロジー
- 2011/07/29
Suffix Arrayは「インデックスの構築」と「キーワードの検索」からなる。それぞれ構築には文字列のsortが、検索には文字列の二分探索が必要になる。以前にCompressed Suffix Arrayのライブラリtsubomiを実装したときにはsortについてはマルチキー・クイックソート(multikey-quicksort)というアルゴリズムを用いた。一方で二分探索については特に工夫をしていなかった。さすがにこのまま放っておくのは気が引けたのでSuffix Array論文を読みなおしてみたらLCP(Longest Common Prefix)を用いた二分探索の方法が書いてあった。シンプルだが賢い方法だったのでメモしておく。これはすごい(というか今まで読み飛ばしてたことのほうが問題ですね。はい)。さて。まずLCP(Longest Common Prefix)とは何かと言うとその
Compressed Suffix Arrayの記事まとめ - EchizenBlog-Zwei
- 25 users
- echizen-tm.hatenadiary.org
- テクノロジー
- 2010/08/04
一応CSAの記事を書き終えたので、各記事へのリンクリストを。補足:記事を7つも読むの面倒くさい人は、↓にもう少し簡単な圧縮法の解説を書いておいたので参照されたい。 15分でわかる(とうれしい)Suffix Arrayの簡単な圧縮法 Compressed Suffix Arrayの解説(1) -Suffix Array- Compressed Suffix Arrayの解説(2) -SAの計算量- Compressed Suffix Arrayの解説(3) -圧縮の方針- Compressed Suffix Arrayの解説(4) -unary記法- Compressed Suffix Arrayの解説(5) -Succinct Bit Vector- Compressed Suffix Arrayの解説(6) -B Vectorと Ψ Vector- Compressed Suffix
- algorithm
- suffixarray
- suffix array
- csa
- nlp
お手軽PerlでSuffixArrayに挑戦
- 24 users
- www006.upp.so-net.ne.jp
- 暮らし
- 2006/04/11
試しにPERLでSuffixArrayついでにソートの勉強下記のページを参考にしている http://www.namazu.org/~satoru/unimag/9/ ここに記述されているコードは、実験のために書かれているので、へんなところはご容赦を... インデックスを作ってみる Cで書かれたサンプルをperlでかいてみた。 PERLでもquicksortの関数はあるが、一応PERLでかいてみた。バイナリー形式でインデックスファイルを書き出している。テストのためのサンプルプログラムなので、書き出したあとよみだして表示している。 pushを使って配列を拡大しているが、これってスピード的にいいのだろうか？ pack,unpack関数はいろいろ使いでありそう！！ 1: #!/usr/bin/perl 2: 3: #2003/03/14 4: #UNIXマガジン2002 10月号横着プ
- perl
- アルゴリズム
- suffixarray
- Suffix Array
- algorithm
- プログラミング
- search
- NLP
- HowTo
- text