[B! algorithm] showyouのブックマーク

DFS (深さ優先探索) 超入門！〜グラフ・アルゴリズムの世界への入口〜【前編】 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 0. はじめに --- グラフ探索の動機現代ではコンピュータはとても身近なものになりました。コンピュータの用途としてはシミュレーションなどの大規模計算を行う人工知能をつくるアプリを開発するなどなど多様なものが考えられますが、「探索」もまた、コンピュータを用いるモチベーションとして、最も基本的かつ重要なものの一つだと思います。探索とは、与えられた対象の中から、目的に合うものを見つけ出したり、最良のものを見つけ出したり、条件を満たすものを列挙したりする営みです。世の中における様々な問題は、探索によって、考えられる場合を調べ尽くす

showyou 2019/07/18

algorithm

リンク

再帰関数を学ぶと、どんな世界が広がるか - Qiita

0. はじめに再帰関数は初めて学ぶときに壁になりがちでなんとなくわかった...けれどどんな場面で使えるのだろう...いい感じの例を探したい！という気持ちになりがちです。再帰関数は、なかなかその動きを直感的に想像することが難しいため、掴み所が無いと感じてしまいそうです。そこで本記事では再帰関数の動きを追いまくることで、再帰関数自体に慣れる再帰的なアルゴリズムの実例に多数触れることで、世界を大きく広げる！ことを目標とします。特に「再帰関数がどういうものかはわかったけど、使いどころがわからない」という方のモヤモヤ感を少しでも晴らすことができたら嬉しいです。なお本記事では、ソースコード例に用いるプログラミング言語として C++ を用いておりますが、基本的にはプログラミング言語に依存しない部分についての解説を行っています。追記 1. 再帰関数とは再帰の意味はとても広いです。自分自

showyou 2019/04/10

リンク

Regular Expression Matching Can Be Simple And Fast

Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...) Russ Cox rsc@swtch.com January 2007 Introduction This is a tale of two approaches to regular expression matching. One of them is in widespread use in the standard interpreters for many languages, including Perl. The other is used only in a few places, notably most implementations of awk and grep.

showyou 2012/01/07

algorithm

リンク

Double-Array

ダブル配列（ Double-Array ）は，トライ（ Trie ）のデータ構造の一種であり，小さい辞書で高速に検索できるという特長を持っています．実際に，茶筌（ ChaSen ）や和布蕪（ MeCab ）などの形態素解析器で利用されているという実績があります．ダブル配列では，配列を使ってトライを表現します．配列の各要素が BASE, CHECK という二つの整数を持つので，頭文字をとって配列 BC と呼ぶことにします．以降の説明では，配列 BC の要素 x の BASE, CHECK をそれぞれ BC[x].BASE, BC[x].CHECK と記述します．通常，BASE, CHECK は個別の配列として紹介されますが，特に分割して考える必要がないので，このような説明にしました．基本的に，配列 BC の各要素はトライの節と一対一で対応します．そのため，対応する

showyou 2011/12/18

algorithm

リンク

ALSIP2011に参加して簡潔データ構造の話を聴いて来ました - EchizenBlog-Zwei

香川県高松市にて開催されたALSIP2011(Second Workshop on Algorithms for Large-Scale Information Processing in Knowledge Discovery)に参加してきた。簡潔データ構造で有名なRajeev Raman先生、NIIの定兼先生、PFIの岡野原さんが招待講演をして下さるということで以前から注目していた。招待講演に加えて興味深い10本の発表がありとても楽しめた。私の勉強不足もあって初めて知ることが非常に多く勉強になった。簡単に内容をメモしておく(理解不足のため間違ったことを書いていたらすみません)。今回の会議で最も興味深かったのがgrammer-based compressionというもので、これは例えばX=ababという文字列があったときにX1=a,X2=b,X3=X1X2,X=X3X3という感じで

showyou 2011/12/04

algorithm

リンク

LCP(Longest Common Prefix)を用いたSuffix Arrayの検索 - EchizenBlog-Zwei

Suffix Arrayは「インデックスの構築」と「キーワードの検索」からなる。それぞれ構築には文字列のsortが、検索には文字列の二分探索が必要になる。以前にCompressed Suffix Arrayのライブラリtsubomiを実装したときにはsortについてはマルチキー・クイックソート(multikey-quicksort)というアルゴリズムを用いた。一方で二分探索については特に工夫をしていなかった。さすがにこのまま放っておくのは気が引けたのでSuffix Array論文を読みなおしてみたらLCP(Longest Common Prefix)を用いた二分探索の方法が書いてあった。シンプルだが賢い方法だったのでメモしておく。これはすごい(というか今まで読み飛ばしてたことのほうが問題ですね。はい)。さて。まずLCP(Longest Common Prefix)とは何かと言うとその

showyou 2011/11/30

algorithm

リンク

簡潔データ構造超入門〜つくって学ぶ簡潔ビットベクトル〜 - EchizenBlog-Zwei

簡潔データ構造は各種操作を高速に保ったままでデータサイズを情報理論的な下限近くまで圧縮できる。大規模データを扱うことの多くなってきた現在、特に注目を集めている技術である(※個人的な見解です)。しかし有用性とは裏腹にまとまった教科書等がないこともあり入門者に対して敷居が高いようにも感じられる。そこで本記事では簡潔データ構造の基本であるビットベクトルに対する簡潔構造の実装方法をC/C++のコードを交えて解説してみる。ビットベクトルに対する簡潔構造は、単純には疎ベクトルを表現するのに利用することができる。よって本記事でも簡潔ビットベクトルを実装し、疎ベクトルを実現してみようと思う。今回は疎ベクトルとして値がint(4byte)の256次元のベクトルを考える。ただし疎ベクトルなので256次元のうちいくつかの次元にしか値が入っていないものを仮定する。例えば v[5] = 10 v[100] =

showyou 2011/11/30

algorithm

リンク

動的ダブル配列を実装してみた - Negative/Positive Thinking

はじめに形態素解析器などで利用されている「ダブル配列(double array)」の勉強するため、実装をしてみた。動作を確認するために書いただけなので重い。。。ダブル配列とは文字列の検索をO(1)で行えるTrie(トライ木)の効率的なデータ構造 2つの配列BASEとCHECKで木の遷移を表現するあるノードsにいるときに、次の文字がaだったとき、以下を満たす次のノード : 現在のノード : ただし、N(a)は文字aを表す整数(内部コード) トライ木の遷移の(2次元)配列構造を圧縮したものに相当 2次元配列構造とは、縦をノード番号、横を文字にしたとき次のノード番号を保持するこの構造では、かなり疎になる(無駄が多い)→圧縮！！！コード以下の論文の前半部分を参考に改良なしの動的ダブル配列を実装してみた http://ci.nii.ac.jp/naid/110002725995 追

showyou 2011/11/30

algorithm

リンク

Double Array 実装してみた - 木曜不足

今作りかけのもので、素性(文字列片)を格納するのに Trie を使っていたのだけど、50万件を超えたあたりからメモリに載らなくなってきて。まあ dict を使っためちゃめちゃナイーブな実装だったので、そろそろダメかなあとは思っていたんだけど(苦笑)。というわけで、それよりきっと省スペース＆きっと高速だろうと期待して Double Array を Python で実装してみた。参考にしたのは WEB+DB Press vol. 64 の徳永さんの記事。現時点での実装がこちら。 https://github.com/shuyo/iir/blob/master/trie/da.py ソート済みのテキスト列を与えると、Double Array を構築。 get を呼び出すと、最初に与えたテキスト列の中でのキー文字列のインデックスを返す。シンプル機能。 trie = da.DoubleAr

showyou 2011/11/30

algorithm

リンク

Try For Trie | PDF

Scribd is the world's largest social reading and publishing site.

showyou 2011/07/23

リンク

海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlog-Zwei

注意：この記事の内容は古いものです。最新版のerika-trieは erika-trie(実用版)とキーワード抽出ツールerika_extractを作ったよ - EchizenBlog-Zwei うっかり手が滑って自分で☆つけてしまいましたが自画自賛してるわけではないです・・・。をご参照ください。最近TRIE(トライ)に対する興味が高まってきたので勉強のためにライブラリを作っていた。一応完成したので公開しておく。普通のTRIEとLOUDSによるTRIEの二つを実装した。名前はerika。もしくはerika-trie。以前作ったCompressed Suffix Arrayのライブラリがtsubomiだったので、今回はerikaにした。コードはGoogleCodeのtsubomiと同じところにおいてある。というかtsubomiの付属品状態。開発はlinuxで行ったが特に環境に依存した

showyou 2011/06/06

algorithm

リンク

誤り許容カウント法(lossy count method)のサンプルプログラム

誤り許容カウント法(lossy count method)のサンプルプログラム 2010-05-12-1 [Programming][Algorithm] 1行1ラベル形式で、 1万種類のラベルを持つ、 100万行のデータがあるとします（ラベルの頻度分布はジップの法則にだいたい準拠するとします）。各ラベルの頻度をハッシュを使ってカウントするとなると、ハッシュエントリ1万個分のメモリ容量が必要になります。（1万じゃたいしたことないな、という人はもっと大きな数に置き換えて読んでください。）しかし、カウント後に高頻度のものしか使わないということも多いと思います。例えば頻度5000以上のもののみ取り出してあとはいらない、とか。そうなると、全部のラベルのカウントデータを最後まで保持するのは無駄に思えます。そこで登場するのが「誤り許容カウント法(lossy count method)」。低

showyou 2011/02/11

リンク

wat-arrayを使った2次元探索プログラム - tsubosakaの日記

岡野原氏の作成したwavelet木を使った高速配列処理ライブラリwat-arrayを利用して、2次元探索のプログラムを書いてみた。なお、自分はwavelet木のアルゴリズムについては全く分かってないですが、wat-arrayでは配列に対して、操作を行うインターフェイスがしっかり与えられているのでそれを見ながら作りました。問題定義 2次元座標の集合P={(x,y)}が与えられる。Queryとして(xs,xe,ys,ye)が与えられたときにPの中でxs <= x < x, ys <= y < yeを満たす点の数を答えるというものを考える。なお、Pの内容は途中で変化したりすることはないものとする(変更が加わった場合は一から作り直す)。インターフェースとしては次のようになる、2次元座標の表現にはpairを用いることにする。 namespace wat2DSearch{ typedef st

showyou 2011/01/09

リンク

lsh

[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete...

showyou 2010/09/11

リンク

横着プログラミング第9回: sary: Suffix Array のライブラリとツール

最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル

showyou 2010/05/03

リンク

接尾辞配列 - Wikipedia

接尾辞配列（せつびじはいれつ）やサフィックス・アレイ（英: suffix array）とは、文字列の接尾辞（開始位置を異にし終端位置を元の文字列と同じくする部分文字列）の文字列中の開始位置を要素とする配列を、接尾辞に関して辞書順に並べ替えて得られる配列である。接尾辞木の配列版。主に文字列探索、全文検索などに利用される。1990年に Udi Manber と Gene Myers が発表した[1]。

showyou 2010/05/03

algorithm

リンク

ブロックソート - Wikipedia

ブロックソート、ブロックソーティング、Burrows-Wheeler変換 (Burrows-Wheeler Transf orm; BWT) は、1994年にマイケル・バローズ (Michael Burrows) とデビッド・ホイーラー (David Wheeler) が開発した可逆変換の方式で、データ圧縮の前処理に応用される。ブロックソート自体はデータの大きさを変えない。しかし、データを整列することでデータ中に出現するパターンを、いくつかのよく知られている手法で圧縮し易いものにできる。後処理としてMove To Front (MTF)・連長圧縮 (RLE)・エントロピー符号と組み合わせて、データを圧縮する。実装はbzip2等。 Python言語による実装例が文献[1]に出ている。長さ n のデータを巡回シフトし、得られるすべての文字列を辞書順にソートする。このようにしてできた n×n

showyou 2010/05/03

algorithm

リンク

pythonで最短経路問題 with altgraph – taichino.com

pypiを眺めていて、altgraphというネットワークグラフ用のライブラリを見つけました。グラフ構造を割とシンプルに扱えるライブラリで、グラフ構造に付随するアルゴリズムも実装されています。早速使ってみようという事で、ダイクストラ法とベルマンフォード法のコードを書いてみました。ライブラリの機能は殆ど使わず、グラフ構造の作成用途で使用しています。wikipediaの説明中にあったダイクストラ法の疑似コードが解り易かったので、同じスタイルで両者アルゴリズムを実装したものが以下になります。個人的にはグラフ構造を作成するのが面倒で仕方が無かったので、これからネットワークグラフが必要な時はこれを使おうと思います。 #!/usr/bin/python # -*- coding: utf-8 -*- import sys from altgraph import Graph, Dot def dijk

showyou 2010/01/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

algorithmに関するshowyouのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2025年10月第1週）

月間はてなブックマーク数ランキング（2025年9月）

今週のはてなブックマーク数ランキング（2025年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス