[B! algorithm][Algorithm] [5ページ] Watsonのブックマーク

Comparing strings faster

Watson 2017/04/19

algorithm

リンク

私が書いた最速のハッシュテーブル – PART 2 | POSTD

素数か2のべき乗かハッシュテーブルのアイテムをルックアップする際に高負荷なステップが3つあります。キーをハッシングするキーをスロットにマッピングする該当スロットのメモリをフェッチするステップ1は、キーが整数であれば、低負荷になります。単にintをsize_tにキャストするだけです。しかし、文字列のようなタイプのキーの場合は高負荷となります。ステップ2はよくある整数モジュロ演算です。ステップ3はポインタの間接参照です。std::unordered_mapの場合は複数のポインタ間接参照となります。処理の遅いハッシュ関数でなければ、直観的にステップ3が最も高負荷になると考えると思います。しかし、全てのルックアップでキャッシュミスが生じなければ、整数モジュロが最も高負荷な処理となります。現代のハードウェアにおいても整数モジュロは非常に遅いのです。 Intelマニュアルでは、整数モ

Watson 2017/04/15

algorithm

リンク

とても長い配列の上位M件だけをクイックソートより高速に取り出す - Qiita

というわけで、10倍の差がでた。当然、配列の長さやソートする長さ、また実装の方法によって性能差は変わってくるが今回の方法は有効であるということは確認できた。既存の記事(2015/11/09 20:22 追記) コメント欄でUnordered partial sorting にそれらしきことが書いてあると教えていただいた。そちらでは、「上位k個を取り出す（ソートは不要）」という問題を考えている。同様に分割統治法を用いてソートしていきながら、上位k個以内の小区間になったらその区間はソートせずに全て選択して良いとしている。早い話が、QuickSelectによりk+1番目の要素を探してそれより上位の要素をごそっと抜き出している。分割統治法で大雑把にソートしていきながら、不要なソートを行わないようにするという同様のアプローチである。 C++のSTLの場合(2015/11/09 22:

Watson 2017/04/11

algorithm

リンク

先読みと後読みの可能な、O(N)の正規表現エンジンの実装

https://cybozu.connpass.com/event/53121/ での発表資料です。

Watson 2017/04/01

リンク

私が書いた最速のハッシュテーブル – PART 1 | POSTD

結局、やり出したら止まりません。私は以前、” I Wrote a Fast Hashtable（私が書いた高速なハッシュテーブル） “という記事と、それに次いで” I Wrote a Faster Hashtable（私が書いたより高速なハッシュテーブル） “という記事をブログにアップしましたが、今回ついに、最速のハッシュテーブルを書き上げました。これが意味するところは、ルックアップがどのハッシュテーブルよりも速いということです。それに加えて、挿入や削除も（最速とまではいかないまでも）非常に速く行えます。秘訣は、探索回数の上限を設定したロビンフッドハッシュ法を使用することです。ある要素が、その理想的な位置からX数以上、離れた位置にある場合、テーブルを拡張することで、全ての要素が、その大きなテーブル内において、理想的な位置に近づくようにします。結果的に、このやり方は非常にうまくいきました。

Watson 2017/04/01

リンク

Pretty Diff - A Diff Algorithm

It is more about the equality than the differences A good diff algorithm will attempt to identify as much equality as possible. Everything else qualifies as differences. The metric for quality and precision is a smaller count of captured differences. The smaller this number the better, presuming differences aren't escaping undetected. False negatives, which is allowing differences through without

Watson 2017/03/30

algorithm

リンク

Guetzli／Butteraugliに関するあれこれ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 2017年3月にGoogleから発表された新しいJPEGエンコーダ「Guetzli」と、同エンコーダが用いる画品質評価アルゴリズム「Butteraugli」について思うところとか。 Announcing Guetzli: A New Open Source JPEG Encoder GitHub google/guetzli GitHub google/butteraugli 多くのニュースサイトで『Google、JPEGを35％小さくできるエンコーダー「Guetzli」をオープンソースで公開』のようにセンセーショナルに紹介され、またG

Watson 2017/03/22

リンク

円周率の16進数表現100億桁目を求めてみた！ ― 円周率の世界記録をどのように検証するか ― - プログラムモグモグ

あなたは円周率を何桁言えますか。3.14159…という、あの数字です。円周率の小数部分は無限に続き、循環することもありません。古来より、数学者は円周率の値を様々な幾何学的な近似や公式を用いて計算してきました。その桁数は計算機の発明により飛躍的に伸び、収束の速い公式の発見や効率の良いアルゴリズムの発明などによって加速してきました *1。 5年前、私がまだ学生だった頃、円周率1億桁の計算に挑んだことがありました。私にとって高精度計算の初めての挑戦で、様々な試行錯誤で苦労したのをよく覚えています。 itchyny.hatena blog.com 2017年現在、円周率計算の世界記録は22兆桁です。円周率計算の歴史をご覧いただくとよく分かると思いますが、近年の円周率計算の世界記録からは次のような特徴が読み取れます。 2002年に1兆を超え、最新の記録 (2016年) は22兆桁 (10進数

Watson 2017/03/15

リンク

高速なRandomized Queueのアルゴリズムを実装する - $shibayu36->blog;

CourseraのAlgorithms, Part Iというコースで、高速なRandomized Queueを実装するという話題があったので、試しに作ってみた。高速なRandomized Queueとは Randomized Queueとは、Queueからdequeueするときに、中に入っている要素の中からランダムに一要素取り出すようなQueueである。また「高速な」とは、enqueue、dequeue、isEmpty、sizeなどの操作の実行時間が、"constant amortized time"であること、つまり何回も操作を繰り返していくと、平均的には定数時間でそれぞれの操作が終わるということである。この二つを満たすものを高速なRandomized Queueと呼ぶ。実装高速なRandomized Queueを実装すると次のようになった。 import java.util.

Watson 2017/03/11

algorithm

リンク

Big Sky :: レーベンシュタイン距離を使ったあいまい grep コマンド「lsdgrep」作ってみた

元ネタはずいぶんと昔の記事なのだけど。編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー ■ 編集距離 (Levenshtein Distance) 昨日最長共通部分列問題 (LCS) について触れました。ついでなので編集距離のアルゴリズムについても整理してみます。編集距離 (レーベン... http://d.hatena.ne.jp/naoya/20090329/1238307757 思い付きはまったく関係ない所から。 mp3 が数千ファイル入ってるフォルダで何かの手違いで同じ曲が入ってしまう事が結構あって重複取り去る作業してた。ID3が違ってるとMD5も違うのでレーベンシュタインの文字列距離を使ってファイル名が似てるの調べたら422ファイル消せる事が分かった。 — Vim芸人 (@mattn_jp) February 25, 2017 これを

Watson 2017/02/27

algorithm

リンク

どうぶつしょうぎ名人 - まめめも

どうぶつしょうぎ AI を作りました。絶対に勝てません。無力感を味わってください。 ref: http://mame.github.io/dobutsu-shogi-master どうぶつしょうぎとは 3 マス x 4 マスの単純化された将棋です。ライオン（王相当）、ぞう（1 マスしか進めない角行）、キリン（1 マスしか進めない飛車）、ひよこ（歩相当、にわとりに成ったら金相当）の 4 種類の駒を動かして、相手のライオンを取るか、トライ（ライオンを一番奥の行まで運ぶ、ただし直後に取られる場合はだめ）に成功すれば勝ちです。詳しくは Wikipedia の記事を見てください。どうぶつしょうぎは後手必勝であることが知られています（研究報告）。つまり、後手が正しくプレイする限り、先手は絶対に勝てません。どうぶつしょうぎ名人は常に正しくプレイするので、先手のあなたは絶対に勝てません。なんで作ったの

Watson 2017/02/12

リンク

Suffix Trieを使って文字列マッチングする - $shibayu36->blog;

文字列マッチングを行うためのアルゴリズムとして、Suffix Trieを使った探索というものがある。これはテキストからSuffix Trieという構造を作り、パターンをつかってそれを辿ることで、パターンの長さmに対して、O(m)の計算量で探索できるものである。今回はJavaでSuffix Trieを使った探索をしてみた。トライ木とパトリシア先にトライ木とパトリシアについて紹介。今回Suffix Trieという構造を調べていると、同じような構造としてSuffix Treeというものが出てきて混乱した。よく調べてみると、Suffixの集合をトライ木という構造で実装したものがSuffix Trieで、パトリシアという構造で実装したものがSuffix Treeらしい。トライ木はnodeを連結していって、その枝に1文字を割り当てて辿れるようにした構造。トライ木は枝に1文字しか割り当てない構

Watson 2017/01/09

algorithm

リンク

I Wrote a Faster Sorting Algorithm

So in this case there were nine elements in total. The number 1 showed up twice, the number 2 showed up once, the number 4 showed up five times and the number 5 showed up once. So maybe the input sequence was { 4, 4, 2, 4, 1, 1, 4, 5, 4 }. The final loop now goes over the initial array again and uses the key to look up into the prefix sum array. And lo and behold, that array tells us the final pos

Watson 2017/01/04

algorithm

リンク

再帰的なアルゴリズムの実例集 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

Watson 2017/01/02

algorithm

リンク

Suffix ArrayをRustで実装した - Islands in the byte stream

suffix arrayを一番簡単なアルゴリズムで実装する - アルゴリズム学習(その6) - $shibayu36->blog; を読んで、ちょうど自分も何らかの形で全文検索を一部実装してみようと思っていたのでRustで真似してみました。 Rustを選んだ理由は、以下の理由からです。実際に全文検索を実装するのに耐えうるパフォーマンスであることパッケージマネージャなどのエコシステムが完備されていること Rustについてはそれほど詳しくはないのですが、GCや例外がないとのこと。であればパフォーマンスチューニングがC言語並にやりやすい可能性がありますし、一度真面目に勉強してみたいと思っていました。Goと異なり、ジェネリクスがあるのも魅力的です。というわけでコードこんな感じになりました: pub fn make_suffix_array(s: &str) -> Vec<i64> { use

Watson 2016/12/31

リンク

suffix arrayを一番簡単なアルゴリズムで実装する - アルゴリズム学習(その6) - $shibayu36->blog;

文字列アルゴリズムを学んでいると、suffix array(接尾辞配列)という配列が出てくる。これは文字列の接尾辞の集合を辞書順にソートし、その順でそれぞれの接尾辞の文字列中の開始位置のindexを格納した配列のことである。以下が参考になる。接尾辞配列 - Wikipedia サービス終了のお知らせ例えばbananaの場合、接尾辞は - banana (position=0) - anana (position=1) - nana (position=2) - ana (position=3) - na (position=4) - a (position=5)となり、これを辞書順にソートしたものは - a (position=5) - ana (position=3) - anana (position=1) - banana (position=0) - na (position=

Watson 2016/12/31

algorithm

リンク

文字列アルゴリズムの学びかた - Hatena Developer Blog

こんにちは！はてなアプリケーションエンジニアの id:takuya-a です。みなさんは、このような疑問をもったことはありませんか？ grep はどのように文字列を検索しているのか？ MeCab はどうやって辞書を高速にルックアップしているのか？パーサやコンパイラを作りたいけど、何から始めればいいのか？本稿では、「文字列アルゴリズムとはどんなものなのか？」「なぜ重要なのか？」「何を知っておくべきか？」「どうやって勉強すればいいのか？」といった疑問にお答えしていこうと思います。文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに

Watson 2016/12/23

リンク

LuaJIT

This is the common project page for: LuaJIT — a Just-In-Time Compiler for Lua. Coco — a Lua extension for True C Coroutines. DynASM — a Dynamic Assem bler for code generation engines. Lua Bitop — a Lua extension for bitwise operations on numbers. Privacy Policy This website does not request, store or process any private data. This website is fully static and does not allow entry of personal informa

Watson 2016/12/04

リンク

高速なハッシュテーブルを設計する | POSTD

(訳注：2016/9/28、頂きましたフィードバックを元に記事を修正いたしました。) はじめに本稿では、高速で汎用的なハッシュテーブルを作るために行う、設計についての多くの意思決定事項を紹介します。最終的に、私の emilib::HashSet とC++11の std::unordered_set の間のベンチマークが出来上がりました。もし、ハッシュテーブルに興味があって、自分で設計したいなら（どのプログラミング言語かに関わらず）、本稿がヒントになるかもしれません。ハッシュテーブルは、素晴らしい発明です。ならし計算量O(1) ( O(√N)時間 )で、挿入、削除、検索を行うことができます。ならし計算量とは、ハッシュテーブルの計算に平均でO(1)の計算量がかかることを意味しますが、時々、これよりも多くの時間がかかる場合があります。具体的には、ハッシュテーブルに空きがない場合で、挿入の

Watson 2016/09/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (79)

algorithmとAlgorithmに関するWatsonのブックマーク (300)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス