[B! algorithm] kiszkのブックマーク

あなたの知らないハッシュテーブルの世界

Please select the category that most closely reflects your concern about the presentation, so that we can review it and determine whether it violates our Terms of Use or isn't appropriate for all viewers.

kiszk 2012/12/09

algorithm

リンク

大規模グラフアルゴリズムの最先端

Introduction of network analysis with Google Colaboratory -- Network Algorithms

kiszk 2012/01/14

リンク

Java 7のArrays.sort(Object[])

Java 7のEarly Access版をダウンロードしました。昨日、Joshua Bloch氏にProject Coinへ彼が提案している言語仕様の変更はすでに実装されているのかと聞いたところ、まだプロトタイプされていないということでした。で、その話のついでに、ソートの話になり、Java 7にはTimSortが入っているということで、調べてみました。従来、コレクションフレームワークのArraysクラスのsort(Object[])は、今まではマージソートで実装されていました。しかし、Java 7にはパッケージプライベート宣言されているTimSortクラス（TimSort.java）が追加されており、Arrays.sort(Object[])（と関連する他のsortメソッド）はデフォルトでTimSortクラスのsortメソッドを使用するように書き換えられています。 TimSort.jav

kiszk 2011/10/19

リンク

Optimized pow() approximation for Java, C / C++, and C#

Optimized pow() approximation for Java, C / C++, and C# I have already written about approximations of e^x, log(x) and pow(a, b) in my post Optimized Exponential Functions for Java. Now I have more In particular, the pow() function is now even faster, simpler, and more accurate. Without further ado, I proudly give you the brand new approximation: Approximation of pow() in Java public static double

kiszk 2011/05/06

リンク

Optimized Exponential Functions for Java

Usually microoptimization is only done in C or C++, but it works quite well in Java too. For a project I needed very fast log() and exp() calculations, and Java’s Math.log() and Math.exp() just doesn’t cut it. After a bit of research I have found the following approximations that are good enough for me: UPDATE This pow() approximation is obsolete. I have a much faster and more accurate approximati

kiszk 2011/05/03

exp,logの高速版

algorithm

リンク

このページを見るには、ログインまたは登録してください

Facebookで投稿や写真などをチェックできます。

kiszk 2011/01/12

リンク

インテル・AMDのCPUアーキテクトが明かす： GNU grep が速い理由 - karasuyamatenguの日記

GNU grepの元祖作者がFreeBSDハッカーをschoolしている。 http://lists.freebsd.org/pipermail/freebsd-current/2010-August/019310.html FreeBSD対GNU grepのパフォーマンスを議論していると思われるとことに「俺はgrepの初代作者だ」と名乗って現われた男がいる。履歴書(http://duckytech.com/resume.pdf)を見ると、GNU coreutilsに貢献した後、インテルやAMDでCPUアーキテクトを勤めている男だ。これは話を聞いた方がよさそうだ。 FreeBSDユーザでもある彼はリストを観閲していたらたまたまGNU対BSDのgrep論争に当ってしまったようだ。BSDのリストにGNU grepの秘密を解く。技1：全ての入力バイトを見ないから速い技2：見るバイトに関

kiszk 2010/11/26

リンク

【コラム】コンピュータアーキテクチャの話 (200) Dekker's Algorithmとメモリオーダリング | エンタープライズ | マイコミジャーナル

Dekker's Algorithm しかし、排他制御を実現するのにLoad Linked/Store ConditionalやTest and Setなどの特別な命令を使わない方法も存在する。次に述べるのはDekker's Algorithmという方法である。最初はプロセサAとプロセサBの札メモリA、Bはゼロとしておき、プロセサAが、 (1)　St [A]←1 (2)　Ld R1←[B] プロセサBは、 (3)　St [B]←1 (4)　Ld R1←[A] と、自分の札メモリに1を書き込み、その後、相手の札メモリを読む。このようにすると、これらの命令のメモリへのアクセス順序と、プロセサA、Bが読む値は、 (1)(2)(3)(4) プロセサA:0、プロセサB:1 (1)(3)(2)(4) プロセサA:1、プロセサB:1 (1)(3)(4)(2) プロセサA:1、プロセサB:1 (3)(

kiszk 2010/08/06

リンク

d.y.d. 2倍だけじゃない

10:01 10/07/20 それでも２倍だ先日のvectorの伸長度合いの記事に関して本当に1.5倍のほうがメモリ効率がよいのかという反応をいただきました。とても興味深い。みんな読みましょう。自分の理解メモ：「再利用ができるから嬉しい」等の議論をするなら、今までに確保したメモリ (1 + r^1 + ... + r^k) のうち、有効に使えてるメモリ r^{k-1} (バッファ拡大直後) や r^k (次のバッファ拡大直前) の割合で評価してみようじゃないかという。まず簡単のために再利用をしない場合を考えると、この割合はそれぞれ (r-1)/r^2、 (r-1)/r になります（途中計算略）。この利用率が最悪になる瞬間 (r-1)/r^2 を最善にしよう、という一つの指標で考えてみると、式を微分なりなんなりしてみると r = 2 で最大(25%)となることがわかります

kiszk 2010/07/25

algorithm

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

kiszk 2010/04/20

リンク

JOI 春合宿での講義資料 - iwiwiの日記

情報オリンピックの春合宿で担当した講義のスライドをアップロードしました．プログラミングコンテストでの動的計画法プログラミングコンテストでのデータ構造講義は動的計画法についてとデータ構造についてで，それぞれ独立しています．動的計画法については，動的計画法のアルゴリズムを導くにあたっての非常に基本的な部分について話しています．動的計画法がよく分かっていない人や，苦手な人にオススメ．データ構造については，Union-Find 木，バケット法，セグメント木について話しています．特に，バケット法やセグメント木の話は，中上級者向けですが，世の中の資料がかなり少ないので，活用されることを期待します．講義を受け持つのははじめてで不安でしたが，生徒さん達に褒めてもらえたりもしていて嬉しいです． http://twitter.com/tozangezan/status/10718667041 ht

kiszk 2010/03/31

algorithm

リンク

超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)

超高速テキスト処理のためのゕルゴリズムとデータ構造東京大学情報理工学系研究科* 岡野原大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が（株）プリフゔード゗ンフラストラクチャーになります。内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景大規模自然言語処理と機械学習背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ～1010 語 – c.f. Penn TreeB

kiszk 2010/03/10

機械学習

algorithm

リンク

連想配列の進化 - DO++

キーに対して値を結びつける連想配列は多くのアプリケーションの肝であり、コンパクトかつ高速な処理が可能な連想配列を追い求め日夜研究が進められています。特に非常に巨大な連想配列を高速に処理するというのが重要な課題となっています。例えば、音声認識・文字認識・機械翻訳などで使われている言語モデルでは、非常に大量のN個の単語列の情報（特に頻度）を格納することが重要になります。この場合、キーが単語列であり、値が単語列のコーパス中での頻度に対応します。例えばGoogle N-gram Corpusからは数十億種類ものN-gramのキーとその頻度などが取得できます。これらを主記憶上に格納し、それに関する情報（頻度や特徴情報）を操作することが必要になります。そのほかにも大規模なデータを扱う問題の多くが巨大な連想配列を必要とします。ここではこのような連想配列の中でも、キーの情報を格納することすら難し

kiszk 2009/11/21

algorithm

リンク

enbug diary(2009-09-23)

_ 連想配列に使うハッシュ関数 unladen-swallowのissue を見て、ちょっと気になったので、昨今のハッシュ関数の事情を調べていたのですが、一言でいうと、難しい、です。 Pythonのハッシュ関数は、今でも FNV っぽいアルゴリズムを用いています。ただし、実際には独立して開発されていて、たまたま似ているというだけだそうです。で、 Hash functions: An empirical comparison なんかを見ると、 Murmur2 が汎用的には奨励されていて、 FNVよりも大体速くて、場合によっては衝突も少ないという結果が出ているみたいです。では、なぜPythonがあいもかわらずFNVっぽいのかというと、 Python 3000のハッシュアルゴリズムの議論でも見られるように、「ランダムなハッシュ関数は望ましくない（かもしれない）」というのが根拠らしいです

kiszk 2009/10/20

リンク

一番右端の立っているビット位置を求める「ものすごい」コード - 当面C#と.NETな記録

一番右端の立っているビット位置(RightMostBit)を求めるコードで速いのないかなーと探していたら、ものっっっすごいコードに出会ってしまったのでご紹介。2ch のビット演算スレで 32bit 値のコードに出会って衝撃を受けて、その後 64bit 値版のヒントを見つけたのでコードを書いてみました。この問題はハッカーのたのしみ―本物のプログラマはいかにして問題を解くか (Google book search で原著 Hacker's delight が読めたのでそれで済ませた) で number of trailing zeros (ntz) として紹介されています。bit で考えたときに右側に 0 がいくつあるかを数えるもの。1 だと 0、2 だと 1、0x80 なら 7、12 なら 2 といったぐあい。0 のときに表題どおりの問題として考えるといくつを返すの？ってことになるので、

kiszk 2009/07/06

algorithm

リンク

Integer Hash Function

Abstract An integer hash function accepts an integer hash key, and returns an integer hash result with uniform distribution. In this article, we will be discussing the construction of integer hash functions. Introduction Hash table is an important data structure. All elementary data structure text books contain some algorithms of hash table. However, all too often the treatment of hash function is

kiszk 2009/07/04

リンク

B木の Copy-Modify 方式での実験的コード - Tociyuki::Diary

id:naoya さんの Python 版B木に触発されて、Ruby 版の insert・delete だけを実装した B 木を書いてみました。実装にあたり、標準的な教科書に良く掲載されている Overwrite 方式ではなく、現代的な Copy-Modify 方式、すなわち B 木の葉から根に向かって更新のおこなわれるノードを複製してから修正をおこなっていき、最後に根をすげ替える方式に挑戦してみました。こうすることにより、更新の途中でなんらかの例外が発生したとしても、直前の B 木を壊さずにすみ、安全にロール・バックすることができるようになります。また、更新の途中の元の B 木はいっさいがっさい元のままですから、根を変更バージョンごとに持つようにすれば、現代的なデータ・ベース・マネジメント・システムに採用されている Multi-Version Concurrency Control(M

kiszk 2009/04/21

algorithm

リンク

An Implementation of Double-Array Trie

Contents What is Trie? What Does It Take to Implement a Trie? Tripple-Array Trie Double-Array Trie Suffix Compression Key Insertion Key Deletion Double-Array Pool Allocation An Implementation Download Other Implementations References What is Trie? Trie is a kind of digital search tree. (See [Knuth1972] for the detail of digital search tree.) [Fredkin1960] introduced the trie terminology, which is

kiszk 2009/04/16

algorithm

リンク

DO++ : 透過的データ圧縮

可逆データ圧縮分野で、現在研究が盛んな分野の一つが、データを圧縮した状態のまま定数時間でランダムアクセスをサポートするデータ圧縮方式です（word RAMモデルでO(log n)サイズの復元が定数時間)。これは、データをあたかも圧縮していないかのように扱えるため、透過的データ圧縮/構造と呼ばれています（英語だとまだ決まってない？)。例えば1GBのデータを圧縮した状態で、途中300MB目から4Byteだけ復元しようというのが定数時間で実現できるわけです。これは理論的にもかなり強いことをいっていて，例えば今あるデータ構造やアルゴリズムが、O(T)時間である問題を解けるというのがあったら、それを全く同じO(T)時間のままデータ構造を圧縮し作業領域量を減らすことができます (一応データ構造に対し読み込み操作しか無い場合。書き込みもある場合はまたちょっと面倒になる）このデータを圧縮したまま扱う

kiszk 2009/03/30

リンク