[B! algorithm][todo] hiromarkのブックマーク

30分でわかる高性能な圧縮符号vertical code - EchizenBlog-Zwei

検索エンジンの転置インデックスなどデータ列を小さいデータサイズで持たせたい、という状況がある。こういう場合圧縮符号を使うのが一般的でunary符号やgamma符号、delta符号など様々な種類がある。圧縮符号の中でイチオシなのがvertical code(vcode)。これは岡野原(@hillbig)氏によって提案された圧縮符号で単純な仕組みでdelta符号並の性能を誇っている。本記事ではvcodeのポイントを絞って30分でわかるように解説してみる。 vcodeは本棚に本を並べる作業を連想すると理解しやすい。本棚は予め高さが決まっているので全ての本が入るような本棚を用意する。つまりというようなものを想像する。この本棚は8冊の本が並んでいるが左から5冊目の本が他よりも背が高い。このため5冊目の本に合わせて背の高い本棚が必要になる。だが他の本は5冊目の本ほどに背が高くないので、5冊目が

hiromark 2011/11/13

あとでよむ。

リンク

講義/早稲田大学/データベース特論 - fukudat

早稲田大学大学院理工学研究科コンピュータ・ネットワーク専攻の修士課程向けの講義オンライン分析処理およびデータマイニングについての具体的な研究を取り上げ，研究課題とその解決アプローチを探求する。 2004年度〜2018年度現在継続中後期火曜日 5時限目 2単位教科書 | 参考書 (Suggested Reading) シラバスお知らせ (新しいものが上; Newest comes first) An assignment has been given. 課題を出題しました。 I will cancel Lecture on 2018/12/18. I will cancel Lecture on 2018/11/27. I will cancel Lecture on 2018/11/20. I will cancel Lecture on 2018/11/6. 2018年度

hiromark 2011/02/08

読みたい。

リンク

乱択アルゴリズム紹介(3SATのO(1.334^n)時間アルゴリズム) | Preferred Research

\(\mathcal{C} = (x \vee y \vee z) \wedge (\neg x \vee y \vee z) \wedge (y \vee \neg z \vee w)\). 上の例だと、例えば\(\alpha(x) = \mathrm{true}, \alpha(y) = \mathrm{true}, \alpha(z) = \mathrm{false}, \alpha(w) = \mathrm{false}\)とすれば全ての節を充足することが出来ます。 3SATはNP完全なので全てのNPに属す問題は3SATとして解けるのですが、そうでなくても多くの問題から”自然”に3SATが導出されます。なので3SATを解くアルゴリズムを考えましょう。一番自明なアルゴリズムは次のようになると思います。変数の数を\(n\)、節の数を\(m\)としましょう。

hiromark 2011/01/29

ざーっと読んだけど興味深そう。

リンク

marisa-trie における rank/select の実装 - やた＠はてな日記

概要 rank/select は簡潔データ構造（Succinct Data Structures）の核になる関数です．ビット列の k ビット目までに含まれる 0, 1 の数を求めるのが rank，k 番目の 0, 1 の位置（Index）を求めるのが select であり，ビット列の密度（1 の割合）によって，いろいろな実装があります． marisa-trie では，0, 1 の割合が極端に偏らないビット列を想定するとともに，32-bit 環境における性能の劣化を防ぐために，64-bit 整数を使わないようにしました．そのため，ほとんどの部分は以前に開発したライブラリからの流用ですが，新しく書き直した部分もあります．ちなみに，索引のサイズはビット列の長さ n bits に対して (1/4)n bits です．基本ビット列の実装ビット列の格納には 32-bit 整数の配列を使っています

hiromark 2011/01/19

あとでよむ。

リンク

Topcoder

Topcoder is a crowdsourcing marketplace that connects businesses with hard-to-find expertise. The Topcoder Community includes more than one million of the world’s top designers, developers, data scientists, and algorithmists. Global enterprises and startups alike use Topcoder to accelerate innovation, solve challenging probl ems, and tap into specialized skills on demand.

hiromark 2010/12/12

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の

hiromark 2010/11/19

あとでよむ。

リンク

講演その２と今後の予定 - Yasuo Tabeiの日記

東京工業大学の杉山研究室でSketchSort法に関する講演をさせていただきました。杉山研はいろいろな国からの留学生が多くゼミでの公用語は英語だそうです。企業と同様に大学の研究室単位でもグローバル化しているようです。ツッコミも激しかった。杉山研での発表のためにスライドを少し修正したので再アップしました。またまた英語で発表したので英語のスライドになっております。 Sketch sort sugiyamalab-20101026 - publicView more presentations from tbyasu. 今後の予定 11月4日〜6日に行われるibis2010にて以下のタイトルでポスター発表します。「大規模化合物のスケッチ表現によるクラスタリング」 http://ibis-workshop.org/2010/index.html SketchSort法を2千５百万からなる化合物デ

hiromark 2010/11/03

ちょっと深追いしてみたい。

リンク

第3回　ベイジアンフィルタを実装してみよう | gihyo.jp

さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。ベイジアンフィルタの実装ここから本格的にベイジアンフィルタの実装に入っていきます。その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。リスト2　文章の分割をする関数（naivebayes.py） # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

hiromark 2010/08/23

あとでよんでみる。

リンク

ACM/ICPC国内予選突破の手引き

ACM/ICPCの2008年度の大会日程が公開されています。国内予選は2008年7月4日，アジア地区予選会津大会は2008年10月25日～27日でホスト校は会津大学です。参加登録締め切りは2008年6月20日です。ここではACM/ICPC（ACM国際大学対抗プログラミングコンテスト: ACM International Collegiate Programming Contest）で国内予選を突破するために必要な情報を載せています。 ACM/ICPC自体については2006年度の横浜大会のWebサイトなどを読んでください。結局のところ，ACM/ICPCで良い成績を残すにはひたすら問題を解く練習をするしかありません。ですが，出題される問題の多くはいくつかのカテゴリ，例えば探索問題やグラフ問題，あるいは幾何問題などに分類することができます。つまり，「傾向と対策」が存在します。本サ

hiromark 2009/08/07

ICPC に限らず勉強になる。お盆休みにじっくり読む。

リンク

PRoxy Diary(2009-02-04) - [研究室] STOCの論文の内容

hiromark 2009/02/05

興味深い。

リンク

ニコニコ動画の大規模なデータに対するタグ付けとリンク解析 - 武蔵野日記

ニコニコ動画データ分析研究発表会というのが開催されていたようだ。タイトルや説明文はノイジーなので、動画につけられたタグを使うと割ときれいなデータとして可視化したりできる、という話は、はてなブックマークの関連エントリー機能のときも聞いたような話で、基本的にはインターネットユーザに無料でデータのタグ付けをしてもらっている、という話なんだろうな、と思う。以前紹介したRion Snow の論文 (彼は2005年に Microsoft Research でインターンし、2006年に Powerset (現在は Microsoft に買収済み)、2007年には Google でインターンした人物。ACL という自然言語処理のトップカンファレンスで2006年にベストペーパー受賞)で、今年の Rion Snow のトークは、Amazon Mechanical Turkというシステムを使って、非常に安価

hiromark 2009/01/27

深追いしてみたい。時間がないので今後の課題。

リンク

Link Analysis and Related Topics - Home

2008年度先端情報科学特論 II & IV リンク解析と周辺の話題担当新保仁 shimbo@is.naist.jp 日時 2008/11/10, 11/17, 12/1, 12/8 (全 4 回) - 4限 15:10-16:40 場所情報棟 L3 講義室リンク解析は, グラフ (ネットワーク) データの構造から有用な情報を抽出するための, データマイニングの一研究分野です. この講義ではまず, リンク解析が取り扱う 2 種類の尺度 (重要度と関連度) について述べ, それぞれの代表的な計算手法を紹介します. 後半では, 近年機械学習分野で盛んに研究されているカーネルのうち, グラフ上の節点に対して定義されたカーネル (グラフカーネル) と, そのリンク解析への応用について紹介します. 第1回 11月10日スライド第2回 11月17日スライド第3回 12月1日

hiromark 2009/01/26

あとでじっくり読む。

リンク

DO++ : 最長一致文字列の話

たまには自分の研究紹介 D. Okanohara, K. Sadakane. "An Online Algorithm for Finding the Longest Previous Factors". In the 16th European Symposium on Algorithms. Sep 2008. to appear. [pdf(draft)] この研究では文字列を順々に読んでいったとき、各位置で過去に一番長くマッチした部分文字列を報告する問題を扱ってます。圧縮のLZ77法を知っているなら、マッチする部分を見つける部分を解いてます。で、圧縮以外にもいろいろなパターンマッチング問題とか、インデクシングとか、データマイニングとかいろいろなことにこの情報が利用できるということが知られてるみたいです。で、大抵はハッシュやtrieを組んで履歴を探すんですが、今回対象にするのはテキ

hiromark 2009/01/19

未読。

リンク

昨年の論文をふりかえる - DO++

新年すっかりあけてました。今年もよろしくお願いします。年末年始はドタバタして昨年を振り返られなかったのですが、せっかくなので2008年に読んだ論文で私個人のベスト５を以下に列挙してみます。 D. Sontag, et. al. "Tightening LP Relaxations for MAP using Message Passing", UAI 2008 [pdf] Graphical ModelのMAP推定問題で従来解けなかった規模の複雑さの問題を高速にしかも最大であるという保障付きで解けるようにした。書いたメンバーはこの問題に関するオールスターのような感じ。解く問題は、n個の頂点からなるグラフで、各頂点には変数x1...xnがついていて、各頂点と各枝に対し関数gi(xi)、gij(xi,xj)が与えられた時、∑i gi(xi) + ∑ij gij(xi,xj)が最大となるよう

hiromark 2009/01/16

UAI 2008 の論文とか面白そう。要調査。

リンク

Confidence Weighted Linear Classificationを読んだ - 射撃しつつ前転改

ICML2008で発表されたDredzeらのConfidence Weighted Linear Classificationを読んだ。これは線形分類器を学習する新しいオンライン学習型アルゴリズムの提案である。すぐに使える実装としてはOLLというオープンソースのライブラリがあり、実際に良い実験結果が出ているようだ。 Confidence Weightedのアイデアは、よく出てくる素性に関しては一回の更新における数値の変更量を減らしてやり、あまり出てこない素性に関しては、一回の更新でぐっと値を変更してやろう、というものである。こういった新しい更新方法を考案した動機を明らかにするために、Perceptronを使って、単語を素性として評判分類の学習を行うような問題を考えてみる。肯定的な評価のサンプルとして"I liked this author."というものがあったとすると、このサンプルの分類

hiromark 2008/12/27

"パラメータを多次元正規分布から生成されたものと考え、その分散を信頼度として扱うことで、収束の早い線形識別器の学習アルゴリズム"、ちょっと深追いしてみたい。

リンク

scale out の技術〜 consistent hashing 編 (cloud 研究会, December 19, 2008)

scale out の技術〜 consistent hashing 編首藤一幸 2008年 12月 19日 cloud 研究会 (丸山不二夫氏主宰) スライド: shudo-cloud-scaleout-20081219.pdf (PDF ファイル, 840 KB) 関連資料: オーバレイによる分散キャッシュ: ウェブページ (21 pages, HTML) Unstructured overlay と Sturectured overlay: ウェブページ (34 pages, HTML) Back to Publications のページ首藤のページ scale out の方策

hiromark 2008/12/20

この辺もきっちり勉強してみたい。

リンク

はてなブログ | 無料ブログを作成しよう

また冷やし豆乳坦々麺今年になって2度目の冷やし豆乳坦々麺です。ピリ辛の肉味噌と少し甘めの練りごまたっぷりの豆乳スープが美味しくて、自分が作ったものなのに美味しい！を連発してしまいます。先回は絵的にあまり美味しそうに見えなかったので、今回は白髪ネギ以外に茹でた青梗菜と半…

hiromark 2008/12/17

シンプルですね。論文追っかけてみたい。

リンク

しかしSVMも最近は速いらしい - 射撃しつつ前転改

Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライブラリがある。ライブラリ名から推測できる通り、liblinearではカーネルを使うことが出来ない。しかし、その分速度が速く、大規模データに適用できるという利点がある。 liblinearを作っているのはlibsvmと同じ研究グループで、Chih-Jen Linがプロジェクトリーダーであるようだ。libsvmはかなり有名なライブラリで、liblinearにはそういった意味で安心感がある。（liblinearの方は公開されてしばらくは割とバグがあったらしいけど。） liblinearにはL1-SVM, L

hiromark 2008/12/17

SVM も頑張っているというお話。詳細フォローしなきゃ。

リンク

はてなブログ | 無料ブログを作成しよう

家のなかを森にしたい、という欲望今年はなんだか観葉植物の観察が楽しい。本日は植物についての記事ですが、土や根っこなどの画像もあるので苦手な方は避けてくださいね。フィカス・ウンベラータうちのメイン的存在はフィカス・ウンベラータ。ウンベ殿が我が家にやってきたのは2020年5月。コロナ禍初…

hiromark 2008/12/12

おお、おもしろい。うまくつかえば色々なところに応用ききそう (論文はまだ未読)。

リンク

Programming Topics

This page will contain links to a series of essays on computer chess topics, as I have time to write them. The topics are oriented toward those who want to write their own chess program, or understand how chess programs work. I do not mean to describe ever conceivable way of writing a chess program. It is my intent to talk about common techniques, in some cases with a personal perspective since I

hiromark 2008/12/04

うわ、すごい勉強になりそう。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

algorithmとtodoに関するhiromarkのブックマーク (20)

お知らせ

月間はてなブックマーク数ランキング（2025年11月）

今週のはてなブックマーク数ランキング（2025年11月第5週）

今週のはてなブックマーク数ランキング（2025年11月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス