The rsync algorithmNext: The problem The rsync algorithm Andrew Tridgell Paul Mackerras Department of Computer Science Australian National University Canberra, ACT 0200, Australia Abstract: This report presents an algorithm for updati... 続きを読む
プログラマが解くのに1時間かかる問題を機械学習に放り込む話 By ぱろすけ on 4月 11th, 2012 皆様、 Twitter やら facebook で数カ月前に爆発的に拡散された以下の問題をご存知でしょうか。 ご存知の方が多いでしょうね。単に、イコールの左側の4つの数字の丸... 続きを読む
最近話題の「日本語入力を支える技術」を途中まで読んだ。3章がものすごく気合いが入っている。trie(トライ)というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。ダブル配列については、ぼくは以前論文を読んで勉強しよ... 続きを読む
21:45 11/12/15 今年読んだ面白コンピュータサイエンス論文紹介カレンダー 第2日の参加記事です。 「先延ばし屋の予定帳」 [1] M. A. Bender, R. Clifford, and K. Tsichlas. "Scheduling Algorithms for Procrastinators." Journal of Scheduling 11, 95-104,... 続きを読む
フーリエ変換、ラプラス変換 フーリエ変換とは、ある任意の時間信号を周波数領域で表したものです。 フーリエ変換論をまくしたててやろうかとも思ったんですが、多分誰も読まないので、端折って、回路に使う解説とします。 数学的には、フーリエ変換はアダマー... 続きを読む
調和解析において重要な役割を演じるフーリエ変換(フーリエへんかん, Fourier transform)は、関数変換を行う線型作用素の一種である。フーリエ変換は関数をその周波成分の連続スペクトルに分解すること、同様にフーリエ逆変換は連続スペクトルから関数を復元... 続きを読む
The Fourier transform is one of the most fundamental concepts in the information sciences. It’s a method for representing an irregular signal — such as the voltage fluctuations in the wire that connects an MP3 player to a loudspeaker — as ... 続きを読む
大規模グラフアルゴリズムの最先端 — Presentation Transcript 2012/01/12 PFI セミナー 大規模グラフアルゴリズムの 最先端 秋葉 拓哉 (@iwiwi) 挨拶• 自己紹介 – 秋葉拓哉 / @iwiwi – 東京大学 コンピュータ科学専攻 M1 – アルゴリズム系の研究室 – プ... 続きを読む
計算機科学検索エンジンの転置インデックスなどデータ列を小さいデータサイズで持たせたい、という状況がある。こういう場合圧縮符号を使うのが一般的でunary符号やgamma符号、delta符号など様々な種類がある。圧縮符号の中でイチオシなのがvertical code(vcode... 続きを読む
Lock-freeとWait-freeアルゴリズムとは、共有データにロックをかけて保護するアルゴリズムとは違い、複数のスレッドが同時並行的に、ある対象データを壊すことなしに読み書きすることを可能にするアルゴリズムである。Lock-free とはスレッドがロックしないこと... 続きを読む
ラムダ計算(lambda calculus)は、理論計算機科学や数理論理学における、関数の定義と実行を抽象化した計算体系である。ラムダ算法とも言う。 [編集] 概要 関数を文字ラムダ (λ) を使った式によって表記する。アロンゾ・チャーチとスティーヴン・コール・クリ... 続きを読む
@shibataismさんが、日経Bizアカデミーに「日本のエンジニアはシリコンバレーで通用するのか?」という記事を書いている。 「僕は文系だけど、エンジニアとして一流だ」と自己主張する人がいますが、採用側から見て実際にそうであることは稀です。シリコンバレ... 続きを読む
連続単語認識アルゴリズムとして最も基本的なアルゴリズムは、tree-trellis サーチである。 このアルゴリズムは、テストデータ全てに対して全ての可能性を計算するため、 計算量、メモリ量は膨大になる。しかし、N位までの累積尤度の単語列(N-best リスト)を出... 続きを読む
HMMは、不確定な時系列のデータをモデル化するための有効な統計的 手法である[4]。HMMは、出力シンボルによって一意に状態遷移先が 決まらないという意味での非決定性確率有限オートマトンとして定義される。 出力シンボル系列が与えられても状態遷移系列は唯一... 続きを読む
Viterbi アルゴリズムはモデルにおいて 最適な状態系列(最適経路) と、この経路上での確率を求 めるアルゴリズムである。 モデルにおいて観測系列 に対する最 適な状態系列 を求めるために、時刻で状 態に至るまでの最適状態確率 を定義する。 続きを読む
リストの循環チェックアルゴリズムといえば、兎と亀のアルゴリズムが有名だけど、ふと疑問がわいたのでさらっと検証してみた話。 時間も労力もかけたエントリではないけど、まぁいいかと。 兎と亀のアルゴリズムというのは、リスト構造を2つづつ辿るポインタ(... 続きを読む
岡野原です。 ブログの更新がとまっていましたが、また少しずつ更新してきたいと思います。 今回はtrie(トライ)の最近の話をしたいと思います。 trieはキー集合を扱うためのデータ構造の一種です。例えば、単語集合からなる辞書であったり、クロールしたURL情... 続きを読む
統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさ... 続きを読む
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. MapReduceによる大規模データを利用した機械学習 - Presentation Transcript MapReduceによる大... 続きを読む
Learning to estimate query difficulty: including applications to missing content detection and distributed information retrievalSIGIR 2005のbest paper.目的ある検索システムに対して投げられた検索クエリがどれほど難しいのかを測りたい.めんどくさ... 続きを読む
英語ページの「JR乗車券のルー ル」の運賃計算ルール紹介のために、旅客営業規則(旅規)の運賃計算ルールを読み直して、あらためてその複雑さに唖然とした。 ここまで複雑になったのは、1996年1月のJR北海道、JR四国及びJR九州(三島会社)の運賃改訂の結果で... 続きを読む
進撃の巨人3巻が11月に発売されるものと勘違いして本屋を探し回っていましたが、発売日は12月7日でした。徳永です。 前回は、確率的勾配降下法(SGD)について説明しました。今回はいよいよ、劣微分を用いた最適化手法に付いての説明をおこないます。 前回の復... 続きを読む
現在の多くのWebサイトでは,Webサーバ上で動作するプログラムで,データベースへのクエリを行い,動的にWebページを生成する処理が行われている.我々は,部分評価の手法を応用し,こうした動的Webページの生成を高速化するシステムを開発している.このシステムは,We... 続きを読む
研究のねらい 研 究 内 容 研究のポイント 図3.構文解析木の各ノードの追跡(signal.c)図2.Emacsエディタの進化系統樹 図1.木差分計算の仕組み ソースコードに限らず、多くの人工データは木構造で表 現されます。本研究では、木構造の間の差異を高速に... 続きを読む
人間には卓越した学習能力が備わっている.人間は目で見たり,耳で聞いたものが何であるかをいとも簡単に認識できる.また,未知の環境に適応する能力も優れている.それに対し,コンピュータは,与えられた指示(プログラム)どおりに高速に計算を行う能力にお... 続きを読む
サポートベクターマシン(Support vector machine; 以降 SVM と表記)は、 教師あり学習を用いる識別手法の一つである。 パターン認識や回帰分析へ適用できる。 [編集] 基本的な考え方 SVMではデータを二つの種類に分離するために、各データ点との距離が最大とな... 続きを読む
はじめに 円周率の小数点以下d桁目を求めるためには、1,2,3,...,d-1桁目を計算しなければならないと考えられてきました。ところが1995年にSimon Plouffe(プラウフ)により発見された公式を用いると、円周率の16進数表示のd桁目をピンポイントに求められることが... 続きを読む
A cryptographic hash function (specifically, SHA-1) at work. Note that even small changes in the source input (here in the word "over") drastically change the resulting output, by the so-called avalanche effect. A cryptographic hash function ... 続きを読む
このような研究は企業の方が取り組みが積極的です。 ユーザの行動パターンだけでも、個人認証とか 不正アクセス検知できないことはありません。 この基礎となる理論が 動的モデル選択とその異常行動検出への応用 松永祐子 山西健司 NEC インターネットシステ... 続きを読む
mac2010年7月20日、QuickDrawのソースコードがダウンロード可能になったらしい。MacPaint と QuickDraw のソースコード、公開される - スラッシュドット・ジャパンyebo blog: AppleがMacPaintとQuickDrawのソースコードを寄贈QuickDrawは、Lisaや初代Macintosh... 続きを読む
きのう(米国時間4/21)のf8デベロッパカンファレンスで、FacebookのエンジニアRuchi SanghviとAri Steinbergが、おそらく初めて、Facebook News Feedの基盤的な部分について詳しく説明した。それはユーザがログインしたとき最初に目にするページだから、とても... 続きを読む
« MeCab 0.90 業務連絡 | メイン | C++の設計と進化 » 2005年01月21日 素性選択 素性選択といえば、古典的な話だが、 最近は冗長性を排除する素性選択というのがちらほら出てきている。 たとえば、素性の数を100個に限定したいとき、 クラスとの相関性(相互情... 続きを読む
※二分探索を行うためには単語と文書IDはソート済みでなければならない [編集] 再現率と適合率 全文検索システムの評価指標のひとつとして「再現率 recall」と「適合率(精度) precision」が用いられる。前者は「いかに検索漏れが少ないか」をあらわし後者は「... 続きを読む
将棋 先週末のニュース。情報処理学会が「名人に伍する力ありと情報処理学会が認める迄に強いコンピューター将棋を完成致しました」として、将棋連盟に挑戦状を叩きつけました。 情報処理学会が将棋連盟に挑戦状 米長会長、「いい度胸」と受けて立つ - ITmedia... 続きを読む
Javamakeplex salon:あなたのスキルで飯は食えるか? 史上最大のコーディングスキル判定 (2/2) - ITmedia エンタープライズにある問題を解いてみた.順子を優先で取る戦略で再帰をまわす作戦で実装した.七対子については言及されてなかったから実装しなかっ... 続きを読む
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. プログラミングコンテストでのデータ構造 - Presentation Transcript 2010/03/20 NTTデータ駒場... 続きを読む
1.基本構造 2.パーセプトロン 3.競合学習 4.バックプロパゲーション 1.基本構造 構造 脳の中には多数のニューロン(神経細胞)が存在しています.各ニューロンは,多数の他のニューロンから信号を受け取り,また,他の多数のニューロンへ信号を受け渡... 続きを読む
ニューラルネットワーク(Neural network)は、脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデルである。生物学や神経科学との区別のため、人工ニューラルネットワークとも呼ばれる。 シナプスの結合により... 続きを読む
macQuicksilverの検索性能が、感性をくすぐってきた。「apple」→「AppleScript Editor」「ase」→「AppleScript Editor」「prol」→「Property List Editor」「im」と入力して、「Image Capture」を起動したいが、「iMove」がトップヒットになってしまう...。 ... 続きを読む
はじめに 私と同様に大量の文章を書く人なら、Microsoft Wordの変更履歴機能のことはよくご存じでしょう。この機能を利用すると、バージョンの異なるWordファイル間でどの箇所が変更されたかを簡単に見分けることができます。 しかし、プレーンテキストファイル... 続きを読む
はじめに 私と同様に大量の文章を書く人なら、Microsoft Wordの変更履歴機能のことはよくご存じでしょう。この機能を利用すると、バージョンの異なるWordファイル間でどの箇所が変更されたかを簡単に見分けることができます。 しかし、プレーンテキストファイル... 続きを読む
博論終わったので仕事の合間にfujimapというライブラリを作ってみました。 fujimap project fujimapは作業領域が非常に小さい連想配列で、文字列からなるKeyを利用して、整数値もしくは文字列からなるValueを登録・参照することができるライブラリです。 今巷で... 続きを読む
クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけ... 続きを読む
#4:テクニック 世界観・主要キャラ・依頼人と、レイプマンワールドの外殻を紹介してきたところで、 今回は超一流のレイパーが誇る、その華麗なる秘技の数々を御紹介したいと思います。 <その1:前戯編> まずレイプマンのレイプは、獲物を捕獲し拘束すると... 続きを読む
最強最速アルゴリズマー養成講座:トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター (1/4) プログラミングにおける重要な概念である「探索」を最速でマスターするために、今回は少し応用となる探索手法などを紹介しながら、そ... 続きを読む
as詳解 ActionScript 3.0アニメーション ―衝突判定・AI・3DからピクセルシェーダまでFlash上級テクニック を読んでいて、経路探索のアルゴリズムで A* が取り上げられていました。A* については、いろいろ検索して調べたりもしたのですが、やっぱり本に書いて... 続きを読む
プログラミング, Python出遅れた感があるけど、人材獲得作戦の試験問題をPythonで解いてみた。もちろん、調べたりググったりするの禁止で。というかググればコピペで終わりのような気がする。今回はゆるめの記事なので、メインのブログではなく、こちらに書いて... 続きを読む
A*で解いてみた。距離はマンハッタン使った。 迷路やった maze = ["**************************", "*S* * *", "* * * * ************* *", "* * * ************ *", "* * *", "************** ***********", "* *", "** ***********************", "* * G *", "... 続きを読む
概要 テキストエディタのためのバッファの各種データ構造について述べ、 それらを筆者がC++で STLに準じたインタフェースを持つテンプレートクラスとして実装したものについて、 パフォーマンス(処理速度、使用メモリ量)計測を行った結果を報告する。 筆者が... 続きを読む
実家に帰省中,電車の中で読んでた論文の紹介。 概要k-meansはクラスタリングテクニックとして非常に基本的な手法である。しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であ... 続きを読む
山田浩之 全文検索エンジン「Lux」を開発し,08年度上期のIPA認定スーパークリエータに選ばれた著者が語る,検索エンジンのエッセンス。 続きを読む
insertion sortは「挿入ソート」と訳される。(Wikipedia→ http://ja.wikipedia.org/wiki/%E6%8C%BF%E5%85%A5%E3%82%BD%E3%83%BC%E3%83%88 ) ■ 日本語版 Wikipediaの日本語のページのコードを引用すると次のようになっている。 for (i = 1; i 0 && data[j-1] ... 続きを読む
abstract 必要なヘッダ <boost/lambda/lambda.hpp> 基本, <boost/lambda/bind.hpp> 関数を使いたいとき, <boost/lambda/if.hpp> if, elseを使いたいとき, <boost/lambda/loops.hpp> for, while, <boost/lambda/switch.hpp> switch, case, <boost/lambda/constru... 続きを読む
キーに対して値を結びつける連想配列は多くのアプリケーションの肝であり、コンパクトかつ高速な処理が可能な連想配列を追い求め日夜研究が進められています。 特に非常に巨大な連想配列を高速に処理するというのが重要な課題となっています。例えば、音声認識... 続きを読む
ここでは、プログラムなどでよく使用されるアルゴリズムについて紹介したいと思います。 元々は、自分の頭の中を整理することを目的にこのコーナーを開設してみたのですが、最近は継続させることを目的に新しいネタを探すようになってきました。まだまだ面白い... 続きを読む
最強最速アルゴリズマー養成講座: オーダーを極める思考法 プログラムの実行に掛かる時間を把握しておくのは、プログラミングを行う上で基本的な注意点です。今回は、計算量のオーダーについて学びながら、TopCoderのMedium問題を考えてみましょう。(2009/8/2... 続きを読む
[an error occurred while processing this directive] 最強最速アルゴリズマー養成講座:「1000のアルゴリズムを持つ男」vs.「やわらか頭脳」 (1/3) 典型的なアルゴリズムをたくさん知っている人間が最強か――? いいえ、典型的なアルゴリズムを知らなくても... 続きを読む
2009年10月5日 Python: 画像で与えられた迷路に対し2点間の最短経路を求める 迷路の描かれた画像に対して、ピクセルの座標で指定したスタート地点とゴール地点の最短経路を求めるプログラムをPythonで書いてみた。使用する画像は、デジカメで撮ったものでも、ウ... 続きを読む
What is FLANN? FLANN is a library for performing fast approximate nearest neighbor searches in high dimensional spaces. It contains a collection of algorithms we found to work best for nearest neighbor search and a system for automatically ch... 続きを読む
CPANのHTML::ExtractContentについて発表。発表資料:http://up.orezdnu.org/papers/Kansai.pm/2009-03-22/slide.pdf 続きを読む
分布推定アルゴリズム。遺伝的アルゴリズムを改良した物です。個体の集合を交叉・突然変異させるのではなく、個体の生成確率を進化させます。最適化問題のアルゴリズムです。以下、自分へのメモです。わかったことが増えたら追記するかも。ビットストリング計算... 続きを読む
現在最高の圧縮効率を誇るAVC/H.264は1GbpsのフルHDTVを10Mbps以下に圧縮できる。1/100以上の圧縮率ということになるが、次世代beyond HDTVの8k4kの空間解像度、60〜300fpsの時間解像度、マルチスペクトルの色表現、10〜16bit/pelの画素値深度、複数視点を考え... 続きを読む