[B! algorithm][search] overlastのブックマーク

overlast id:overlast

algorithmとsearchに関するoverlastのブックマーク (13)

転置インデックスの圧縮技法
転置インデックスは、検索エンジンの実装において、中心的な役割を果たすデータ構造である。転置インデックスのデータ構造とアルゴリズムは、クエリ処理アルゴリズムとともに、検索エンジンの性能に直結する。とくに大規模な検索エンジンにおいては、キャッシュ効率を高めてクエリ処理を高速化するために、転置インデックスの圧縮は必要不可欠となっている。この記事では、転置インデックス、とくにポスティングリストの圧縮について、近年の手法を簡単にまとめる。目次転置インデックスの基本転置インデックスのデータ構造と特性転置インデックスのアクセスパターン近年のインデックス圧縮技法 Variable-Byte Family VByte Varint-GB Varint-G8IU Masked-VByte Stream-VByte Opt-VByte Simple Family Simple9 Simple16
overlast 2022/11/11
search

compression

algorithm
リンク
英語論文執筆のために arXiv からの例文検索サービスを作った話
arXiv の論文から例文を検索する Hyper Collocation というサービスを公開しました．以下はあまり整理されていない製作の記録です．英語論文執筆用の例文検索サービス英語での論文執筆の際に，専門用語を含む例文や言い回しのパターンを知りたいことが多々あります．有用なサービスとしてはライフサイエンス辞書のコーパス検索 Springer Exemplar (2018/2/1頃に終了) がありますが，データがライフサイエンス系の論文に限られている（ライフサイエンス辞書）ソートの基準が頻度順ではないため典型的な例文が上位にこないストップワードに近い頻出語を検索した際の検索が重い（Springer Exemplar）表示可能な検索結果が偏る（ライフサイエンス辞書）という不満点があったので，並行して個人的な資料から検索を行うプログラムを作って使っていました．しかし，個
overlast 2018/02/16
"Succinct Data Structure Library (中略) 24GBのコーパスを5GB程度のインデックスに圧縮でき，スニペット200個を1秒程度で返せる速さになった"

algorithm

compression

search
リンク
多腕バンディットによる表示コンテンツの最適化 - クックパッド開発者ブログ
こんにちは。技術部検索グループの原島です。上の画像は、スマートフォン（ブラウザ版）で見たクックパッドの検索結果ページです。レシピだけでなく、ニュースも表示されていますね。献立や掲示板のスレッドなどが表示されることもあります。クックパッドでは、検索結果ページに表示するコンテンツをクエリなどに応じて最適化しています。最適化は、膨大なログデータと最新の機械学習を用いることで、実現しています。このエントリでは、クックパッドにおけるコンテンツ最適化の裏側を紹介します。最適化の背景スマートフォンの普及に伴って、ユーザが利用するプラットフォームは PC からモバイルにシフトしつつあります。クックパッドにおけるモバイル利用者の割合も、ここ 2 年で 10% 以上増加しました。最近では、60% 以上のユーザがモバイルからアクセスしています。ユーザの利用形態が変化すれば、検索結果ページもその変化に対
overlast 2014/10/29
machinelearning

algorithm

search
リンク
ウェーブレット行列とウェーブレット木の性能比較をしてみた - EchizenBlog-Zwei
FM-Indexで用いる簡潔データ列としてウェーブレット行列とウェーブレット木のどちらがいけてるのかを調べてみた。データは以下の実験で用いた住所データを使った。 http://d.hatena.ne.jp/echizen_tm/20120215/1329315913 データサイズはウェーブレット行列: 5, 693, 256 byte ウェーブレット木: 5, 709, 560 byteとなった。ビット列のセパレータ数が少ないぶんウェーブレット行列のほうがやや小さい。速度についてはsample/search_fm_indexを用いてインデックスした住所データ(118,073件)をシャッフルしたものをクエリとして全件検索にかかる時間を測った。 $$ time sample/search_fm_index var/zenkoku.key.fm.wm m y < var/zenkoku.s
overlast 2012/08/16
algorithm

search

data structure
リンク
Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。スライドの入手元：Jeffrey Dean – Google AI 検索システムに取り組む理由チャレンジングなサイエンスとエンジリアニングのブレンド多くの魅力的な未解決な問題が存在する。 CS（コンピュータサイエンス）の多数の領域にまたがる。アーキテクチャ、分散システム、アルゴリズム、圧
overlast 2010/02/03
search

google

algorithm
リンク
加藤和彦 Kazuhiko KATO, Dr. Prof.
overlast 2009/12/03
search

algorithm
リンク
類似画像検索システムを作ろう - 人工知能に関する断創録
C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleやYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文（Datta,2008）を読むと1990年代前半とけっこう昔から研究されてます。最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます
overlast 2009/10/04
algorithm

search

image
リンク
9月から新学期！スタンフォード、MIT、バークレイのコンピュータサイエンス講座をYouTubeで受講しよう
日本では9月といえば2学期の始まりですが、米国では9月が新学期のスタート。留学したつもりで海外の大学で行われているコンピュータサイエンスの講座を受講するのはいかがでしょうか？ YouTubeは今年の3月から、大学が公開している講義の動画を集めた「YouTube - EDU」コーナーを開始しました。スタンフォード、ハーバード、マサチューセッツ工科大学（MIT）、カリフォルニア大学バークレイ校（UC Berkeley）、そのほか多くの大学の講座が無料で見られます。内容はコンピュータサイエンスに限らず、政治、経済、著名人のオピニオンなどが幅広くカバーされています。 YouTube Eduには大量の講座が蓄積されているのですが、自分に興味のある講座を探してそれらを見るには、検索を繰り返したり授業ごとに分割された動画を順番に探したりと、少々手間がかかります。そこで、IT エンジニアの方が見て役に立
overlast 2009/09/02
education

algorithm

search
リンク
Burrows-Wheeler変換の線形時間アルゴリズム - DO++
研究紹介です。今夏のSPIRE 2009という学会で "A Linear-Time Burrows-Wheeler Transf orm using Induced Sorting", D. Okanohara, K. Sadakane, SPIRE 2009 pdf(draft) というのを発表します。これは与えられた文字列に対し接尾辞配列を経ないでBurrows-Wheeler変換を直接行うというもので、アルファベットサイズによらず入力長に対して線形時間で行えます。基本的なアイディアは昨年のInduced Sortingによる接尾辞配列の線形時間構築アルゴリズム（いわゆるSAIS）を接尾辞配列を使わないでシミュレートするものです。pushとpop操作だけからなり、そのまま外部記憶上での構築とかにも対応できるようになっています。 Burrows-Wheeler変換（BWT, Block S
overlast 2009/07/04
algorithm

search
リンク
転置インデックスを実装しよう - mixi engineer blog
相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。デモモチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら（テンプレートはこちら）です。でも、今回はUIの話ではないのです。ものすごく地味に、全文検索
overlast 2009/07/03
ぐいぐい読みました

algorithm

search
リンク
有効なWikiNameではありません - ACM-ICPC Japanese Alumni Group
Site admin: ACM-ICPC OB/OG の会 (ACM-ICPC Japanese Alumni Group) PukiWiki 1.4.6 Copyright © 2001-2005 PukiWiki Developers Team. License is GPL. Based on "PukiWiki" 1.3 by yu-ji. Powered by PHP 5.5.9-1ubuntu4.26. HTML convert time: 0.001 sec.
overlast 2009/02/17
algorithm

search
リンク
[を] 検索におけるテキスト走査とインデックス
検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、「テキスト走査による方法とインデックスによる方法の違い」をまとめました。この手の導入的解説は、私も過去の論文等の冒頭で何度も書いていたりするのですが、今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、「テキスト走査」による方法と「インデックス」による方法の大きく二つに分けられる（図）。テキスト走査（文字列照合 (string pattern maching)[2]）による方法は、単純に文書集合の先頭から最後まで検索キーを順番に照合していく。最低でも1回は最後まで走査しなければならないので
overlast 2008/01/21
nlp

algorithm

ir

search
リンク
http://rcwang.com/seal/
overlast 2007/08/20
algorithm

sets

search
リンク
1