[B! ir] tettsyunのブックマーク

Large Scale Learning to Rankを読んだ - 射撃しつつ前転改

本当は三が日中にまともなエントリを1本ぐらいは書く予定だったのだが、ちょっと無理だった。というわけで、実質的に新年一本目のエントリです。Large Scale Learning to Rank (D. Sculley, NIPS Workshop on Advances in Ranking, 2009) (pdf) を読んだので、1本目のエントリとしてこの論文を紹介したい。では早速本題に入ろう。順位学習において、Pairwise Learningを単純に行うと、n^2の学習コストがかかる。これは計算時間としては厳しい部類に入る。そもそも順位学習ってなに、という人は、WWW2009のチュートリアル(pdf)とかを参照してください。 Bottouらは、SGDの一般化能力はデータセットのサイズに依らず、どれだけのstochastic stepを実行したかで決まると言う事を示した。そこで、Sc

tettsyun 2010/04/09

Learning to rank

リンク

Top-k文書列挙問題 - DO++

いろいろとありまして去年読んだ論文で面白かったものランキングとか書けなかったのが残念ですが、もしあげるとしたら次の論文は入れると思います（知ったのは年明けだったけど）。 "Space-Efficient Framework for Top-k String Retrieval Probl ems", FOCS 2009, Wing Kai Hon, Rahul Shah and Jeffrey Scott Vitter (pdf) 扱っているのは次のような問題です（説明のため本来のと言い換えています） n個の葉からなる木が入力として与えられ，各葉には色（1以上d以下の整数とします）が与えられています．この時、木中の任意の節点と正整数kがクエリとして与えられたときに、その節点の子孫の中で出現回数が大きい色を順にk個答えよという問題です。簡単に思いつくのは，各節点に適当な個数(d)の答えをあ

tettsyun 2010/02/19

algorithm
ir

リンク

転置インデックスの圧縮 - tsubosakaの日記

Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。利用したデータは英語版Wikidiaの全記事で文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。無圧縮の転置インデックスのフォーマットは単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。これに対して各圧縮アルゴリズムを適用した結果はアルゴリズム無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

tettsyun 2010/01/05

リンク

加藤和彦 Kazuhiko KATO, Dr. Prof.

tettsyun 2009/12/23

suffix arrayを用いた検索エンジンの作り方

リンク

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

tettsyun 2009/11/29

SVDなど

リンク

Latent Semantic Indexing - naoyaのはてなダイアリー

情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

tettsyun 2009/11/29

LSI

ir
algorithm

リンク

Minise: MIni Search Engine

本ウェブサイトは現在工事中です．ソースコード公開は10/24頃を予定しています．概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです．検索対象の文章に対し索引を構築し，検索クエリに対する全文検索を行うことができます．索引の種類として逐次検索，転置ファイル，N-gram，接尾辞配列をサポートしています．また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます．主な利用用途として、小〜中規模の検索向けまた，教育用，研究用目的に使われることを想定されております．ダウンロード Miniseはフリーソフトウェアです．修正BSDライセンスに従って本ソフトウェアを使用，再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開使い方

tettsyun 2009/10/24

mini search engine

ir
c++

リンク

新学期のはじまりと情報検索システム論 - 武蔵野日記

M1 の人たちは今日から授業らしい。そろそろ研究で忙しくなってくるころかな？　自分も人生最後(hopefully)の授業料免除申請の書類を揃える。年々必要となる書類が増えるのはどうかと思うが、世の中厳しくなっているのであろう。自分は1回だけ不許可となったことがあるが、残りはずっと半額免除してもらっているので、だいぶ助かっている(年額26万円、月々2万円違う)。大学院、特に博士後期課程の授業料くらい、正規の年数滞在する人は全額免除でいいと思うのだけど……(長くいる場合は研究生と同じで徴収するのは分かるが)。最近ひょんなこと(=Twitter)から大阪市立大学大学院創造都市研究科なるものを知ったのだが、ここも NAIST と同じく大学院のみのようで、いろいろおもしろい授業をしているらしい(文系からも進学できるので)。たとえば情報検索システム論なんて授業で、半期で検索システムについて体系的に学

tettsyun 2009/10/08

ir

リンク

情報検索システム論

2009年度前期木曜4限「情報検索システム論」のページです。担当：村上晴美場所：学術情報総合センター 9階端末室B 講義主題と目標（シラバスより）インターネットやパソコンの普及に伴い、個人や集団が扱うデジタルデータは膨大な量になってきている。本講義では「WWWと検索エンジン」を例にあげ、テキスト処理を中心とする「情報検索システムの開発と評価」について説明する。情報検索システムに関する研究や業務を行うために必要な、基礎的な知識の修得を目標とする。授業計画受講者の興味に応じて省略や順番変更の可能性がある。第1回(4/ 9): コース概要、情報検索とは今日のテキスト『情報検索と言語処理』『情報検索の理論と技術』配布資料コース概要情報検索とはコース概要講義の内容と目標, 成績評価方法(予定), 教科書・参考書, Contact 情報検索とは情報検索とは,

tettsyun 2009/10/08

lecture
ir

リンク

全文検索システム Hyper Estraier

概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。インデックスを使った高速な検索ができます。大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。世界各国の言語が扱えます。対象文書の所在や形式に依存しません。賢いWebクローラが付属しています。ライブラリとして各種

tettsyun 2009/09/03

ir

リンク

Enju - A practical HPSG parser

Developed at: The University of Tokyo, Department of Computer Science, Tsujii laboratory Version 2.3 is available since July 24th, 2008 Online demo is available! Japanese page Contents Overview How to install Enju How to use Enju Demo and web interface Documentation A parsing model for biomedical text Publications Overview Enju is a syntactic parser for English. With a wide-coverage probabilist

tettsyun 2009/09/03

HOSG parser

nlp
ir

リンク

A fast CFG parser with chunk parsing

Overview This CFG parser offers a reasonable peformance (an f-score of 85%) with high-speed parsing (71 sentences/sec). If you need to parse a huge collection of documents such as a Web corpus, or to build an interactive (real-time) information extraction system, this parser could be useful. For details of the parser, see [1]. If you are looking for a high-precision CFG parser, try Charniak parse

tettsyun 2009/09/03

cfg parser

nlp
ir

リンク

Information Visualization for Search Interfaces (Ch 10) | Search User Interfaces | Marti Hearst | Cambridge University Press 2009

From the book Search User Interfaces, published by Cambridge University Press. Copyright © 2009 by Marti A. Hearst. The preceding chapters have discussed user interfaces to support search, with a focus on what is known to be successful (from a usability perspective) for the vast majority of searchers. This and the following chapter describe efforts to improve search interfaces by incorporating vis

tettsyun 2009/08/27

情報検索と視覚化

ir
interface

リンク

技術メモ/Nutch - PukiWiki

tettsyun 2009/08/11

nutch wiki

ir

リンク

第5回　全文検索エンジン「Lucene/Solr」を導入する

今回は実際にLinuxマシン上にSolr/Luceneをインストールします。インデックスにデータを投入した上で，Solr/Luceneに組み込まれている管理機能の画面から検索を実施するところまでを紹介します。今回の作業で必要になるモジュール類は以下の通りとなります。 - Solr（Luceneは同こん） - Java SDK（1.5以降） - lucene-ja（N-gram解析機能） - sen（形態素解析機能）なお，今回の作業では日本語解析モジュールを導入しますが，その中で形態素解析モジュール用の辞書の作成が必要になります。形態素解析モジュール用の辞書作成作業では以下のモジュールが必要になります。 - ant（1.7以降） - perl（5.0以降）では，導入作業を進めましょう。（1）Javaのインストールまず，最新のSolr 1.3ではJava 1.5以上のバージョンが必要

tettsyun 2009/08/11

lucene solr 検索エンジン

ir

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

tettsyun 2009/08/06

Aho Corasick mehod

ir

リンク

＠ＩＴ：オープンソース検索エンジン「Nutch」の実力

「Java FAQ（What's New）」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」（駆け足の要点説明）でお届けします。（編集局）検索エンジンの台頭現在、インターネットを利用するユーザーにとっても、インターネットで仕事やプログラム開発を行っているユーザーにとっても検索エンジンはとても重要なものです。SEO（Search Engine Optimization）という業種も確立し、新規インターネットビジネスサイトを立ち上げる際や、既存サイトのアクセス数を増加させたい場合、SEOが重要な意味を持つようになってきています。つまりWebデザインだけでなく、Webサイト（ページ）がどのように検索エンジンとかかわってくるのか、SEO分析や、SEOに関するノウハウが重要視されます。確かに便利な検索エンジンの台頭は歓迎されることです。一方

tettsyun 2009/07/16

Search engine Nutch crawler

ir

リンク

3行でできる超お手軽全文検索 - mixi engineer blog

梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。使い方テーブルデータベースについてまずおさらいしておきましょう。PerlやRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER

tettsyun 2009/06/29

リンク

第5回 N-gramのしくみ | gihyo.jp

前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS