岡野原です。 12/1〜12/2に高松で開催されたALSIP2011で文書解析のための簡潔データ構造の最近の進展について話をしてきました。 Succinct Data Structure for Analyzing Document Collection View more presentations from PFI Marketing ここの業界の進展は速... 続きを読む
4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エ... 続きを読む
本当はF値で使われている調和平均が相加平均,相乗平均よりも小さくなるという証明を書くつもりだったのだけれど,F値について調べているうちに知らなかった歴史が少しだけ紐解かれた.F値の初出について調べる余力がなかったので,F値の初出をご存じの方がいれ... 続きを読む
超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。 ポリシー 自分が思い出すために必要な情報をメモるだけよ 知ってることはあまりメ... 続きを読む
商品の説明内容紹介 推薦のことば 株式会社 プリファードインフラストラクチャー 岡野原 大輔 検索エンジンのしくみを、平易な文章と適切な比喩、そして古代から近代に かけての情報収集の歴史と対比させることでわかりやすく解説しています。 技術解説も手加減... 続きを読む
Python 製 Web マイニングモジュール「Pattern」 [日記] Python 製の Web マイニングモジュール「Pattern」の人気が急上昇しているようです。 - Pattern | CLiPS -- http://www.clips.ua.ac.be/pages/pattern それにしてもPatternなんて、なんという検索しにく... 続きを読む
NLP正確にはF1値と言うべきでしょうか.以前F値に調和平均を使う理由というエントリーで苦しい説明をしましたが,もうちょっとうまい説明が思いついたのでまとめてみました. 検索結果の評価指標に適合率 (precision) と再現率 (recall) があります.適合率は目... 続きを読む
計算機科学タイトルのブッチャーばんざい!は某ロマンシングなRPGより。以前@sleepy_yoshiさんにものすごい勢いで薦められて気になっていたButtcher本こと「Information Retrieval: Implementing and Evaluating Search Engines」がようやく手元にきたので読み... 続きを読む
新着情報 † 2010/12/01 † 笹野特定研究員が東京工業大学奥村研究室の助教として転出しました。 2010/10/15 † 黒橋教授が第9回ドコモ・モバイル・サイエンス賞(先端技術部門優秀賞)を受賞しました。 2010/10/01 † 河原准教授が着任しました。 続きを読む
年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元の... 続きを読む
Services Find all our Services for:AdvertisersAuthorsBooksellersBook ReviewersInstructorsLibrariansSocietiesSubscription Agencies We are happy to help you!Discounts & SpringerTokenDVD & CD-ROM SupportManage your AccountOnline Exam CopiesOrder... 続きを読む
商品の説明内容(「MARC」データベースより) 情報検索関連分野に携わる技術者・研究者・学部学生を対象に、主に文書に対する情報検索の各種要素技術とアルゴリズムについて解説。索引語の抽出と重み付け、ベクトル空間モデル、文字列照合、索引の利用など説明... 続きを読む
Steffen Rendle, Osaka University Christoph Freudenthaler, University of Hildesheim Lars Schmidt-Thieme, University of Hildesheim 続きを読む
去る12月16日、クックパッドさんのオフィスで行われたオーマxクックパッド勉強会にて「SPYSEEの新検索機能の裏側」というタイトルで発表してきました。クックパッドの皆様&見に来ていただいた皆様、どうもありがとうございました。発表スライドはこちらになり... 続きを読む
参加メモ:http://atnd.org/events/9234全文検索エンジンgroongaについて発表者: (有)未来検索ブラジル 末永 匡 a.k.a. グニャラくん全文検索エンジンSenna 2チャンネル検索のために作ったSennaの特徴(1) 高速なインデックス更新 参照ロックフリーなデータ構造を... 続きを読む
Baker&Taylor Table of Contents: Foreword xix Preface xxi Notation xxv I Foundations 1 (102) 1 Introduction 2 (31) 1.1 What is Information Retrieval? 2 (3) 1.1.1 Web Search 2 (1) 1.1.2 Other Search Applications 3 (1) 1.1.3 Other IR Applicatio... 続きを読む
すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。Luigi https://github.com/miki/Lui... 続きを読む
計算機科学@nokunoさんの好意で「第3回自然言語処理勉強会@東京」でCompressed Suffix Arrayについて発表させていただくことになりました。つきましては参考のため発表資料を以下に置いておきます。参加される方はもちろん、興味のある方はご覧になっていただ... 続きを読む
商品の説明内容説明 Information retrieval is the foundation for modern search engines. This text offers an introduction to the core topics underlying modern search technologies, including algorithms, data structures, indexing, retrieval, and e... 続きを読む
Introduction to Search Engines and Web Navigation An Introduction to Search Engines and Web Navigation By Mark Levene Wiley, October 2010 ISBN 047052684X, over 450 pages Book page on Amazon.co.uk and Amazon.com Description An authoritative, e... 続きを読む