タグ

検索に関するmkataigiのブックマーク (63)

  • この検索がおもしろい2012 :: デイリーポータルZ

    1980年大阪生まれ。プープーテレビでは管理人も。2006年8月ざんはわ名義で登場。嘘の記事で賛否両論呼ぶが翌年の忘年会で「やっぱなし」で決着。以降個人名義でまじめに書いてます。 > Twitter(@ohkitashigeto) 検索エンジンよりも個別サイト 検索といえばGoogleYahoo!(それに@searchも!)が有名である。 だけど例えば中古のナイキのスニーカーが欲しいとき、ヤフオクの検索窓で「ナイキ スニーカー」と検索した方が早く精度もいい。 今回はそんな個別サイトによる検索を軸として、その検索でどれだけ遊べるかを探っていく。 探るのはこちらの検索好き好きっ子ちゃんたち(全員オーバー30!)。

    mkataigi
    mkataigi 2012/03/06
    意外にもおもしろい
  • SimStringをRubyから使ってみた - #詰んでる日記

    SimStringは,類似文字列検索のための高速かつシンプルなライブラリです。 簡単にいえば「もしかして:〇〇」を簡単に実装できるライブラリですね。 詳しくは公式サイトを見てください。http://www.chokkan.org/software/simstring/ このライブラリはC++でできているのですが、公式サイトを見るとPythonRubyからも扱えるとのこと。Pythonのサンプルが載っていて普段ならこれでなんの問題もないのですが、最近仕事RubyをやっているのでRubyから使う方法が知りたくて調べました。 ビルド方法 基的には公式サイトの手順で問題ないのですが、注意点が少し有ります。 Ruby1.9系はインストール出来ない Macだとインストールはできるが、なんか動かない(っぽい) CentOS5.5にruby1.8.7だとあっさりできました。 データ投入 一番簡単なの

    SimStringをRubyから使ってみた - #詰んでる日記
  • 第12回 索引の分散 | gihyo.jp

    はじめに GoogleなどのWeb検索エンジンでは、2004年ごろには数10Tバイトの索引を数万台のサーバに分散させていたと言われています。これは、大量のデータを索引化したり大量のクエリを捌く必要がある際に、1台のマシンでは十分な速度が出ないことがあるためです。近年のハードウェアの進化はめまぐるしいですが、それでもハードウェアによるスケールアップには限界があるため、大規模な検索エンジンにおいて検索処理をスケールさせるには複数台のマシンの利用が不可欠となります。今回は、転置索引の複数のサーバへの分散方法について見ていきます。 複数台サーバにおける転置索引 複数のサーバを利用して検索処理を高速化させる方法には、索引のレプリケーション(replication)と索引の分散(distribution)の2つがあります。索引のレプリケーションとは、複数台のマシンに同じ転置索引(のコピー)を配置する方

    第12回 索引の分散 | gihyo.jp
  • 第9回 検索エンジンの開発にあたって | gihyo.jp

    はじめに 前回までで、検索エンジンの基となる仕組みの大枠は説明しました。 今回は、復習を兼ねてこれまでの連載全体を見ていき、検索エンジンを作る上で説明が足りなかった部分を補足していこうと思います。連載では実際のコードはあまり載せられませんが、ぜひこの際に簡単な検索エンジンを作ってみることをお勧めします。 全体の構成 第2回で紹介した検索エンジンの構成をもう一度見てみましょう。 図1 検索エンジンの構成 検索エンジンは索引とその索引を構築する部分、そしてその索引を検索する部分の3つに分けられることを説明しました。連載では、索引に関しては第3~6回、構築方法に関しては第7回、そして検索方法に関しては前回の第8回でそれぞれ説明してきました。各項目をとても足早に説明してきましたが、一応全部の要素がカバーされていますので、これまでの知識を使って簡単な検索エンジンを作ることはできてしまいます。

    第9回 検索エンジンの開発にあたって | gihyo.jp
  • The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

    巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました. ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました. The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際の

    The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ
  • 第7回 転置索引の構築 | gihyo.jp

    はじめに これまで、転置索引の構造や具体的なデータ構造を見てきました。今回は、検索したいテキスト文書から、どのようにこの構造を構築するかを説明していきます。 ディスクベースの構築方法 第3回では、表を作成しそれを転置させることで転置索引を構築しました。実際にコンピュータに処理をさせる場合も、メモリ上の2次元配列で同様に構築することが可能となります。しかし、通常の転置索引は非常に疎な表となるため、この方法ではメモリを使いすぎてしまいます。また、リンクリストなどのメモリ上でのデータ構造を用いることにより、上記の方法と比較して少ないメモリ量で構築することもできます。 これらの方法はいずれも、対象とする文書集合を変換した転置索引が実メモリに収まる場合にのみ可能となる方法となります。しかし多くの場合、転置索引は実メモリよりも大きくなります。そのような場合はディスクを用いた構築方法が必要となり、効率的

    第7回 転置索引の構築 | gihyo.jp
  • TechCrunch | Startup and Technology News

    Limited space! Get on waitlist to be the first to know when tickets go live!

    TechCrunch | Startup and Technology News
  • 野村総合研究所(NRI)

    Dream up the future. 未来創発 NRIグループは情熱と誇りを胸に、あくなき挑戦を続けていきます。 企業理念

    野村総合研究所(NRI)
  • 簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

    筑波大学は3学期制で,12月1日から3学期が始まりました.3学期には私が担当している学類生(普通の大学の学部生)3年生向けの実験があります.約3ヶ月を掛けて,ほどほどの規模のプログラム作成を行います.私が作り,担当しているプログラム実験は「Webサーチエンジン」といいまして,テキストはこちらに公開しています. この実験,結構,自信作なんです.Javaの基的なプログラミングができることだけを仮定して,漏れのない全文検索を行うWebサーエンジンを作ります.Webデータ収集を自動的に行うクローラー付き.Googleのようなページランキング機能はありませんが,一応,サーチエンジンの基機能を備えます.自慢は,このテキストが実質A4で印刷して2ページくらいであること.数学の小問を解いていくように,順番に小問を解いていくと,最後にはWebサーチエンジンができます. ミソはサフィックス・アレイ(suf

    簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦
  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
  • 第1回 検索エンジンとは | gihyo.jp

    はじめに 検索エンジンと聞くと、みなさんは何を思い浮かべるでしょうか? GoogleYahoo!などの検索ページを思い浮かべる方がほとんどだと思います。近年は、それら企業の努力によって検索エンジンというものが非常に身近になり、私たちの生活に欠かせないものとなりつつあります。 しかし、検索エンジンと一言で言っても、上記のような一般の方々へのUI(ユーザインターフェース)を指す場合もあれば、そのUIの裏側(バックエンド)にあるシステムを指す場合もあります。 連載では、Google,Yahoo!などを代表とする検索エンジンの裏側のしくみに着目し、検索エンジンというシステムのアーキテクチャやその内部で使われているデータ構造やアルゴリズムを、近年の手法や研究事例などを交えて解説していきたいと思っています。 検索エンジンとは 検索エンジンには、さまざまな種類があります。GoogleのWeb検索のよ

    第1回 検索エンジンとは | gihyo.jp
  • 第5回 全文検索エンジン「Lucene/Solr」を導入する

    今回は実際にLinuxマシン上にSolr/Luceneをインストールします。インデックスにデータを投入した上で,Solr/Luceneに組み込まれている管理機能の画面から検索を実施するところまでを紹介します。 今回の作業で必要になるモジュール類は以下の通りとなります。 - Solr(Luceneは同こん) - Java SDK(1.5以降) - lucene-ja(N-gram解析機能) - sen(形態素解析機能) なお,今回の作業では日語解析モジュールを導入しますが,その中で形態素解析モジュール用の辞書の作成が必要になります。形態素解析モジュール用の辞書作成作業では以下のモジュールが必要になります。 - ant(1.7以降) - perl(5.0以降) では,導入作業を進めましょう。 (1)Javaのインストール まず,最新のSolr 1.3ではJava 1.5以上のバージョンが必要

    第5回 全文検索エンジン「Lucene/Solr」を導入する
  • 転置インデックスを実装しよう - mixi engineer blog

    相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。 デモ モチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。 インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら(テンプレートはこちら)です。 でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

    転置インデックスを実装しよう - mixi engineer blog
  • Read It: Search User Interfaces

    Read the Book The full text of this book can be read free of charge. Select a chapter: 0: Preface: an overview of the structure of the book, and a guide to who should read which parts. 1: Design of Search User Interfaces: introduces the ideas and practices surrounding search interface design, places modern design in a historical context, and summarizes design guidelines for search interfaces. 2: E

  • Modern Information Retrieval

    Modern Information Retrieval Chapter 10: User Interfaces and Visualization - by Marti Hearst Next: 1. User Interfaces and Up: Contents of the book 1. User Interfaces and Visualization 1. Introduction 2. Human-Computer Interaction 1. Design Principles 2. The Role of Visualization 3. Evaluating Interactive Systems 3. The Information Access Process 1. Models of Interaction 2. Non-Search Parts of the

  • Search

    Debian Source Search This site indexes unstable's main and contrib archives, about 70 gigabyte of Free software. Have fun. Contact: Peter De Wachter

  • Wolfram|Alpha

    Compute expert-level answers using Wolfram’s breakthrough algorithms, knowledgebase and AI technologyMathematics ›Step-by-Step SolutionsElementary MathAlgebraPlotting & GraphicsCalculus & AnalysisGeometryDifferential EquationsStatisticsMore Topics »Science & Technology ›Units & MeasuresPhysicsChemistryEngineeringComputational SciencesEarth SciencesMaterialsTransportationMore Topics »Society & Cult

    Wolfram|Alpha
  • 天才が作った新検索エンジン『Wolfram|Alpha』と、Googleへの影響 | WIRED VISION

    前の記事 いま好調な自動車市場は:ルーマニアと中国の例を見る 「スパコンが可能にした研究成果」を画像で紹介 次の記事 天才が作った新検索エンジン『Wolfram|Alpha』と、Googleへの影響 2009年5月11日 Ryan Singel 5月18日に一般公開される予定の新興検索エンジン『Wolfram|Alpha』が話題を集めている。 聞いたこともない、という人のために説明すると、Wolfram Alphaとは、たとえば「ヨーロッパのインターネット利用者」などといった検索クエリが求める内容を理解し、非常に適切な結果を返すという「コンピューター的な知識検索エンジン」だ。このマジカルな技術は、インデックスに、混乱したウェブページではなく構造化されたデータセットを使うことで実現されている。 同サービスのデモ[ハーバード大学バークマンセンターでの講演。動画は以下]は、最初は懐疑的だったDa

  • セミナー資料公開「Extreme Search! 次世代検索エンジンSedueが実現する驚異のパフォーマンス」

    2009年4月8日(水) 13:00〜15:30に開催されましたPreferred Infrastructureによる製品紹介セミナーの発表資料です。

  • VNN : リレーインタビュー 天才エンジニア» ブログアーカイブ » シンプルで高速な検索エンジンLuxの作者: 山田浩之さんに聞いてみた

    VentureNewsNetworkJapanは、ベンチャー企業にまつわる様々なニュースをピックアップするニュースサイトです前回のインタビューで、北山さんが「ハンパなく速いんですよ!」ってこれからお会いする山田さんの作品をベタ褒めしていたのを鮮明に覚えている。ソフトウェアの世界では、自動車のように中心部分をエンジンなんていうが、これは当にすばらしい表現で、車種の数だけエンジンに特徴があり、この吹けあがりはどうだとか、パワーがあったり、安定性があったりする。ソフトウェアのエンジンも同様で、中にはひたすら速さを追求したF1エンジンみたいなものがあったりするのだ。 VNN1は実は昔、エンジン(車じゃなくってソフト)を作っていたので、外からは見えないが良いエンジンを作る人が当は気になってしょうがない。ただ最近は、WEBに精通したソフトを作れるほうがかっこいいらしい。すこし悲しい。しかし今日は違