タグ

Searchに関するk_37toのブックマーク (118)

  • 第10回 動的な索引構築 | gihyo.jp

    はじめに 今回からは、近年の話題や少し発展した話題について触れていく予定です。 第7回では、転置索引の静的な構築方法について触れました。今回は、索引に対して文書のインクリメンタルに追加していく方法について触れていきます。 動的な索引構築の必要性 第7回の復習になりますが、索引の構築方法には"静的"な方法と"動的"な方法が存在します。英語ではそれぞれ、Offline Index Construction、Online Index Constructionと呼ばれています[1]⁠。 文書が頻繁に追加される場合や索引が大規模な場合、文書の追加の度に索引を作り直すことは非常に高コストとなり現実的ではありません。このような場合は、動的な構築方法により索引をインクリメンタルに更新していくことで対応することができます。情報が絶えず追加されている近年のWeb上では、とても重要な構築方法となります。 メモリ

    第10回 動的な索引構築 | gihyo.jp
  • これがABYSSのすべてだ!!

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ABYSS開発チームの前田です。今回は前回に続いて、ABYSSについて、ご紹介します! 皆様、前回のABYSSの記事を読んでくださいましてありがとうございます。今回は主に、ABYSS内部のコンポーネントについてより詳しく説明して行きます。 ところで先日、ABYSSのロゴが完成しました! 現在チーム内ではリリースに向けて、ラストスパートを駆けています。ロゴが完成したこともあり、ABYSSチームではリリースに向けてモチベーションもますます上がる一方となりました。ここまで来たら、もはやチームのモチベーションも計り知れません! しかし、諸事情により皆さんにロゴをお見せできないのが当に残念ですʅ( ‾⊖◝)ʃ さて、ABYSS

    これがABYSSのすべてだ!!
  • 20万個ものロゴをベクター形式でダウンロード

    600000+ logo png images, vector brand logos and logo templates!

    20万個ものロゴをベクター形式でダウンロード
  • textsearch_senna

    N-gram を使用した、組み込み型の日語全文検索です。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 インストール テキスト検索機能 %% 演算子 @@ 演算子 インデックス (senna) インデックス・オプション (WITH) インデックスのメンテナンス senna.drop_index() senna.reindex_index() 不要ファイルの調査 TODO 概要 日語テキストの全文検索を行います。 形態素解析ベースである textsearch-ja とは異なり、textsearch_senna では N-gram ベースの全文検索を行います。 検索には、全文検索エンジン Senna を使用しています。 利点として、文字すべてをインデックス化するため LIKE 中間一致検索に近い結果

  • 米Google、異なるドメイン間のrel="canonical"をサポート ::SEM R (#SEMR)

    Google、異なるドメイン間のrel="canonical"をサポート グーグル、rel="canonical"の複数のドメイン間の利用をサポート。サーバサイドの301リダイレクト処理が不可能な場合に。 公開日時:2009年12月17日 15:28 米Googleは2009年12月15日、異なるウェブサイト(ドメイン)上で類似したコンテンツを公開した場合に、インデックスを希望するURLを指定(URLの正規化)するためのlink要素(link element)、rel="canonical"(rel属性の値canonical、以下、単に属性と表記する)のサポートを開始した。 「rel="canonical"」は2009年2月に検索大手3社が共同でサポートを開始した属性。ウェブサイトは長らく運営していると、コンテンツの追加や削除、移動、改修等を行っていくうちに、異なるURLで同一のコンテン

    米Google、異なるドメイン間のrel="canonical"をサポート ::SEM R (#SEMR)
  • mysql full-text parser plugin collection

    MySQL (5.1 and later) full-text parser plugins collection. This collection provides bigram, mecab , space, snowball and suffix parser. If you want to use Chinese or Japanese, bigram plugin might be useful.

  • コラム | オープンソースCMSならOpenCms

    CMSプロジェクトの【RFP(提案依頼書)】作成では、プロジェクトの背景(なぜCMS化が必要か)、現在のウェブサイト、システムの構成・機能・問題点、データ移行の方法、CMS機能の要件といったポイントを盛り込みましょう。

  • Google Similar Images

    Refine your image search with visual similarity Similar Images allows you to search for images using pictures rather than words. Click the "Similar images" link under an image to find other images that look like it. Try a search of your own or click on an example below. paris

  • 全文検索エンジンLuxとPythonの軽量Webアプリケーションフレームワークfapws3で構築する高速検索サービス - FutureInsight.info

    今、手元で検索サービスを作成するためにいろいろ実験をしているのですが、ある程度ノウハウが貯まったので公開しておこうかと思います。長いエントリーになりますので、検索サービスの構築に興味がある人だけ閲覧下さい。 一般的な検索エンジンは主に2つのパートに別れます。一つは、クローラとインデクサからなるデータを収集するバックエンド、もう一つは検索を行うフロントエンドです。クローラとインデックス部分に関してはまだ手元で試しているところなのです紹介できる状態にないのですが、Pythonを用いたフロントエンドに関しましては、だいたいやり方がわかってきたので、ここで公開しておこうと思います。個人レベルが作れそうな検索サービスの構築に興味がある方はよんでいただければ幸いです。 [追記]クローラ部分は時間がかかりそうなので、インデクサ部分を公開しました。 全文検索エンジンLuxのboost-pythonを用いた

    全文検索エンジンLuxとPythonの軽量Webアプリケーションフレームワークfapws3で構築する高速検索サービス - FutureInsight.info
  • 全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな

    全文検索エンジンのgroongaをテストリリースしました。 groonga 日開催された、key-value store勉強会で発表させていただきました。 今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna来のパフォーマンスが発揮できなかった。 従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。 といった問題がありました。 groongaは、それに対する返答です。 自分でデータベース書けばいいんじゃね? 柔軟なAPI用意すればいいんじゃね? ってことですね。 データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。 詳細については、今後別エントリやドキュメントで述べます。 今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。 実際使ってみよう 今回

    全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな
  • Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1) - llameradaの日記

    GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 スライドの入手元:Jeffrey Dean – Google AI 検索システムに取り組む理由 チャレンジングなサイエンスとエンジリアニングのブレンド 多くの魅力的な未解決な問題が存在する。 CS(コンピュータサイエンス)の多数の領域にまたがる。 アーキテクチャ、分散システム、アルゴリズム、圧

    Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1) - llameradaの日記
  • blog.katsuma.tv

    greeさんで開催されたKey Value Store勉強会に行ってきました。 時間にして4時間超え、内容も国内のKey-Value Storeなソフトウェアの最前線の話ばかりで相当なボリューム。以下、メモってたのを残しておきたいと思います。(誤字、脱字、内容に誤りを含むものなどありましたらお伝えください)また、発表者の方やプロダクトについて、ざっくり調べてURL見つけられたものについてはリンク張っています。 森さん / 末永さん   groonga Sennaの後継エンジン 融通が効かないのがSennaのデメリット スコア算出式のカスタマイズなど Sennaの転置索引 索引の構成部品を自由に組み合わせて使える APIもいろいろ QL DB Low Level memcached互換のkey-value store バイナリのみ対応 計測 クライアント memstorm-0.6.8 mem

  • ウノウラボ Unoh Labs: PHPライブラリ Net_TokyoTyrantの紹介

    皆さんopenpearしてますか! 最近、インフルエンザの予防接種を受けたKeitaです。 ずいぶん前にですが、PHPからTokyoTyrantをネイティブに操作するライブラリをopenpearにてリリースしたので、簡単に紹介したいと思います。 Net_TokyoTyrantとは? PurePHPで書かれた、TokyoTyrantのネイティブなインターフェースを叩くライブラリです。 memcache互換のインターフェースなどとは違い、TokyoTyrantのLUA拡張などTokyoTyrant来の機能をほぼすべて使えるというのが特徴です。 インストール PEARライブラリとして公開されているので非常に簡単にインストール可能です。 openpearのチャンネルを追加します。 pear channel-discover openpear.org PEARコマンドでインストールを

  • 検索エンジンのランキング計算方法 : 研究開発

    非常に密接な関係があったわけですが、これまでIR(Information Retrieval)系の勉強は全然していませんでした。 確率モデルによる検索順位決定方式は、基的には検索クエリー中の語が、文書中に出現する確率で決めます。 語tと文書dの適合度 は、なぜかd中でのtの出現回数 TF (Term Frequency)が一般的です。 もっと他の計算方法使ってもいいのに クエリーq中における語tの重みの方をどのように工夫するかです。 適合文書とは、検索クエリーに対するふさわしい文書のことです。

  • Googleキーワード ツールが月間検索数を表示

    Googleキーワード ツールが月間検索数を表示 オーバーチュアのキーワードアドバイスツールがサービスを終了して以来、大手検索サイトでどのキーワードがどれだけ検索されているのか調べるのは不可能でしたが、日よりGoogleキーワード ツールで月間の検索数及び過去1年を通しての平均の月間検索数が表示されるようになりました。 検索数が少ないキーワードは不十分なデータと表示されるようです。 キーワードアドバイスツールサービス終了後のキーワードマーケティングは、アクセスログや過去のキーワードアドバイスツールのデータ、中小検索エンジンのデータなど、決定力に欠けるデータを参考にしないといけなかっただけに便利になりますね。 関連エントリー WEB製作者の為のSEOチートシート 関連キーワードを探すキーワードアドバイスツールα キーワード出現頻度解析リリースのお知らせ サイトのPageRankを一括でチェ

    Googleキーワード ツールが月間検索数を表示
  • Firefox更新情報Wikiブログ CyberSearch - Firefox拡張機能

    2024 08 ≪  09月 123456789101112131415161718192021222324252627282930  ≫ 2024 10 今回紹介するFirefox拡張機能はCyberSearchです。 これはスマートロケーション機能にGoogleの検索結果も合わせて表示するようにします。 ロケーションバーに文字列を記入すると、履歴/ブックマーク候補と一緒にGoogleのWeb検索結果もドロップダウンリストへ表示します。半角スペースでのAND検索やダブルクオーテーションでのフレーズ検索なども反映されます。 設定の「Enable keywords」をONにすることでキーワード検索できるようにします。キーワードを作成することでGoogleのWeb/地図/ビデオ/ブログ/ニュース/ブック/画像/特許検索のいずれかから検索でき、検索結果の左端に表示するFaviconを指定したり、

  • Tokyo Dystopiaの設計思想 - mixi engineer blog

    番に向けて海に行ける体作りに励まないといかんなーと思いつつも、ついついDSのスターフォックスで遊んでしまうmikioです。さて今回は、人知れずリリースされている検索エンジンTokyo Dystopiaの概要と設計思想について述べます。 Hyper Estraierとの違い Tokyo Dystopia(以下、TDと呼びます)は、新しい検索エンジンです。しかし、私が作ったもう一つの検索エンジンHyper Estraier(以下、HEと呼びます)の後継としては位置付けていません。 Hyper Estraierの製品コンセプトは、「検索システムの需要が生じる様々なシーンで手軽に導入できる」ことです。言い換えれば、「いわゆるシロウトの人でも、お高い商用システムを買えない個人や小組織でも、ちょっとの努力で自分の要求を満たすシステムを構築できる」ことです。そのために、様々なファイル形式に対応したテ

    Tokyo Dystopiaの設計思想 - mixi engineer blog
  • ゴルフ場予約検索 | ゴルフダイジェスト・オンライン

    ハーフプレーを除く ナイタープレーを除く 1人予約を除く コンペプランを除く オープンコンペを除く 早朝スルーを除く 午後スルーを除く スループレーを除く ジュニアプランを除く 4サム限定を除く

  • Introduction to Information Retrieval 輪講第7回 : no hacking, no life

    たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます!) 最初に、恒例(らしい)のnaoyaさんからの前回の復習がありました。 「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。 その後、題の6章の「Scoring, term weighting and the vector space model」について担当の能登

  • ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな

    みんな、[Senna-dev 884]のメールは読んだかな!? 全文検索エンジンSennaの新しいAPIについての素案がついに公開されました。 今までのAPIのほとんどを刷新するという 大改造!劇的ビフォーアフター的API群です(APIの匠)。 んで、この新しいAPI群で何ができるようになるのでしょうか。 簡単に言うと、 「Sennaは、データベースになります!」 といいつつも、全文検索機能を充実させるために、 データベース的機能を強化した、という感じになっておりますぞ。 データベース機能 新しいSennaでは、複数のテーブルというものを持つことができます。 テーブルは、複数のレコードを持つことができます。 レコードは、複数のカラムを持つことができます。 カラムは、ある型のデータを保持します。 一般的なRDBMSの2次元表をまずはイメージしてください。 ポイント1. レコードごとにカラムが

    ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな