[B! Search] k_37toのブックマーク

k_37to id:k_37to

Searchに関するk_37toのブックマーク (118)

第10回　動的な索引構築 | gihyo.jp
はじめに今回からは、近年の話題や少し発展した話題について触れていく予定です。第7回では、転置索引の静的な構築方法について触れました。今回は、索引に対して文書のインクリメンタルに追加していく方法について触れていきます。動的な索引構築の必要性第7回の復習になりますが、索引の構築方法には"静的"な方法と"動的"な方法が存在します。英語ではそれぞれ、Offline Index Construction、Online Index Constructionと呼ばれています[1]⁠。文書が頻繁に追加される場合や索引が大規模な場合、文書の追加の度に索引を作り直すことは非常に高コストとなり現実的ではありません。このような場合は、動的な構築方法により索引をインクリメンタルに更新していくことで対応することができます。情報が絶えず追加されている近年のWeb上では、とても重要な構築方法となります。メモリ
k_37to 2010/04/01
search

engine

architecture
リンク
これがABYSSのすべてだ!!
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ABYSS開発チームの前田です。今回は前回に続いて、ABYSSについて、ご紹介します！皆様、前回のABYSSの記事を読んでくださいましてありがとうございます。今回は主に、ABYSS内部のコンポーネントについてより詳しく説明して行きます。ところで先日、ABYSSのロゴが完成しました！現在チーム内ではリリースに向けて、ラストスパートを駆けています。ロゴが完成したこともあり、ABYSSチームではリリースに向けてモチベーションもますます上がる一方となりました。ここまで来たら、もはやチームのモチベーションも計り知れません！しかし、諸事情により皆さんにロゴをお見せできないのが本当に残念ですʅ（ ‾⊖◝）ʃ さて、ABYSS
k_37to 2010/03/27
Yahoo

search

engine

ABYSS

architecture
リンク
20万個ものロゴをベクター形式でダウンロード
600000+ logo png images, vector brand logos and logo templates!
k_37to 2010/03/14
logo

vector

search

engine
リンク
textsearch_senna
N-gram を使用した、組み込み型の日本語全文検索です。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要インストールテキスト検索機能 %% 演算子 @@ 演算子インデックス (senna) インデックス・オプション (WITH) インデックスのメンテナンス senna.drop_index() senna.reindex_index() 不要ファイルの調査 TODO 概要日本語テキストの全文検索を行います。形態素解析ベースである textsearch-ja とは異なり、textsearch_senna では N-gram ベースの全文検索を行います。検索には、全文検索エンジン Senna を使用しています。利点として、文字すべてをインデックス化するため LIKE 中間一致検索に近い結果
k_37to 2010/03/04
postgresql

senna

search
リンク
米Google、異なるドメイン間のrel="canonical"をサポート ::SEM R (#SEMR)
米Google、異なるドメイン間のrel="canonical"をサポートグーグル、rel="canonical"の複数のドメイン間の利用をサポート。サーバサイドの301リダイレクト処理が不可能な場合に。公開日時：2009年12月17日 15:28 米Googleは2009年12月15日、異なるウェブサイト（ドメイン）上で類似したコンテンツを公開した場合に、インデックスを希望するURLを指定（URLの正規化）するためのlink要素（link element）、rel="canonical"（rel属性の値canonical、以下、単に属性と表記する）のサポートを開始した。「rel="canonical"」は2009年2月に検索大手3社が共同でサポートを開始した属性。ウェブサイトは長らく運営していると、コンテンツの追加や削除、移動、改修等を行っていくうちに、異なるURLで同一のコンテン
k_37to 2010/01/29
seo

google

search

engine
リンク
mysql full-text parser plugin collection
MySQL (5.1 and later) full-text parser plugins collection. This collection provides bigram, mecab , space, snowball and suffix parser. If you want to use Chinese or Japanese, bigram plugin might be useful.
k_37to 2009/09/18
MySQL

5.1

full

text

search

plugin
リンク
コラム | オープンソースCMSならOpenCms
CMSプロジェクトの【RFP(提案依頼書)】作成では、プロジェクトの背景（なぜCMS化が必要か）、現在のウェブサイト、システムの構成・機能・問題点、データ移行の方法、CMS機能の要件といったポイントを盛り込みましょう。
k_37to 2009/09/17
Nutch

hadoop

full

text

search

engine

crawler

japanese

document

resources
リンク
Google Similar Images
Refine your image search with visual similarity Similar Images allows you to search for images using pictures rather than words. Click the "Similar images" link under an image to find other images that look like it. Try a search of your own or click on an example below. paris
k_37to 2009/04/21
google

similar

image

search
リンク
全文検索エンジンLuxとPythonの軽量Webアプリケーションフレームワークfapws3で構築する高速検索サービス - FutureInsight.info
今、手元で検索サービスを作成するためにいろいろ実験をしているのですが、ある程度ノウハウが貯まったので公開しておこうかと思います。長いエントリーになりますので、検索サービスの構築に興味がある人だけ閲覧下さい。一般的な検索エンジンは主に2つのパートに別れます。一つは、クローラとインデクサからなるデータを収集するバックエンド、もう一つは検索を行うフロントエンドです。クローラとインデックス部分に関してはまだ手元で試しているところなのです紹介できる状態にないのですが、Pythonを用いたフロントエンドに関しましては、だいたいやり方がわかってきたので、ここで公開しておこうと思います。個人レベルが作れそうな検索サービスの構築に興味がある方はよんでいただければ幸いです。 [追記]クローラ部分は時間がかかりそうなので、インデクサ部分を公開しました。全文検索エンジンLuxのboost-pythonを用いた
k_37to 2009/04/20
full

text

search

engine

Lux

Python

framework

fapws3
リンク
全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな
全文検索エンジンのgroongaをテストリリースしました。 groonga 本日開催された、key-value store勉強会で発表させていただきました。今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna本来のパフォーマンスが発揮できなかった。従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。といった問題がありました。 groongaは、それに対する返答です。自分でデータベース書けばいいんじゃね？柔軟なAPI用意すればいいんじゃね？ってことですね。データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。詳細については、今後別エントリやドキュメントで述べます。今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。実際使ってみよう今回
k_37to 2009/03/24
full

text

search

engine

Groonga
リンク
Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。スライドの入手元：Jeffrey Dean – Google AI 検索システムに取り組む理由チャレンジングなサイエンスとエンジリアニングのブレンド多くの魅力的な未解決な問題が存在する。 CS（コンピュータサイエンス）の多数の領域にまたがる。アーキテクチャ、分散システム、アルゴリズム、圧
k_37to 2009/03/18
google

search

engine

architecture
リンク
blog.katsuma.tv
greeさんで開催されたKey Value Store勉強会に行ってきました。時間にして4時間超え、内容も国内のKey-Value Storeなソフトウェアの最前線の話ばかりで相当なボリューム。以下、メモってたのを残しておきたいと思います。（誤字、脱字、内容に誤りを含むものなどありましたらお伝えください）また、発表者の方やプロダクトについて、ざっくり調べてURL見つけられたものについてはリンク張っています。森さん / 末永さん groonga Sennaの後継エンジン融通が効かないのがSennaのデメリットスコア算出式のカスタマイズなど Sennaの転置索引索引の構成部品を自由に組み合わせて使える APIもいろいろ QL DB Low Level memcached互換のkey-value store バイナリのみ対応計測クライアント　memstorm-0.6.8 mem
k_37to 2009/02/24
database

memcached

senna

search

engine

tokyo

cabinet

tyrant
リンク
ウノウラボ Unoh Labs: PHPライブラリ Net_TokyoTyrantの紹介
皆さんopenpearしてますか！最近、インフルエンザの予防接種を受けたKeitaです。ずいぶん前にですが、PHPからTokyoTyrantをネイティブに操作するライブラリをopenpearにてリリースしたので、簡単に紹介したいと思います。 Net_TokyoTyrantとは？ PurePHPで書かれた、TokyoTyrantのネイティブなインターフェースを叩くライブラリです。 memcache互換のインターフェースなどとは違い、TokyoTyrantのLUA拡張などTokyoTyrant本来の機能をほぼすべて使えるというのが特徴です。インストール PEARライブラリとして公開されているので非常に簡単にインストール可能です。 openpearのチャンネルを追加します。 pear channel-discover openpear.org PEARコマンドでインストールを
k_37to 2008/12/04
PHP

tokyo

tyrant

library

search

engine
リンク
検索エンジンのランキング計算方法 : 研究開発
非常に密接な関係があったわけですが、これまでIR(Information Retrieval)系の勉強は全然していませんでした。確率モデルによる検索順位決定方式は、基本的には検索クエリー中の語が、文書中に出現する確率で決めます。語tと文書dの適合度　は、なぜかd中でのtの出現回数 TF (Term Frequency)が一般的です。もっと他の計算方法使ってもいいのにクエリーq中における語tの重みの方をどのように工夫するかです。適合文書とは、検索クエリーに対するふさわしい文書のことです。
k_37to 2008/07/28
search

engine

rank

algorithm
リンク
Googleキーワードツールが月間検索数を表示
Googleキーワードツールが月間検索数を表示オーバーチュアのキーワードアドバイスツールがサービスを終了して以来、大手検索サイトでどのキーワードがどれだけ検索されているのか調べるのは不可能でしたが、本日よりGoogleキーワードツールで月間の検索数及び過去1年を通しての平均の月間検索数が表示されるようになりました。検索数が少ないキーワードは不十分なデータと表示されるようです。キーワードアドバイスツールサービス終了後のキーワードマーケティングは、アクセスログや過去のキーワードアドバイスツールのデータ、中小検索エンジンのデータなど、決定力に欠けるデータを参考にしないといけなかっただけに便利になりますね。関連エントリー WEB製作者の為のSEOチートシート関連キーワードを探すキーワードアドバイスツールα キーワード出現頻度解析リリースのお知らせサイトのPageRankを一括でチェ
k_37to 2008/07/18
google

search

keyword

count

seo

sem
リンク
Firefox更新情報Wikiブログ CyberSearch - Firefox拡張機能
2024 08 ≪　 09月 123456789101112131415161718192021222324252627282930 　≫ 2024 10 今回紹介するFirefox拡張機能はCyberSearchです。これはスマートロケーション機能にGoogleの検索結果も合わせて表示するようにします。ロケーションバーに文字列を記入すると、履歴/ブックマーク候補と一緒にGoogleのWeb検索結果もドロップダウンリストへ表示します。半角スペースでのAND検索やダブルクオーテーションでのフレーズ検索なども反映されます。設定の「Enable keywords」をONにすることでキーワード検索できるようにします。キーワードを作成することでGoogleのWeb/地図/ビデオ/ブログ/ニュース/ブック/画像/特許検索のいずれかから検索でき、検索結果の左端に表示するFaviconを指定したり、
k_37to 2008/07/15
firefox

search

extension

address

bar
リンク
Tokyo Dystopiaの設計思想 - mixi engineer blog
夏本番に向けて海に行ける体作りに励まないといかんなーと思いつつも、ついついDSのスターフォックスで遊んでしまうmikioです。さて今回は、人知れずリリースされている検索エンジンTokyo Dystopiaの概要と設計思想について述べます。 Hyper Estraierとの違い Tokyo Dystopia（以下、TDと呼びます）は、新しい検索エンジンです。しかし、私が作ったもう一つの検索エンジンHyper Estraier（以下、HEと呼びます）の後継としては位置付けていません。 Hyper Estraierの製品コンセプトは、「検索システムの需要が生じる様々なシーンで手軽に導入できる」ことです。言い換えれば、「いわゆるシロウトの人でも、お高い商用システムを買えない個人や小組織でも、ちょっとの努力で自分の要求を満たすシステムを構築できる」ことです。そのために、様々なファイル形式に対応したテ
k_37to 2008/07/09
TokyoDystopia

full

text

search
リンク
ゴルフ場予約検索｜ゴルフダイジェスト・オンライン
ハーフプレーを除くナイタープレーを除く 1人予約を除くコンペプランを除くオープンコンペを除く早朝スルーを除く午後スルーを除くスループレーを除くジュニアプランを除く 4サム限定を除く
k_37to 2008/06/20
golf

search
リンク
Introduction to Information Retrieval 輪講第7回 : no hacking, no life
たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます！) 最初に、恒例（らしい）のnaoyaさんからの前回の復習がありました。「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。その後、本題の6章の「Scoring, term weighting and the vector space model」について担当の能登
k_37to 2008/06/10
full

text

search

architecture
リンク
ツッコめ！全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな
みんな、［Senna-dev 884］のメールは読んだかな！？全文検索エンジンSennaの新しいAPIについての素案がついに公開されました。今までのAPIのほとんどを刷新するという大改造！劇的ビフォーアフター的API群です（APIの匠）。んで、この新しいAPI群で何ができるようになるのでしょうか。簡単に言うと、「Sennaは、データベースになります！」といいつつも、全文検索機能を充実させるために、データベース的機能を強化した、という感じになっておりますぞ。データベース機能新しいSennaでは、複数のテーブルというものを持つことができます。テーブルは、複数のレコードを持つことができます。レコードは、複数のカラムを持つことができます。カラムは、ある型のデータを保持します。一般的なRDBMSの２次元表をまずはイメージしてください。ポイント1. レコードごとにカラムが
k_37to 2008/06/03
senna

api

full

text

search

renewal

API
リンク
1 2 3 4 5 6 次のページ