[B! search] bobbyjam99のブックマーク

3行でできる超お手軽全文検索 - mixi engineer blog

梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。使い方テーブルデータベースについてまずおさらいしておきましょう。PerlやRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER

bobbyjam99 2009/10/14

リンク

yebo blog: Google の次世代検索アーキテクチャ「Caffeine」

2009/08/12 Google の次世代検索アーキテクチャ「Caffeine」 Googleが新たに開発した次世代検索アーキテクチャー「Google Caffeine update」のプレビューサイト (http://www2.sandbox.google.com/) を公開した(Google Blog)。アーキテクチャが変わるだけで、ユーザインタフェースや検索結果に差異はなく、まずは高速な検索結果を得ることが目的 Mutt Cutts | More info on the Caffeine Update 投稿者 zubora 投稿時間 07:14 ラベル: Google, Search Engine 0 コメント: コメントを投稿

bobbyjam99 2009/08/13

リンク

MicrosoftとYahoo!が提携発表　Yahoo!がBing採用

米Microsoftと米Yahoo!は7月29日、Web検索で提携すると発表した。この10年契約の下、Yahoo!はMicrosoftのBing検索エンジンを採用し、Yahoo!サイトの検索アルゴリズムおよび検索広告プラットフォームとする。ディスプレイ広告などでは、引き続き自社の技術とデータを利用する。 Yahoo!は両社の広告主のリレーション営業を行う。検索広告の入札システムとしては、両社ともMicrosoftのAdCenterプラットフォームを利用する。 Yahoo!の直営および関連サイトで発生したトラフィックに関して、両社は売り上げを分け合う。またMicrosoftはYahoo!にトラフィック獲得コスト（TAC）を支払う。最初の5年間は、Yahoo!傘下のサイトで発生した売上高の88％を支払う。さらにMicrosoftはYahoo!傘下のサイトの検索1件当たり売上高を各国で最初の1

bobbyjam99 2009/07/30

リンク

IT系でも活用しなければ損。論文を読んで広がる知見 - ＠IT

「Java News.jp（Javaに関する最新ニュース）」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」（駆け足の要点説明）でお届けします（編集部）論文は、難しくない読者の皆さんの中には、「論文」と聞くと身構えてしまう方も多いのではないでしょうか？論文というと、書くのも読むのも大変で何だか小難しいことが書いてあるもののように思えるものです。それどころか、「論文とは縁がない」「プログラムがすべてだ」と思う方もいるかもしれません。しかし、ある特定分野の技術や研究を詳しく知るためには、論文は手軽で確実な情報源です。よく論文が持つ意味について「巨人の肩の上に立つ」と例えられることがあります。これは、万有引力の研究で知られるニュートンも好んで引用していた言葉だそうです。「現代の学問は多くの研究の蓄積の上に成り立っている」ことを示す言葉

bobbyjam99 2009/07/15

リンク

検索避け覚書

はじめにここは、同人サイト向けに検索避け（逆SEO・いかにロボット検索に掲載されないか）の方法をまとめたサイトです。検索よけテクニックで有名だった、「裏サイトオーナーのための Small Tips」が消えてしまったからなのか、私がやっているブログに検索よけテクニックを求めて来る人が増えてしまいました。ブログだと見づらいので独立したサイトとしてまとめておきます。用語説明クローラー：Crawler 検索ロボットの事です。このロボットがあなたのサイトを訪れ、サイト内の情報を持っていきます。レンタルやＣＧＩのアクセス解析では捕捉できません。ユーザーエージェント、userAgent ブラウザ・ロボットの事。またはそれらが名乗る名前。UAと略されることが多いです。リファラー：Referrer 参照元。リンク元。またはそのアドレスのことです。生ログサーバが記録するアクセス記録。非常に詳

bobbyjam99 2009/03/18

リンク

Introduction to Information Retrieval #2後半、#3前半の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 2章後半と3章前半の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_02_2.ppt http://bloghackers.net/~naoya/iir/ppt/iir_03_1.ppt 今回は 2 章の後半 postings list のマージの効率的な実装方法フレーズインデックスと positional インデックスによるフレーズ検索の実現方法 3 章前半辞書検索のためのデータ構造ワイルドカードクエリの実現方法という内容です。次回はスペルミス補正 (もしかして機能) についてになります。次回の輪読会は少し間が空いて 4/12 予定ですので復習資料のアップロードも 4 月になるかと思います。過去の章のアーカイブは同 URL のデ

bobbyjam99 2008/03/26

リンク

Googleレベルの学生が起業した「Preferred Infrastructure」 ― ＠IT

2008/03/24 検索エンジン開発の分野で有名になりつつある企業にPreferred Infrastructure（PFI、東京都文京区）がある。目を引くのは10人の社員がいずれも東京大学大学院、京都大学大学院の出身者、もしくは在学中ということ。東京大学大学院の情報系研究科出身者の多くが近年、Googleに入社していることは有名だが、PFIは、いわば、Googleに行かなかったGoogleレベルの学生たちが起業したといえる。エンジニア率100％のPFIは日本のテクノロジ・ベンチャーの姿を変えるだろうか。 PFIの代表取締役社長西川徹氏は「ACM 国際大学対抗プログラミングコンテスト（ACM/ICPC）の世界大会に出場したメンバーと一緒に何かやりたかった」と起業の動機を話す。起業したのは2006年3月。資本金は30万円。当時の社員は6人で全員が学生だった。オフィスはなく、Skypeで話

bobbyjam99 2008/03/25

良い方に転ぶことを期待．

リンク

MashStar

VAT overview )Value Added TaxThe Value Added Tax (VAT) is a consumption tax applied in the European Union (EU) to all goods and services. All consumers in the EU are charged VAT on the purchase of goods and services. Businesses in the EU buying from a business in the same country are also charged VAT. Businesses in the EU buying from a business in a different EU country are not charged VAT. Consum

bobbyjam99 2008/01/07

やべぇ、今日のプレゼンの資料作り忘れたー下手こいたーorzの後に使えるだろうツール．

リンク

これだけは覚えておきたい１０の検索Tips | お父さんのためのGoogle活用講座その１ | Google Mania - グーグルの便利な使い方

これだけは覚えておきたい１０の検索Tips | お父さんのためのGoogle活用講座その１管理人 @ 12月 1日 06:58am 検索Tips Google検索はとても便利です。世の中のほとんどの情報から検索できます。でもその情報が多すぎて、本当に欲しい検索結果を導きだせない人も多いのではないでしょうか。ちょっとしたテクニックを覚えておくと、欲しい情報が簡単に見つかって、時間も労力も、そして、質のいい情報を手にすることができます。このコーナーは、『お父さんのためのGooge活用講座』と題して、インターネット初心者向けに、役立つ情報をお届けします。第一回は、検索するときに覚えておいたら便利な検索Tipsをご紹介します。 I’m Feeling Lucky！ボタンで一発検索ちなみに、「I’m Feeling Lucky」ボタンはGoogleにとって年間120億円の損失のようです

bobbyjam99 2007/12/03

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

bobbyjam99 2007/11/28

リンク

ウェブ検索を「本の索引」で説明する試み

ウェブ検索を「本の索引」で説明する試み 2007-06-17-6 ウェブ検索、というか検索インデックスで検索する方法を「本の索引」を例に解説してみる。本の索引＝転置インデックス、だしね、そもそも。 § ウェブ検索は、事前に検索インデックスを作成し、それを用いて検索する方法で行われます。検索インデックスというのは、本で言うと「索引」にあたります。ここに「エモーショナル・デザイン」[2004-12-19-2]という本があります。巻末に「索引」があります。「iPod」のあるページを探すときには、「iPod」の項目を見ます。 287ページにあることが分かります。本のページをウェブサイトのURLに置き換えればWeb検索ができるわけです。複数キーでの検索はどうでしょうか？実際に本の索引ではこういうことをする人はいませんが、以下のような手順で行います。検索キー「想い出 + 価値

bobbyjam99 2007/11/28

search

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

bobbyjam99 2007/11/28

リンク

次世代検索はグーグルの上に構築 ― ＠IT

「インターネットの検索において、Webページ検索というのは、そろそろピークを過ぎるのではないか。人物や商品などドメインを区切ったバーチカルサーチや、Webページではなく知識そのものを検索できるようなナレッジサーチなどが今後の研究テーマになってくる」。2007年11月27日から2日間の予定で開催されている「データベースとWeb情報システムに関するシンポジウム」（DBWeb 2007）において「情報爆発に対処できる次世代サーチ技術」と題した講演を行った京都大学大学院情報学研究科の田中克己教授は、今後のネット検索技術の動向をそう総括する。既存の検索サービスを使ってできることはまだまだある田中氏は、2005年から5年間の予定で文部科学省が研究補助金を出すプロジェクト「情報爆発時代に向けた新しいIT基盤技術の研究」において「情報爆発に対応するコンテンツ融合と操作環境融合に関する研究」という研究テ

bobbyjam99 2007/11/28

検索は次のステージへ．面白い．

リンク

なぜ検索エンジンマーケティングが注目されるのか

ニュースサイトを見ていると、毎日のように「検索」に関する記事を目にします。例えば「CNET Japan」の検索機能を使って、2007年1月1日からこの原稿を執筆している11月15日までの約1年間のニュースを「検索エンジン」というキーワードで検索してみたところ、205件もの記事が検索結果として表示されました。実際には、「検索エンジン」というキーワードを含まない検索関連のニュースも多数あるはずなので、それこそ1年分の記事をすべて読んでいき、その数を数え上げていったらと考えると、恐ろしくなります。正直な話、これには検索ビジネスに身を置いている筆者でさえ、着いていくのがやっとという状況。そして、このように日々最新のニュースに振り回されていると、ついつい物事の本質というものを忘れてしまいがちになります。そこで本稿では、自身の考えをまとめつつ、検索エンジンマーケティングにあまり詳しくない方の理解

bobbyjam99 2007/11/21

"検索エンジンマーケティングといっても、直接的な利益は検索エンジンがもたらしてくれるわけではなく、生身の人間である消費者によってのみもたらされるということを忘れてはならないでしょう。"

search

リンク

テキストを使わない「感性検索」でネイルチップ選び

ALBERTは11月6日、独自開発の感性検索システム技術を利用したネイルチップ検索システム「ネイルチップパレット」を、運営サイト「教えて！Beauty」に導入した。ネイルチップパレットは、画面上に次々と出現する商品を見ているだけで、ネイルチップの色や柄、ネイルアートのオプションや雰囲気などを絞り込むことができる検索システム。利用者は、自分の好みの色やアートのボタンを気に入った順番に押すことで、その条件に当てはまるネイルチップの画像一覧を閲覧することができる。また、気に入った商品が見つかった際にはそれらを一時的にキープしておき、さらに他の商品を探し比較し、購入することも可能だ。ネイルチップパレットでは各種ECサイトのネイルチップ約400点を横断的に検索することができる。また、今後も積極的に商品の追加や消費者のニーズ変化に合わせたチューニングを実施していく計画だ。

bobbyjam99 2007/11/07

news
search

リンク

画像検索における「初音ミク」問題の正解となる答え(最終版)

3. インデックス対象の時期特定の理由「初音ミク」という言葉自体、発売日前にほとんど書かれるものではなかった為、8/31(発売日)前に検索対象化できる形で言葉ときちんとセットで提示されていた画像がそうそうあったとは思えません (ブログ検索結果の期間をづらしてそう判断しました: 検索結果/期限が過ぎると見えなくなるでしょうが)。ちなみに、↑の検索結果の一番初めのブログ記事(07/12 メディアファージ事業部ブログ)を書いた人は、「初音ミク」の中の人の一人のようなので、そこ(07/12)からが理論的には「初音ミク」を検索対象にするチャンスが検索エンジンに与えられ始めた時期になります。ただ、仮にその「内部情報出し」後の時期をクロールしていても、あくまで激烈にブレークしたのはリリース後のニコニコの展開があったからなので、検索エンジンが「初音ミク」という形で認識できる画像はなかった可能性は高

bobbyjam99 2007/10/22

リンク

連想検索エンジン reflexa

連想検索エンジンreflexa（リフレクサ）はコトバとコトバのつながりを元に未知の情報を探索していくための連想検索エンジンです。連想検索ならではの楽しい検索体験をお楽しみ下さい。

bobbyjam99 2007/05/11

これおもしろい．WebAPIもあるらしい．

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

searchに関するbobbyjam99のブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス