タグ

Searchに関するj7400157のブックマーク (13)

  • 簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

    筑波大学は3学期制で,12月1日から3学期が始まりました.3学期には私が担当している学類生(普通の大学の学部生)3年生向けの実験があります.約3ヶ月を掛けて,ほどほどの規模のプログラム作成を行います.私が作り,担当しているプログラム実験は「Webサーチエンジン」といいまして,テキストはこちらに公開しています. この実験,結構,自信作なんです.Javaの基的なプログラミングができることだけを仮定して,漏れのない全文検索を行うWebサーエンジンを作ります.Webデータ収集を自動的に行うクローラー付き.Googleのようなページランキング機能はありませんが,一応,サーチエンジンの基機能を備えます.自慢は,このテキストが実質A4で印刷して2ページくらいであること.数学の小問を解いていくように,順番に小問を解いていくと,最後にはWebサーチエンジンができます. ミソはサフィックス・アレイ(suf

    簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦
  • 転置インデックスを実装しよう - mixi engineer blog

    相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。 デモ モチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。 インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら(テンプレートはこちら)です。 でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

    転置インデックスを実装しよう - mixi engineer blog
  • TechCrunch | Startup and Technology News

    “Running with scissors is a cardio exercise that can increase your heart rate and require concentration and focus,” says Google’s new AI search feature. “Some say it can also improve…

    TechCrunch | Startup and Technology News
  • Google AJAX Search API で Google検索 with はてぶ (でぃべろっぱーず・さいど)

    Google AJAX Search APIを使って、Googleの検索結果にはてなブックマークのブックマーク数と、コメントを出力してみました。 Google検索 with はてぶ Google AJAX Search APIは、リリースされた直後くらいにちょっと触ってみて、それっきりになっていたのですが、ちゃんとバージョンアップを重ねてきていたんですね。 検索処理の前や後に特定の処理を実行したりできるようになっていて、びっくり(前からできた?)。 これでかなり色んなことができそう。 Google Custom Search Engineで作ったカスタム検索との連携もできるようなので、もっと遊んでみることにします。

  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

  • 旧人力検索系

    Add a customizable search box to your web pages and show fast, relevant results powered by Google Search.

    旧人力検索系
  • スクレイピングはもっと簡単にならなければいけない - bits and bytes

    スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけど デモムービー を見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

  • 完全自動型検索エンジン『アンドロイド』

    [PR]御社のサ-ビスにも”自動検索エンジン”機能を実装しませんか? 検索キーワードの入力すら省ける時代の到来です! ユーザの属性・趣旨趣向に合わせ、任意の検索結果に誘導する事が実現できます。 どのようなサービス、コンテンツでも自動検索エンジンに対応できます。(ただし例外もあり) しばらくは商用、非商用問わず無償で対応させて頂きます。(ただし、事前審査制) お気軽に、satoru.netまでお問い合わせくださいませ。 ©satoru.net 2007.04.24

  • カテゴリーキラークローラーという案:ナレッジ!?情報共有・・・永遠の課題への挑戦:オルタナティブ・ブログ

    谷川さんのエントリ「Feedの話を聞いていて、クローラに興味を持った」にむしろクローラのほうが面白そうだという感想が書いてあって、現時点ではこれにはまったく同感なのと、以前から考えていたことがあるのでちょっと書き始めてみたい。 ネットには90:9:1の法則というのがあって、情報発信者の数は受信者に対してかなり少数である。だからこの少数派を取り込んで便利な機能を取り込んでいくとかネット全体をセマンティック化するというアイデアはアリだと思うし、それはネット全体の発展に繋がる良い動きだと思う。しかし少数とはいっても大勢の情報発信者側を取り込むには時間が必要だし、なによりそういったサービス提供の為の投資資金の回収モデルが難しい。となるとやはり、割合的に多数でマーケットして魅力のある受信者側に取り入るような便利なサービスを立ち上げるという選択肢もまたアリなんだと思う。というか、むしろこっちの戦略を取

    カテゴリーキラークローラーという案:ナレッジ!?情報共有・・・永遠の課題への挑戦:オルタナティブ・ブログ
  • ネット上での評判を調べてくれるシンプルツール『sucks-rocks』 | 100SHIKI

    これ、おもしろい。 sucks-rocksではある単語に関してネット上から情報を収集、その単語がどれぐらいポジティブ(もしくはネガティブ)に捉えられているかを計算してくれる。 もちろんコンピュータがやっていることなので100%正確ではないが、なんとなくそれっぽい結果が出てきて楽しい。 気になる製品や会社、人物名などをいれて比較すると興味深い事実が浮かび上がってくるのかもしれない。 また結果は並び替えができたり、固定リンクを取得できたりするので活用のしがいがあるだろう。定点観測をしてみてもおもしろいかもしれないですね。 こうした「ネットでの評判」を知ることのできるシンプルツールはもっと出てきて欲しいですね。 管理人の独り言 『モバイルナビ会議 sponsored by ナビタイム』 さて先日からお知らせしている次回無料セミナーですが、『モバイルナビ会議 sponsored by ナビタイム』

    ネット上での評判を調べてくれるシンプルツール『sucks-rocks』 | 100SHIKI
  • 事典検索システム Cyclone

    事典検索システム Cyclone (サイクロン) とは? 様々なページから言葉に関する説明を自動的に集めて,Webを事典(辞典)のように使うためのシステムです.

  • bulkfeeds.net - contact with domain owner | Epik.com

    This domain name registration has expired. If you are the domain owner, please contact support@epik.com to get the renewal taken care of.

  • 知能を持つアバター?

    暗い話題ばかりだとアレなんで。昨日見つけた気になるニュース。京都大学の西田豊明教授らが、人に代わって質問に答えてくれる「分身」をコンピュータ上に作る技術を開発したとのこと: ■ 蓄積データ活用 チャットができる -- 有名人とも仮想会話?(東京新聞) システムの名前は「エゴチャット」。なんだか怪しげなネーミングですが、「過去の会話内容などから、新たな質問に対して最適な回答を探し、音声で答える」という優れもの。インプットとなるデータは、メールなどでも良いようです。ちなみに以下のリンクが、記事中でも紹介されていた東大のサイト。実際に構築されたシステムを見ることができます: ■ EgoChat番組表 (東京大学工学部・大学院工学系研究科) まだまだ見てくれには進化が必要だと思いますが、これが過去に蓄積されたデータ(このシステムをつくるために作成されたのではないデータ)から回答を自動生成している

  • 1