[B! Search] j7400157のブックマーク

簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

筑波大学は3学期制で，12月1日から3学期が始まりました．3学期には私が担当している学類生（普通の大学の学部生）3年生向けの実験があります．約3ヶ月を掛けて，ほどほどの規模のプログラム作成を行います．私が作り，担当しているプログラム実験は「Webサーチエンジン」といいまして，テキストはこちらに公開しています．この実験，結構，自信作なんです．Javaの基本的なプログラミングができることだけを仮定して，漏れのない全文検索を行うWebサーエンジンを作ります．Webデータ収集を自動的に行うクローラー付き．Googleのようなページランキング機能はありませんが，一応，サーチエンジンの基本機能を備えます．自慢は，このテキストが実質A4で印刷して2ページくらいであること．数学の小問を解いていくように，順番に小問を解いていくと，最後にはWebサーチエンジンができます．ミソはサフィックス・アレイ(suf

j7400157 2009/12/03

リンク

転置インデックスを実装しよう - mixi engineer blog

相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。デモモチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら（テンプレートはこちら）です。でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

j7400157 2009/07/02

リンク

TechCrunch | Startup and Technology News

“Running with scissors is a cardio exercise that can increase your heart rate and require concentration and focus,” says Google’s new AI search feature. “Some say it can also improve…

j7400157 2008/06/20

リンク

Google AJAX Search API で Google検索 with はてぶ (でぃべろっぱーず・さいど)

Google AJAX Search APIを使って、Googleの検索結果にはてなブックマークのブックマーク数と、コメントを出力してみました。 Google検索 with はてぶ Google AJAX Search APIは、リリースされた直後くらいにちょっと触ってみて、それっきりになっていたのですが、ちゃんとバージョンアップを重ねてきていたんですね。検索処理の前や後に特定の処理を実行したりできるようになっていて、びっくり（前からできた？）。これでかなり色んなことができそう。 Google Custom Search Engineで作ったカスタム検索との連携もできるようなので、もっと遊んでみることにします。

j7400157 2008/05/28

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

j7400157 2008/05/14

リンク

旧人力検索系

Add a customizable search box to your web pages and show fast, relevant results powered by Google Search.

j7400157 2007/08/07

リンク

スクレイピングはもっと簡単にならなければいけない - bits and bytes

スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけどデモムービーを見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

j7400157 2007/06/12

リンク

完全自動型検索エンジン『アンドロイド』

[PR]御社のサ－ビスにも”自動検索エンジン”機能を実装しませんか？検索キーワードの入力すら省ける時代の到来です！ユーザの属性・趣旨趣向に合わせ、任意の検索結果に誘導する事が実現できます。どのようなサービス、コンテンツでも自動検索エンジンに対応できます。（ただし例外もあり）しばらくは商用、非商用問わず無償で対応させて頂きます。（ただし、事前審査制）お気軽に、satoru.netまでお問い合わせくださいませ。 ©satoru.net 2007.04.24

j7400157 2007/06/04

リンク

カテゴリーキラークローラーという案：ナレッジ！？情報共有・・・永遠の課題への挑戦：オルタナティブ・ブログ

谷川さんのエントリ「Feedの話を聞いていて、クローラに興味を持った」にむしろクローラのほうが面白そうだという感想が書いてあって、現時点ではこれにはまったく同感なのと、以前から考えていたことがあるのでちょっと書き始めてみたい。ネットには90：9：1の法則というのがあって、情報発信者の数は受信者に対してかなり少数である。だからこの少数派を取り込んで便利な機能を取り込んでいくとかネット全体をセマンティック化するというアイデアはアリだと思うし、それはネット全体の発展に繋がる良い動きだと思う。しかし少数とはいっても大勢の情報発信者側を取り込むには時間が必要だし、なによりそういったサービス提供の為の投資資金の回収モデルが難しい。となるとやはり、割合的に多数でマーケットして魅力のある受信者側に取り入るような便利なサービスを立ち上げるという選択肢もまたアリなんだと思う。というか、むしろこっちの戦略を取

j7400157 2007/05/29

リンク

ネット上での評判を調べてくれるシンプルツール『sucks-rocks』 | 100SHIKI

これ、おもしろい。 sucks-rocksではある単語に関してネット上から情報を収集、その単語がどれぐらいポジティブ（もしくはネガティブ）に捉えられているかを計算してくれる。もちろんコンピュータがやっていることなので100%正確ではないが、なんとなくそれっぽい結果が出てきて楽しい。気になる製品や会社、人物名などをいれて比較すると興味深い事実が浮かび上がってくるのかもしれない。また結果は並び替えができたり、固定リンクを取得できたりするので活用のしがいがあるだろう。定点観測をしてみてもおもしろいかもしれないですね。こうした「ネットでの評判」を知ることのできるシンプルツールはもっと出てきて欲しいですね。管理人の独り言『モバイルナビ会議 sponsored by ナビタイム』さて先日からお知らせしている次回無料セミナーですが、『モバイルナビ会議 sponsored by ナビタイム』

j7400157 2007/03/01

Search

リンク

事典検索システム Cyclone

事典検索システム Cyclone （サイクロン）とは？様々なページから言葉に関する説明を自動的に集めて，Webを事典（辞典）のように使うためのシステムです．

j7400157 2007/03/01

Search

リンク

bulkfeeds.net - contact with domain owner | Epik.com

This domain name registration has expired. If you are the domain owner, please contact support@epik.com to get the renewal taken care of.

j7400157 2007/02/28

リンク

知能を持つアバター？

暗い話題ばかりだとアレなんで。昨日見つけた気になるニュース。京都大学の西田豊明教授らが、本人に代わって質問に答えてくれる「分身」をコンピュータ上に作る技術を開発したとのこと： ■ 蓄積データ活用　チャットができる -- 有名人とも仮想会話？（東京新聞）システムの名前は「エゴチャット」。なんだか怪しげなネーミングですが、「過去の会話内容などから、新たな質問に対して最適な回答を探し、音声で答える」という優れもの。インプットとなるデータは、メールなどでも良いようです。ちなみに以下のリンクが、記事中でも紹介されていた東大のサイト。実際に構築されたシステムを見ることができます： ■ EgoChat番組表（東京大学工学部・大学院工学系研究科）まだまだ見てくれには進化が必要だと思いますが、これが過去に蓄積されたデータ（このシステムをつくるために作成されたのではないデータ）から回答を自動生成している

j7400157 2007/02/28

blog
Search

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

Searchに関するj7400157のブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス