Search packages with names matching regexp. (A package's name is its URL or CVS server information.) package:perl.*\.tar\.gz Frodo package:linux-2.6 int\ printk
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
悪態のプログラマとある職業プログラマの悪態を綴る。 入門書が書かないプログラミングのための知識、会社の研修が教えないシステム開発業界の裏話は、新人プログラマや、これからプログラマを目指す人たちへのメッセージでもある。 プログラミングを行う際に、既存のソースコードを流用することは多い。自分が過去に書いたコード、周囲の仲間が持っているコード、ヘルプや書籍に掲載されているコード。ネットで探せば、最新技術やマイナーな技術のものでも、何かしら発見できることだろう。 Yahoo! や Google のような一般的な検索エンジンでも、適切なキーワードを指定すれば、ソースコードを検索することができる。コードによく出てくる文字列(例えば、C言語なら「include」や「void」など)を含めて検索すればよいだろう。 こうした一般のページ検索では、コードの解説や関連情報なども見つかるので有意義だ。しかし、一方
ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析Webサービス」を公開した。 日本語形態素解析Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。 このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。 また、すでに公開済みのAPIから取得したデータを解析することもでき
Krugle Labs | Krugle Search + AI Krugle opensearch is now available with Artifical Intelligence (AI) capabilities. This integration demonstrates how code search and AI combine to deliver expert-level code quality, security, maintainability and performance consulting to every developer's desktop. Video Demonstration Try Krugle Search + AI Application Security Krugle provides immediate, accurate and
以前から、Google Web APIsとしてGoogle以外のアプリからSOAP経由でGoogleの検索結果を取得することは出来たのですが、JavaやPerl等でSOAPプログラミングをするのは僕のようなフツウの人からすれば「ムリメ」であったことは否めません。そんなムリメだった高嶺の花が、アナタの手の届く距離まで近づいたかもしれません。そんな隣のお姉さんのような庶民派のAPIが、今日ご紹介する「Google AJAX Search API」です。Google AJAX Search APIって何?読んで字の如く、という説明になってしまうのですが。Google AJAX Search APIはJavascriptから利用することができるGoogle検索のAPI。使い方はJavascirptに関するちょっとした知識のある方であれば、基本的な部分は「あっちゅうま」に分かる位簡単です。まずは、G
米GoogleインターナショナルプロダクトマネージャーのAngela T. Lee氏は、Google初のインターナショナルプロダクトマネージャーとして入社してからの4年間、Googleのサービスの国際化に力を注いできた。「CNET Japan Innovation Conference(CJIC)2005 Autumn 次世代ウェブの検索サービスを探る」でGoogleのサービス開発姿勢について講演したLee氏に、Googleの最新動向や国際化戦略について聞いた。 --先日開始したアクセス解析サービス「Google Analytics」が大きな話題となっています。 Google Analyticsは、今年に4月に買収したUrchinという企業の技術を使ったサービスで、ウェブページのアクセスログを解析するサービスです。AdSenseなどを利用している人やEコマースのサイトはもちろんのこと、そう
This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co
更新履歴 2004/01/07 O(N) 構築アルゴリズム三種追加(Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。 ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報(例えば、単語の出現回数など)を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。 膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。 また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分(例えばCCAG)を調べるといった場合
「Fun With Google Code Search」によると、 Google Code Searchを使って脆弱なソフトウェアを見つけられてしまうそうです。 実際に、Google Code Search経由で発見されてサーバを乗っ取られた事例が「How Hackers Are Using Google To Pwn Your Site」という記事で紹介されています。 ShoeMoneyが乗っ取られた事例では、恐らくWebサーバの設定ミスで.phpファイルの関連付けを行わない状態で、Google Sitemapsに登録してしまったため、Google Code Searchに自作コードが載ってしまい、それを見たクラッカーがサイトを乗っ取ったのであろうと思われます。 バッファオーバーフロー strcpy : strcpy\((\w+,\w+) lang:c sprintf : (sprin
経済産業省は、「日の丸検索エンジン」について50億円を概算要求することを決めた。これは初年度だけの予算で、総額は300億円といわれる。これについて取材した記者が、経産省の担当者に「過去に第5世代コンピュータやシグマ計画が失敗したことをどう考えているか?」と質問したところ、驚いたことに「知らない」と答えたそうだ。第5世代については、先日の記事でも紹介したので、シグマについてごく簡単にまとめておく。 シグマ計画は、1985年から5年かけて250億円の国費をつぎこみ、国内のコンピュータ・メーカーを集めて、日本語で使えるUNIXツールの標準規格をつくろうという計画だったが、これについての通産省の事後評価は存在しない。業界でも、シグマの話はタブーとされており、ウェブにも関連する情報はほとんど出ていない。当事者の話としては、提唱者のインタビューや「被害者」の書いた本でふれられている程度である(その他
米O'Reilly Mediaは1月23日(米国時間)、同社のオンラインサービス「Safari Books Online」に新しいサービス「Rough Cuts」を追加したことを発表。これは出版前の書籍データにアクセスして閲覧できるというサービスで、関係者の多くを驚ろかせた。同社のオンライン書籍サービスはすでに2000年には開始されている。同社はその書籍が多くのデベロッパから人気を得ているが、Web 2.0という概念の提唱やRough Cutsなど話題作りにも事欠かない。 そんな同社からまた新しいサービスが提供されている。技術書籍を手がけ、Web 2.0を提唱した同社らするとそれほど驚くべきことでもないのかもしれないが、同社の書籍やオンライン書籍サービスを活用しているユーザとしては大きな恩恵を受けることができるものだろう。本稿では同社の新しいサービス「Code Search」を紹介する。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く