\閉鎖予定のサイトも売れるかも?/ アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう
\閉鎖予定のサイトも売れるかも?/ アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう
先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語のデータの並び順がひっくり返っているために、転置インデックスに「転置」という語が付けられます。転置インデックスの形式であれば見出し語ごとに求めるべきデータが固まっているので、求めるべき文書IDと出現位置の集合が高速に得られます。Googleでは複数台のマシンを使った分散処理で表2の形式から表3の形式にデータを変換しており、この操作をMapReduceと呼ぶしくみを通じて実現しているということです。 FINDSPOTの転置インデックス構造 FINDSPOTの転置インデックスを設計する際には、いくつかの前提条件について吟味する必要がありました。 まずは扱うデータの分量です。FINDSPOTで扱うデータ量は平均500字程度の文書で100万件というのが当初の目標値でした。トータルの文字数は、500字
インターネットでは検索エンジンがごく普通に使われているが、意外なことにイントラネット上ではまだ検索エンジンはそれほど普及していない。原因としてはパブリックな情報だけを対象にするインターネット向けに比べて、権限周りなどの設定が複雑だということが挙げられる。 トップページ。シンプルな画面 だが、そうした権限を細かく指定しない前提であれば、使える全文検索エンジンは多数あるだろう。Web上の情報向けの全文検索エンジンとして、こちらを紹介しよう。 今回紹介するオープンソース・ソフトウェアはどこかな?、イントラネット向けの全文検索エンジンだ。 どこかな?は社内向けTwitterクローンである「しゃべる」の作者によるソフトウェアだ。TomcatやSeasar2などを使って開発されており、全文検索部分はLuceneによって実現されている。Windows向けにはインストーラーが、Linux向けにはパッケージ
今回は、Windows環境のテキスト抽出方法の代表格といえるIFilterについてとりあげます。 IFilterの構造 現在、さまざまなWindowsのシステム上では、Windows Indexing Service, Windows Desktop Search, SharePoint Server 2003/2007, Microsoft Search Server 2008などのMicrosoftの全文検索エンジンが動作します。これらのソフトウェアでは、各ファイルからテキスト情報を抽出するためにIFilterと呼ぶフィルタを用いています。最近では、Microsoft SQL ServerのフルテキストインデックスもIFilterを利用しており、IFilterは多くのMicrosoft製品で利用されています。 また、Microsoft以外の多くのベンダの開発する検索エンジンや、文書管理
前回は、テキストファイルとHTMLファイルからテキスト情報を抽出する方法について解説しました。今回はMicrosoft Word等に代表されるアプリケーション固有の文書ファイルからテキスト情報を抽出する方法についてとりあげます。 アプリケーション固有の文書ファイル型式 世の中のアプリケーションの多くは、それぞれ固有のファイル型式で情報を保存しています。たとえば、Microsoft Wordは拡張子.docや.docxのファイル型式、Adobe Acrobatは拡張子.pdfのファイル型式という具合です。そして、各アプリケーションの固有のファイル型式仕様は、オープンになっているものもあれば、アプリケーションベンダがまったく公開していないものもあります。 仕様がオープンになっている文書ファイル型式のファイルからテキスト情報を抽出するには、公開仕様に基づいて文書ファイルを解析し、ファイルの中から
2008/05/15 インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。 ネット検索の歴史:数から順位への転換 Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。 グーグルが登場する以前、各検索サイトは、自分たちがいかに多くのWebページをクロールし、検索に対し
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。 日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
Design Resources Search Engineは、DeviantartやBittboxやVecteezeyなどの素材サイトを対象とした、デザイン素材専用の検索エンジンです。 Design Resources Search Engine キーワードに「flower」などの単語をいれると、そのデザイン素材が検索結果に表示されます。 「flower png」「flower psd」など拡張子をいれてもいいかもしれません。
アルゴリズム検索の結果を相手に仕事をしている検索マーケティング担当者の大多数は、自分たちが少なくとも検索エンジンの「最新アルゴリズムを把握している」と主張しているし、僕がこれまでに聞いた(あるいは、そういう意味で言えば、担当した)クライアント仕事では、9割方この話が少なくとも1回は話題に上っていた。 しかし、この点については、まだ多くの点で本当のことがわかっておらず、最近SEOに手を染めたばかりの人たちにとっては、おそらく最も気の重い側面だろうと思う。 というわけで、みんなの苦労を少しでも軽くするため、しょっちゅう変わり続ける検索エンジンの検索結果算定式に、どうすれば遅れを取らずにいられるかという問題に関して、みんなが持つ共通の疑問に答えておいたほうがいいんじゃないかと思ったんだ。 アルゴリズムとは何か? グーグル、ヤフー、マイクロソフトは、それぞれどのようにして、検索アルゴリズムを検索結
検索エンジン相関図 2008年1月版。検索連動型広告の掲載パートナー、ロボット型検索エンジンの主要な提携先等をまとめています。今月からPCとモバイルのコンテンツ連動型広告相関図を追加しました。 PC 検索エンジン 主な動き 今回はロボット型、ディレクトリ型、検索連動型ともに大きな変更はありません。ただし、ウェブ検索の2強、Yahoo!とGoogleは検索利用者の意図を汲んだ機能の改良を行っています。 Yahoo!は検索キーワードがYahoo!ニュース内の記事と合致し、かつユーザーがリアルタイム情報を求めていると判断される場合にウェブ検索結果にニュース記事へのリンクを表示するようになっています。また、Googleは地域系キーワードと組み合わせて検索した時に、ウェブ検索結果上に地図と地域情報、口コミへのリンクを表示しています。特にGoogleはユーザーの意図に適したデジタルコンテンツを表示する
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
Google検索をちょっこっと便利にしてくれるGreasemonkeyのご紹介。 この「GoogleTagCloudMaker」を使えば、検索結果の横に主要キーワードをタグクラウド的に表示してくれます。「あぁ、この検索結果はだいたいこういうことなのね」とわかってなかなか便利。 » GoogleTagCloudMaker ためしにいくつか検索してみましょう。どういう動作をするのかは以下に画像でご紹介。 ↑ たとえば「百式」で検索します。検索結果の横にタグクラウドが表示されます。これらのタグは検索結果に出てくるキーワードから生成されています。 ↑ タグの上にマウスを持っていくと、そのタグに関連する検索結果だけが絞り込まれて表示されます(とのことですが、日本語だとちょっと微妙・・・でも便利な機能ですね)。 ↑ 次に「バブルマップ」で検索。タグクラウドを見れば「ToDo管理に関することなのだな・・
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く