タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

AlgorithmとALgorithmとSearchに関するagwのブックマーク (52)

  • グーグル、検索アルゴリズムを少しずつ明らかに

    Googleは、同社の検索エンジンの内部動作について、少し秘密にしすぎていたという結論に達した。 同社はこれまで、何を検索結果一覧の先頭に表示するかを決定するアルゴリズムについて、あえて公表を避けてきた。同社の検索品質に関するエンジニアリング担当バイスプレジデントを務めるUdi Manber氏は米国時間5月21日付けのブログ投稿で、その理由の1つは、競合他社による模倣を防止するためであり、また別の理由としてはそれを悪用するウェブサイトの出現を防ぐためであったと述べた。しかし今後は、もう少し公開していく予定である。 「完全な秘密主義を貫くのは理想的ではない。このブログ投稿は、今後はこれまでよりももう少し公開していこうという新たな決意を示すものである」とManber氏は述べている。「これからは定期的に新しい部分について語り、古い部分を説明し、アドバイスをし、情報を公開し、対話していくよう努力す

    グーグル、検索アルゴリズムを少しずつ明らかに
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • Ngram(N-gram)とは何か & 形態素解析との比較

    全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C言語 / C++ 6.検索エンジン&SEO 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.パソコン 13.Berkeley DB 14.その他技術系 15.企画 16.スマートフォン 17.鑑賞 18.皆声.jpニュース 19.インターネット業界 20.運用マニュアル(自分用) 21.技術系以外実用書 22.料理 23.ALEXA 24.アニメ 25.会計 26.漫画 27.設計書 28.色々サイト作成 29.サーバー 30.自分専用 31.生活 32.OP/ED/PV 33.ゲーム 34.DB整備 35.新規開始作品紹介 36.英語圏の話題 37.大道芸 38.映画 39.PHP 40.ダイエット 41.Mac 42.JavaScript 43.MySQ

  • 404 Blog Not Found:アルゴリズム百選 - 二分探索(binary search)

    2007年12月04日08:30 カテゴリアルゴリズム百選Math アルゴリズム百選 - 二分探索(binary search) 今回は二分探索を取り上げます。 検索:コンピューターの最もよくある利用法 「二分探索って何?」「ググレカス」と言われないためにこの記事は存在するのですが、Webの検索に限らず、「目的のデータを見つけて取り出す」というのは、およそコンピューターの利用法で最もポピュラーなものです。 配列:コンピューターがデータを扱う根的な方法 そのデータはコンピューターのなかでどう置かれているかというと、非常に単純です。デジタル化されたデータ=数値が一定間隔で並んでいるだけです。こういうデータ構造を、配列(array)といい、この数値一個一個のことを要素(element)と言います。 現代のコンピューターでは、最小要素はバイト(byte)と呼ばれています。このバイトの中には0と1

    404 Blog Not Found:アルゴリズム百選 - 二分探索(binary search)
  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2025 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • 第5回 N-gramのしくみ | gihyo.jp

    前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

    第5回 N-gramのしくみ | gihyo.jp
  • Web2.0ナビ: Wikipediaが検索上位表示される理由

    いいね! 1 ツイート B! はてブ 129 Pocket 2 このごろ検索結果の上位にWikipediaの個別ページが上位表示されていると思いませんか?ググる度にWikipediaのページがヒットする。 例えば、「織田信長」といった人名はWikipediaの得意分野。「ラーメン」なんていう一般名詞も大丈夫。SEOの達人だ。 一体なぜこんなにヒットするのか?実は下記のような理由がある。 1.大量のインデックス数 WikipediaGoogleでのインデックス数は「4000万」もある。単純に大量のページがあれば、それだけWikipediaのページを検索結果で見かける機会は多くなる。アクセスアップの大原則だ。 2.大量のページ数 インデックス数と同義ともいえるが、Wikipediaの場合は、すべてのページが異なるテーマを扱っている。サッカーのサイトで4000万ページを持っているのと、世の中の

  • ITmedia News:Googleの限界は「人の手」で破る――国産の新検索「想」

    高野教授は「人間ができることを機械が10倍のスピードでやってくれるなら、たとえ質が7割落ちてもそっちを選ぶ人は多い」と嘆く 「Googleは確かに便利だが、大きな問題がある」。国立情報学研究所(NII)の高野明彦教授は指摘する。「プロの手による知識を、そこここで台無しにしている」というのだ。 Googleは、被リンク数などを尺度とした独自のアルゴリズムでサイトの重要度を機械的に判定するため、検索結果の表示順と情報の信頼性は必ずしも比例しない。これがGoogleの「唯一最大の問題」という。 「Google上では、記者が現場を歩いて裏を取った新聞記事も、ネット上の情報を写しただけのブログ記事も同列。情報の質や、経過の“差異”が失われる」。ネットが誕生するはるか以前から培われてきたプロの手法も、ロボット検索の前には無力だ。 高野教授がこれまでに開発してきた検索システムも、同じような問題に直面して

    ITmedia News:Googleの限界は「人の手」で破る――国産の新検索「想」
  • ITmedia News:アルゴリズム検索はもう限界か

    インターネットの進化を振り返ると、その発展の過程はニューヨークのマンハッタン島の歴史とよく似ている。どちらも最初に住所システムが作られた。片や碁盤目状のストリート(東西方向)とアベニュー(南北方向)、片や8ビットの数字で表されるツリー構造のIPネットとサブネットだ。この2つの体系的な住所システムは、どちらも後に、名前による場所の表記が組み合わされた。前者では地下鉄の駅名、後者ではDNSディレクトリだ。 だが現状では、この豊かで多様などちらの空間でも、そこに詳しい人以外が一般に目にするものは、そのリソースのごく一部に限られてしまっている。よそからニューヨークを訪れる人は観光ガイドに相談するし、一般のインターネットユーザーは、Googleが検索結果の最初のページに表示するものしか見ないからだ(4月26日の記事参照)。どちらの場合も、見えない力が選択肢を狭め、ほとんどのユーザーは排除された選択肢

    ITmedia News:アルゴリズム検索はもう限界か
  • OBB vs AABB - Radium Software Development

    This domain may be for sale!

    agw
    agw 2006/01/18
    Utah Teapotの起源。
  • 高林哲の検索技術論

    最終更新日: 2004-10-08 (公開日: 2004-10-08) 日経バイト 2004年 1月号に掲載された記事の元の原稿です。実際の 誌面の記事は編集が加わり、もっと読みやすいものとなっています。 この記事は日経バイトの「技術の真髄」という連載向けに書きまし た。連載の内容は 「ソフトウェアの匠」 という書籍にまとめられ、記事も収録されています。 はじめに 数年前まではよく耳にしたが最近ではあまり聞かなくなった話題と いうものがある。情報の氾濫が深刻化して必要な情報を見つけ出せ なくなる云々、というのもそのひとつだ。実際に深刻化が収まって きたのか、単にニュースとして取り上げられなくなっただけなのか 不明だが、近年、インターネット上の検索技術は情報の急激な増加 に追いつくべく格段に向上している。 現在ネット検索の代名詞になっているGoogle社は、ミッションと して「世界中の情報

    agw
    agw 2005/12/04
    良記事。