タグ

algorithmとsearchに関するhiromarkのブックマーク (13)

  • 大規模グラフデータベースの類似度検索ソフトウェア(gWT:graph-indexing wavelet tree)を公開しました - Yasuo Tabeiの日記

    昨日のブログで紹介した大規模グラフの類似度検索のC++による実装(gWT:graph-indexing wavelet tree*1 )を公開しました。googlecodeよりダウンロードすることができます。 初めに、gWTはgwt-buildによりグラフデータベースの索引付けを行います。以下にサンプルを示します。 ./gwt-build -iteration 2 ../dat/mutagen.gsp index この例では、mutagen.gspが入力のグラフデータベースファイルで、indexが索引の出力ファイルです。-iterationオプションでは、Weisfeiler-Lehman手続きのイテレーション回数を指定します。ここでは2回に指定しています。入力ファイルの形式は、各行がノードラベルまたはエッジラベルとノードとの接続関係を表現します。各行の意味は以下を参照してください。 "t

    大規模グラフデータベースの類似度検索ソフトウェア(gWT:graph-indexing wavelet tree)を公開しました - Yasuo Tabeiの日記
    hiromark
    hiromark 2011/05/10
    要チェック。
  • Googleアルゴリズム200項目全てを特別公開 | フォーデザイン

    Googleアルゴリズムの200の要素を発見しましょう!(Let’s Try to Find All 200 Parameters in Google Algorithm) は2009年に書かれた記事ですが、パンダアップデートが適用された今現在(2011年4月)でも重要項目が多く書かれているもので。 多くはGoogleの特許(合衆国特許出願0050071741)に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。 ドメインに関する13要因 ドメイン年齢 ドメイン取得からの長さ ドメイン登録情報(Who is情報)の表示/非表示 ドメイン種類(サイトレベルドメイン(.com や co.uk) ト

    Googleアルゴリズム200項目全てを特別公開 | フォーデザイン
  • Googleアルゴリズム変更:良サイトに「とばっちり」 | WIRED VISION

    前の記事 「3DS講演と同時に新iPadイベント」の意味 58カ国からの仮想合唱、TED会議で大好評(動画) 次の記事 Googleアルゴリズム変更:良サイトに「とばっちり」 2011年3月 3日 メディア コメント: トラックバック (0) フィードメディア Ryan Singel 米Google社は2月24日(米国時間)、検索アルゴリズムを更新した。コンテンツの質が低いサイトを検索結果の上位から取り除くのが目的だったが、すべてがうまく行ったわけではなかった。 SEOソフトを作る独Sistrix社の分析によると、良質でないとされるサイトの多くが格下げになったが、その一方で、「コンテンツ工場」と呼ばれる『Demand Media』(日語版記事)はほとんど影響を受けなかった。 さらに、良質なサイトの一部で「とばっちり」を受けたところも多い。 Apple社の話題を扱うニュースブログ『Cult

  • トライ(ダブル配列,簡潔データ構造)と STL コンテナ - ny23の日記

    以前実装した構築速度重視の動的ダブル配列 (表中 dda) の構築速度を Darts, darts-clone (0.32g beta5, 0.32e5), DASTrie (1.0), doar (0.0.10),簡潔データ構造を利用したトライ (tx 0.16) ,STL コンテナ (std::map, std::tr1::unordered_map) 辺りと比べてみた.キー集合としては,中規模で疎な集合(Wikipedia 英語版記事タイトル)と小規模で密な集合(郵便番号辞書)を用いた. ====================================================================== Wikipedia-en 記事タイトル | Build | Search | Search* | Size [bytes] =================

    トライ(ダブル配列,簡潔データ構造)と STL コンテナ - ny23の日記
  • 加藤 和彦 Kazuhiko KATO, Dr. Prof.

    加藤 和彦 Kazuhiko KATO, Dr. Prof.
    hiromark
    hiromark 2009/12/03
    学部生の実験テーマとして見事だと思う。
  • 人物情報検索のトレンドご紹介 part3 テキストマイニング技術について

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Yahoo! JAPAN 研究所の山下達雄です。 今回は「Yahoo!人物名鑑」の一要素である「関連人物モジュール」について技術的な解説をしていきたいと思います。よろしくお願いします。 関連人物モジュールは、人物名鑑のページの右カラムにある「関係ありそうな人物名」で使われています。 例)夫木聡さんの場合 ウェブ上のさまざまなテキストデータを分析して、人物同士の関連度を計算し、その関連度の高い人物をタグクラウド形式で表示しています。 関連度の計算には様々なテキストマイニング的な手法を用いていますが、ここではウェブ検索を利用した簡単で効果的を方法を説明します。 ■処理の流れ 分かりやすくするため、関連人物ではなく関連語を

    人物情報検索のトレンドご紹介 part3 テキストマイニング技術について
    hiromark
    hiromark 2009/09/28
    人物情報検索をどんなアルゴリズムで実現してるか概説。
  • 転置インデックスを実装しよう - mixi engineer blog

    相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。 デモ モチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。 インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら(テンプレートはこちら)です。 でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

    転置インデックスを実装しよう - mixi engineer blog
    hiromark
    hiromark 2009/07/03
    転地インデックスの実装について。解説が丁寧。
  • Robust PageRank and Locally Computable Spam Detection Features - 日々の勉強の航跡

    R. Andersen, C. Borgs, J. Chayes, J. Hopcroft, K. Jain, V. Mirrokni, S. Teng Robust PageRank and Locally Computable Spam Detection Features Proceedings of Fourth International Workshop on Adversarial Information Retrieval on the Web 2008. Apr. 論文の在処 概要 Webのspamに関連した論文。 局所的に計算できるcontribution vector*1の近似を用いて、前半ではspamの発見方法の提案、後半ではRobust PageRankという文字通りPageRankをspamに対してrobustにしたランキングシステムの提案をしている。 cont

    Robust PageRank and Locally Computable Spam Detection Features - 日々の勉強の航跡
    hiromark
    hiromark 2009/01/06
    ざっと読んだ。Contribution Vector の近似を用いた spam の発見方法の提案と PageRank を spam に対してロバストにしたランキングシステム。
  • 『はてなブックマークリニューアル』

    日記を相当長い間書いていませんでしたすいません・・・ 今日は、ちょっと時期をのがしてしまいましたが、はてなブックマークリニューアルについて書いてみようと思います。まずは、リニューアルおめでとうございます!>はてなの皆様 今回のはてなブックマークリニューアルでは、弊社は、はてなブックマークのエントリ全文検索に携わりました。弊社の全文検索エンジンである、「Sedue」を用いて、複数台で全文検索機能を実現しています。リアルタイム性と大規模な検索が必要なタスクであったので、Sedueは今回のタスクにぴったりなエンジンでした。 エンジン自体は、もともと分散環境でいかに簡単に動作させるか、が売りのエンジンなので、すぐに稼働させることができました。ランキングの部分は、かなり力をいれていて、id:naoyaさんと弊社のCTO太田、エンジニアの久保田が協力して作成していきました。ランキングは、もうすでに汎用

    hiromark
    hiromark 2008/12/02
    理論と実用のバランスのとり方の部分とかも見えてきて勉強になるなあ。
  • はてなブログ | 無料ブログを作成しよう

    景色変わる6インチヒール ― の話 春頃に買ったすごくお気に入りのがあって、今日はその話をします。 商品としてはこれで、アイボリーとブラックを持っています。 https://store.cityhill.co.jp/item/945970.html アイボリーを買った後、かわいくて歩きやすくて気に入ったのでブラックを追加購入しま…

    はてなブログ | 無料ブログを作成しよう
    hiromark
    hiromark 2008/10/07
    "CCVは、似ている色が密になっているか疎になっているかを表し、色の情報と空間的な情報を共に捉えることができます。"
  • コンテンツマッチの失敗例と形態素解析の必要性

    コンテンツマッチの失敗例と形態素解析の必要性 2008-07-01-3 [NLP][Blog][Book] いしたにさんのブログ「みたいもん!」[mi]にて、紹介もしてないし、関連もないのに、なぜかやたら「チコバイブル」というAmazon おまかせリンク(アマゾンのコンテンツマッチ商品紹介ブログパーツ)で登場するという現象が。 - みたいもん!にはなぜやたらに「チコバイブル」ばかり出てくるのか? http://mitaimon.cocolog-nifty.com/blog/2008/06/post_ab8d.html 謎が解けたようです。 - まさに自業自得のチコバイブル http://mitaimon.cocolog-nifty.com/blog/2008/07/post_c6f5.html まずは答えを先に書いてしまいましょう。 チコ=クチコミ でした!確かにこのブログには死ぬほ

    コンテンツマッチの失敗例と形態素解析の必要性
    hiromark
    hiromark 2008/07/03
    おお、わかりやすい!
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
    hiromark
    hiromark 2008/05/15
    転置インデックスによる検索システム実装の基本。
  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

    hiromark
    hiromark 2008/05/14
    作って実験した結果の知見がまとまっているので説得力を感じる記事ですね。
  • 1