[B! algorithm][search] hiromarkのブックマーク

大規模グラフデータベースの類似度検索ソフトウェア(gWT:graph-indexing wavelet tree)を公開しました - Yasuo Tabeiの日記

昨日のブログで紹介した大規模グラフの類似度検索のC++による実装(gWT:graph-indexing wavelet tree*1 )を公開しました。googlecodeよりダウンロードすることができます。初めに、gWTはgwt-buildによりグラフデータベースの索引付けを行います。以下にサンプルを示します。 ./gwt-build -iteration 2 ../dat/mutagen.gsp index この例では、mutagen.gspが入力のグラフデータベースファイルで、indexが索引の出力ファイルです。-iterationオプションでは、Weisfeiler-Lehman手続きのイテレーション回数を指定します。ここでは２回に指定しています。入力ファイルの形式は、各行がノードラベルまたはエッジラベルとノードとの接続関係を表現します。各行の意味は以下を参照してください。 "t

hiromark 2011/05/10

要チェック。

リンク

Googleアルゴリズム200項目全てを特別公開 | フォーデザイン

Googleアルゴリズムの200の要素を発見しましょう！（Let’s Try to Find All 200 Parameters in Google Algorithm）は2009年に書かれた記事ですが、パンダアップデートが適用された今現在（2011年4月）でも重要項目が多く書かれているもので。多くはGoogleの特許（合衆国特許出願0050071741）に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。ドメインに関する13要因ドメイン年齢ドメイン取得からの長さドメイン登録情報（Who is情報）の表示/非表示ドメイン種類（サイトレベルドメイン（.com や co.uk）ト

hiromark 2011/04/21

リンク

Googleアルゴリズム変更：良サイトに「とばっちり」 | WIRED VISION

前の記事　「3DS講演と同時に新iPadイベント」の意味 58カ国からの仮想合唱、TED会議で大好評(動画)　次の記事 Googleアルゴリズム変更：良サイトに「とばっちり」 2011年3月 3日メディアコメント：トラックバック (0) フィードメディア Ryan Singel 米Google社は2月24日(米国時間)、検索アルゴリズムを更新した。コンテンツの質が低いサイトを検索結果の上位から取り除くのが目的だったが、すべてがうまく行ったわけではなかった。 SEOソフトを作る独Sistrix社の分析によると、良質でないとされるサイトの多くが格下げになったが、その一方で、「コンテンツ工場」と呼ばれる『Demand Media』(日本語版記事)はほとんど影響を受けなかった。さらに、良質なサイトの一部で「とばっちり」を受けたところも多い。 Apple社の話題を扱うニュースブログ『Cult

hiromark 2011/03/04

リンク

トライ（ダブル配列，簡潔データ構造）と STL コンテナ - ny23の日記

以前実装した構築速度重視の動的ダブル配列 (表中 dda) の構築速度を Darts, darts-clone (0.32g beta5, 0.32e5), DASTrie (1.0), doar (0.0.10)，簡潔データ構造を利用したトライ (tx 0.16) ，STL コンテナ (std::map, std::tr1::unordered_map) 辺りと比べてみた．キー集合としては，中規模で疎な集合（Wikipedia 英語版記事タイトル）と小規模で密な集合（郵便番号辞書）を用いた． ====================================================================== Wikipedia-en 記事タイトル | Build | Search | Search* | Size [bytes] =================

hiromark 2010/03/18

リンク

加藤和彦 Kazuhiko KATO, Dr. Prof.

hiromark 2009/12/03

学部生の実験テーマとして見事だと思う。

リンク

人物情報検索のトレンドご紹介　part3 テキストマイニング技術について

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Yahoo! JAPAN 研究所の山下達雄です。今回は「Yahoo!人物名鑑」の一要素である「関連人物モジュール」について技術的な解説をしていきたいと思います。よろしくお願いします。関連人物モジュールは、人物名鑑のページの右カラムにある「関係ありそうな人物名」で使われています。例）妻夫木聡さんの場合ウェブ上のさまざまなテキストデータを分析して、人物同士の関連度を計算し、その関連度の高い人物をタグクラウド形式で表示しています。関連度の計算には様々なテキストマイニング的な手法を用いていますが、ここではウェブ検索を利用した簡単で効果的を方法を説明します。 ■処理の流れ分かりやすくするため、関連人物ではなく関連語を

hiromark 2009/09/28

人物情報検索をどんなアルゴリズムで実現してるか概説。

リンク

転置インデックスを実装しよう - mixi engineer blog

相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。デモモチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら（テンプレートはこちら）です。でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

hiromark 2009/07/03

転地インデックスの実装について。解説が丁寧。

リンク

Robust PageRank and Locally Computable Spam Detection Features - 日々の勉強の航跡

R. Andersen, C. Borgs, J. Chayes, J. Hopcroft, K. Jain, V. Mirrokni, S. Teng Robust PageRank and Locally Computable Spam Detection Features Proceedings of Fourth International Workshop on Adversarial Information Retrieval on the Web 2008. Apr. 論文の在処概要 Webのspamに関連した論文。局所的に計算できるcontribution vector*1の近似を用いて、前半ではspamの発見方法の提案、後半ではRobust PageRankという文字通りPageRankをspamに対してrobustにしたランキングシステムの提案をしている。 cont

hiromark 2009/01/06

ざっと読んだ。Contribution Vector の近似を用いた spam の発見方法の提案と PageRank を spam に対してロバストにしたランキングシステム。

リンク

『はてなブックマークリニューアル』

日記を相当長い間書いていませんでしたすいません・・・今日は、ちょっと時期をのがしてしまいましたが、はてなブックマークリニューアルについて書いてみようと思います。まずは、リニューアルおめでとうございます！＞はてなの皆様今回のはてなブックマークリニューアルでは、弊社は、はてなブックマークのエントリ全文検索に携わりました。弊社の全文検索エンジンである、「Sedue」を用いて、複数台で全文検索機能を実現しています。リアルタイム性と大規模な検索が必要なタスクであったので、Sedueは今回のタスクにぴったりなエンジンでした。エンジン自体は、もともと分散環境でいかに簡単に動作させるか、が売りのエンジンなので、すぐに稼働させることができました。ランキングの部分は、かなり力をいれていて、id:naoyaさんと弊社のCTO太田、エンジニアの久保田が協力して作成していきました。ランキングは、もうすでに汎用

hiromark 2008/12/02

理論と実用のバランスのとり方の部分とかも見えてきて勉強になるなあ。

リンク

はてなブログ | 無料ブログを作成しよう

【献血デビュー】体重が少し足りず400ml献血はできなくとも、献血ルームでの成分献血ならできたぞ、という話いきさつ 2025年の抱負として「400ml献血をできるようになる」を掲げてから、冬を越し春が過ぎ夏が終わ………なかなか終わらないな……8月も終わろうとしている。記事を書いた頃の体重からは1kgぐらい増えたところだ。夏バテなんてどこ吹く風とばかりに、ここ数週間は私の…

hiromark 2008/10/07

"CCVは、似ている色が密になっているか疎になっているかを表し、色の情報と空間的な情報を共に捉えることができます。"

リンク

コンテンツマッチの失敗例と形態素解析の必要性

コンテンツマッチの失敗例と形態素解析の必要性 2008-07-01-3 [NLP][Blog][Book] いしたにさんのブログ「みたいもん！」[mi]にて、紹介もしてないし、関連もないのに、なぜかやたら「チコバイブル」という本が Amazon おまかせリンク（アマゾンのコンテンツマッチ商品紹介ブログパーツ）で登場するという現象が。 - みたいもん！にはなぜやたらに「チコバイブル」ばかり出てくるのか？ http://mit aimon.cocolog-nifty.com/blog/2008/06/post_ab8d.html 謎が解けたようです。 - まさに自業自得のチコバイブル http://mit aimon.cocolog-nifty.com/blog/2008/07/post_c6f5.html まずは答えを先に書いてしまいましょう。チコ＝クチコミでした！確かにこのブログには死ぬほ

hiromark 2008/07/03

おお、わかりやすい！

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

hiromark 2008/05/15

転置インデックスによる検索システム実装の基本。

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

hiromark 2008/05/14

作って実験した結果の知見がまとまっているので説得力を感じる記事ですね。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

algorithmとsearchに関するhiromarkのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス