タグ

algorithmとsearchに関するuchiuchiyamaのブックマーク (16)

  • プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ

    勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。

    プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
  • 「事務職リーマンがwebサービスを作ってみた話」のトラックバックに対するトラックバッ

    楽天の商品ページを日語処理する際の概要について。 これは、「事務職リーマンがwebサービスを作ってみた話」のトラックバックに対するトラックバックです。 サイズデータ抽出の正確性についてもちろん、この手のアルゴリズム処理に「完璧」は存在しません。 ですが、拾った結果の品質を数百個ばかり、サンプリングで調査した範囲では、商品サイズを拾える商品のうち、9割を大きく超える率で、正しいサイズを拾えていますので、 「たまにはミスってますが、おおよそ役に立つ」 レベルの認識率は十分に達成していると思ってます。 もちろん、検索できる商品数が尋常じゃないので、サイズ抽出をミスっていそうな商品を狙い撃ちで探すと、結構見つかったりはしますが。 ちなみに、上記の「商品サイズを拾える商品」という表現には、レトリックがありまして、結構、楽天ではサイズが画像のみで記載されている商品もありまして、そういうものは、当然、

    「事務職リーマンがwebサービスを作ってみた話」のトラックバックに対するトラックバッ
  • Google アプリ - Android や iPhone でアプリをダウンロード

    さらに詳しく もっと探そう Explore plant cells and more up close 宿題をていねいにサポート

    Google アプリ - Android や iPhone でアプリをダウンロード
  • 計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について - デー

    まだgithubにはpushしていないのですが、さいきょうの組み込み型画像検索エンジンotamaに計量学習を用いて与えられたデータにあった画像間の距離関数を学習してそれを使って検索するというドライバを入れたので、先行的なデモとしてアニメ顔類似検索v3を作ってみました。 計量学習は、ベクトル間の距離の計り方を機械学習で決めるみたいな分野です。 アニメ顔類似検索v3 AnimeFace Search v3 - Otama LMCA_VLAD_HSV Driver randomボタンを押すと顔画像がランダムに出るのでどれかクリックするとそれをクエリに検索します。color weightは色の重みを調節するパラメーターで、1にすると色だけで検索します。0にすると形状やテクスチャだけで検索します。結果画像の上の数字は類似度的なもので、その横のgglは元画像をGoogle Search by Imag

  • [SEO] スマートフォンと検索エンジン Q&A (2013年1月版) ::SEM R (#SEMR)

    [SEO] スマートフォンと検索エンジン Q&A (2013年1月版) 検索エンジンとスマートフォンのよく尋ねられる質問とその回答。2013年最新版。 公開日時:2013年01月08日 23:07 サイトでも過去に何度かにわけて、スマートフォンと検索エンジンについてお客様からよく尋ねられる質問とその回答について記事にしてきましたが、前回公開時から1年あまりの月日が経過し、状況も一部変わってきています。新年を迎えたところで、改めて最新情報にアップデートしたQ&Aをまとめておきます。 スマートフォンから検索した時のGoogle検索結果 検索結果画面の表示に関する事柄について Q1) デスクトップPCから Google を利用した時に表示される検索結果と、スマートフォンやタブレットから Google を利用した時に表示される検索結果に違いはありますか? A1) デバイスを問わず、検索インデック

    [SEO] スマートフォンと検索エンジン Q&A (2013年1月版) ::SEM R (#SEMR)
  • ページランク - Wikipedia

    ページランク (PageRank) は、ウェブページの重要度を決定するためのアルゴリズムであり、検索エンジンのGoogleにおいて、検索語に対する適切な結果を得るために用いられている中心的な技術Googleの創設者のうちラリー・ペイジとセルゲイ・ブリンによって1998年に発明された[1][2]。名称の由来は、ウェブページの"ページ"とラリー・ペイジの姓をかけたものである。 PageRankはGoogleの商標であり、またPageRankの処理は特許が取得されている[3]。ただし、特許はGoogleではなくスタンフォード大学に帰属しており、Googleはスタンフォード大学から同特許の権利を独占的にライセンスされている。なお、同大学は特許の使用権と交換にGoogleから180万株を譲渡されているが、その株式は2005年に3億3,600万ドルで売却された[4][5]。 PageRankの動作概

  • Google の秘密 - PageRank 徹底解説

    INDEX はじめに PageRank の基概念 どうやって PageRank を求めるか 現実に適用する際の問題 Namazu での実装実験 PageRank に対する個人的見解 参考文献 おまけ:「グーグル?/ゴーグル?」 Since: Thu Feb 1 18:22:44 JST 2001 Last Refreshed: Sat Jan 24 18:30:35 JST 2004 ★(2004/1/24) Yuan Huanglin氏によって ページの中国語訳 が作成されました。 ★(2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。 詳しくは サポートページをご覧ください。 ★(2003/5/20) Google に関するオンラインニュース記事一覧(日語記事のみ)を 別ページ(googlenews.html) として分離しました。 ★(2001/2/

  • 類似画像検索システムを作ろう - 人工知能に関する断創録

    C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。 指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文(Datta,2008)を読むと1990年代前半とけっこう昔から研究されてます。 最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

    類似画像検索システムを作ろう - 人工知能に関する断創録
  • Passion For The Future: 無敵会議第10回 検索会議 満員御礼に感謝 報告第3弾

    無敵会議第10回 検索会議 満員御礼に感謝 報告第3弾 スポンサード リンク さて、第3部はヤフー、リスティング事業部の宮崎氏によるYahooSearchTechnology概要説明から始まりました。YSTとは何か、どのような仕組みで検索結果の表示順位が決まるのか、が話の中心でした。 Yahoo!は2004年5月31日まではGoogleのエンジンを使っていましたが、この日を境に独自開発したYSTに乗り換えました。当時の経緯はCNETで私がスクープ記事を対談形式で書いていますのでご参考まで。 ・対談:日における検索の未来 - データセクション 橋大也 vs ヤフー 志立正嗣 - CNET Japan http://japan.cnet.com/column/search/story/0,2000050605,20068928-2,00.htm さて、なぜ宮崎氏に検索アルゴリズムをお話いた

  • Yahoo!が独自検索技術の「YST」検索アルゴリズムを刷新

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    Yahoo!が独自検索技術の「YST」検索アルゴリズムを刷新
  • リコメンドの裏側 : LINE Corporation ディレクターブログ

    『livedoor グルメ』の根岸です。今日はlivedoor グルメにも実装されている「リコメンド(=お勧め)」機能の話です。 マクドナルドの「ご一緒にポテトもいかがですか?」という店員の接客コメントは、誰もが知っている典型的な決まり文句ですよね。でも、誰にでもポテトをオススメするのは、芸がない。「俺はイモが嫌いなんだ!」っていう人だって絶対にいます。 インターネットでOne-to-Oneマーケティングの時代になると、ユーザーの動向を分析し、各ユーザーごとに興味を持ちそうな商品を予想して、お勧めするようになりました。たとえば、『Amazon』にログインして「マイストア」を選ぶと、それまでの購買履歴をもとにお勧め商品がリストアップされます。 僕のマイストアだと、 『笑う大天使(ミカエル)』 『ウォーターボーイズ』 『リンダリンダリンダ』 などのDVDが、リストアップされています。上記はいず

    リコメンドの裏側 : LINE Corporation ディレクターブログ
  • 全文検索エンジン FlexSearch - グニャラくんのグニャグニャ備忘録@はてな

    全文検索エンジン FlexSearchというものがあるようだ。 違いを吸収した検索 | 傀儡師の館.Python - 楽天ブログ 特徴は以下のとおり。 「FlexSearch」は、文字間をラバーバンドで連結して 伸縮させるように類似文字列を検出する、 Rubber Band Matching(RBM -ラバーバンドマッチング) アルゴリズムを採用しています。 RBMアルゴリズムを採用することで、 表現の差違を吸収して検索対象を抽出できます。 例えば・・・ 部分文字列(文字の部分一致で検索) 「高齢化問題」 将来の「高齢化」社会において・・・ 文字の挿入(キーワードに文字を追加して検索) 「ゴミリサイクル」 ゴミのリサイクル問題が・・・ 文字の欠落(キーワードから文字を削除して検索) 「女子中高生」 女子高生に人気の・・・ 文字の置換(キーワードを置換えて検索) 「ドボルザーク」 ドヴォルザ

    全文検索エンジン FlexSearch - グニャラくんのグニャグニャ備忘録@はてな
  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

  • レビュー検索あれこれ - mixi engineer blog

    こんにちは。夏休みが待ち遠しくって、夜なべしては旅行関係のサイトを巡っているmikioです。休みといえば、お出かけして美味しいランチべたり映画見たり、あるいは家で読んだりゲームしたり音楽聞いたりしますよね。そんなあなたにお薦めしたいのがレビュー検索です。今回は、そこでのtipsや開発裏話などをお届けします。 mixiレビューとは、amazon.co.jpやぐるなびなどにある商品や店舗などについてユーザの皆さんがレビューを投稿できる機能です。気に入ったり気に入らなかったりする商品などについて一言言いたくなるのが人情というものですが、普通のmixi日記で言及するよりもレビューを書く方が後で読んだ時に有用です。レビュー機能の特徴は、1点から5点までの満足度をつけられることと、写真や説明などの関連情報が参照できることと、そして何より、他のユーザがその商品につけたレビューと比較できることです。

    レビュー検索あれこれ - mixi engineer blog
  • 『コンピュータを使わない情報教育 アンプラグドコンピュータサイエンス』

    『コンピュータを使わない情報教育 アンプラグドコンピュータサイエンス』 監訳者:兼宗進 翻訳者:正田良、鎌田敏之、紅林秀治 翻訳協力者:西田知博、井戸坂幸男、保福やよい 追補執筆者:久野靖 ISBN978-4-904013-00-7 C3037 \1,500E 2007年9月1日第2刷 ★ご購入方法 ジュンク堂池袋店に常備しております。 JUNKUDO BOOK WEBからご購入できるようになりました。 ※お問い合わせ ご購入、仕入れに関してはkyutaro@urap.orgにメールでお問い合わせください。 原著者たちは普段、コンピュータアルゴリズムの専門家として数式に囲まれながら研究を進めているはずですが、このでは10年以上前に、ティム・ベル博士が当時小学生だったお嬢さんに教えたときの体験を元に書かれているため、とても楽しく、わかりやすい内容

  • vincent krutler

    The Google PageRank Algorithm in 126 Lines of Python Reading How Google Finds Your Needle in the Web's Haystack I was surprised by the simplicity of the math underlying the google PageRank algorithm, and the ease with which it seemed to be efficiently implementable. Being able to do a google-style ranking seems useful for a wide range of cases, and since I had wanted to take a look at python for

  • 1