[B! searchengine] teddy-gのブックマーク

teddy-g id:teddy-g

searchengineに関するteddy-gのブックマーク (39)

How vector similarity search works
teddy-g 2024/02/26
Vectorstoreの検索方法色々についての纏め。備忘。

AI

generativeAI

vectorstore

LLM

NLP

LangChain

searchengine

embeddings
リンク
Similar Websites Search | Similar Sites Like
Similar Websites Search | Similar Sites Like Similar Websites Search is a free tool to find websites similar, alternatives or related to a given site. Are you looking for a free resource to find similar websites of any website? Similar Site Search - Discover webpages similar to the page you're currently browsing. Discover webpages similar to the page you're currently browsing. sitelike.org allows
teddy-g 2021/10/28
似たサイトを探すことができる。べんり。備忘。

searchengine

website

tips
リンク
5 ways to Banner Grabbing
teddy-g 2018/10/18
Banner Grabbingの方法色々。基本的にはスキャンして返ってきたレスポンスから必要な情報を引っこ抜く。Shodanが使ってる手法。

security

cybersecurity

cyberattacks

spider

crawler

scanner

searchengine

server

tips

hacks
リンク
Import APIとFuzzy Hashingでマルウエアを分類する～impfuzzy～(2016-05-09) - JPCERT/CC Eyes
Top > “マルウェア”の一覧 > Import APIとFuzzy Hashingでマルウエアを分類する～impfuzzy～(2016-05-09) 一般に、マルウエア検体の調査は、既知のマルウエアかどうかを判別することから始めます。データベース化された多数の既知のマルウエアと調査検体との比較を高速に実行するために、ハッシュ関数をマルウエア検体に施して得られたハッシュ値が利用されます。ハッシュ関数の中でも、MD5やSHA1などの伝統的なハッシュ関数の場合には、入力データが1ビットでも異なれば、まったく異なるハッシュ値になりますので、完全に同じではないが類似した既知の検体があれば、既知のマルウエアと判定したい場合には役に立ちません。現在では、カスタマイズされた上で攻撃に使われるマルウエアがほとんどであるため、カスタマイズされた検体を類似していると判断できるようなハッシュ関数が望まれ
teddy-g 2017/03/23
Fuzzy Hashでマルウェアを検索

searchengine

algorithm

bigdata

machinelearning
リンク
Locality Sensitive Hashによる類似ベクトル検索を試す - Negative/Positive Thinking
はじめに類似性が高いベクトルのハッシュ値が近い値になるようなハッシュ関数を使って、類似するものを高速に検索することができるので、それを試してみた。 Locality Sensitive Hash 類似するデータが高確率で近い値になる(Locality-Sensitive)ハッシュ関数のこと高次元データの次元圧縮を行える (P1,P2,r,cr)-sensitiveなHash族とは、 2つの特徴ベクトルp,qについて(P1>P2) ||p-q||P1 ||p-q||>crならPr[h(p)=h(q)] を満たすハッシュ関数h:R^d->U コサイン類似度に対するLSH 2つのk次元ベクトルu,vについてコサイン類似度: u*v / sqrt(|u|*|v|) d個のk次元のランダムベクトルr_iを考え、ハッシュ関数h_i(u)を h_i(u) = 1 (r*u >=0) h_i(u)
teddy-g 2017/03/23
ハッシュ値で検索。Locality Sensitive Hashとやら

searchengine

algorithm

bigdata

machinelearning
リンク
MinHashによる高速な類似検索 - Preferred Networks Research & Development
年が明けてもう一ヶ月経ちましたね．岡野原です．今日はMinHashと呼ばれる手法を紹介します．これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている）．今や世の中のあらゆる種類のデータが，高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました．例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル（Bag of Words）で表し，画像データも，SIFTをはじめとした局所特徴量を並べた特徴ベクトル（とそれをSkecth化したもの）として表せます．行動情報や時系列データも特徴量をうまく抽出する．グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ，グラフの特徴をよく捉えることができるのが最近わかっ
teddy-g 2017/03/23
ハッシュ値が似たようになるように計算して検索に使う

searchengine

algorithm

bigdata

machinelearning
リンク
Bing Search API プログラミング解説
詳細 - Bing Search API | Microsoft Azure Marketplace たとえばウェブ検索で、レスポンスをJSON、キーワードを「sushi」とするには、 https://api.datamarket.azure.com/Bing/Search/v1/Web?$format=json&Query=%27sushi%27 とします。またQueryにはBing検索の演算子を用いられ「sushi site:example.com」のような指定も可能です。ブラウザからAPIのURLへリクエストするとユーザー名とパスワードを要求されますが、ユーザー名は省略しパスワードにアカウントキーを指定すれば、レスポンスを得られます。制限 APIの利用は1月あたり5000トランザクション (5000ページ分のリクエスト) に制限されており、それを越えて利用するには料金の支払が必要
teddy-g 2014/11/18
Bing Search APIは使用が変わったはずなんだがこのURIでもイケる。しかもBASIC認証なくても通る。怪しい。

web

api

searchengine

bing

microsoft

azure

webservices
リンク
Pipes: YRS-Feed
This Pipe may require all fields to have values before it will run successfully. Please provide values into any empty field above and press "Run Pipe."
teddy-g 2014/08/11
Y!リアルタイム検索をRSS化するやつのPipesの方の。

yahoo

searchengine

pipes

realtime

rss
リンク
Yahoo!リアルタイム検索のRSSフィードと埋め込みウィジェット
Yahoo!リアルタイム検索のRSSフィードと埋め込みウィジェット Yahoo! Pipes使ったYahoo!リアルタイム検索のRSSフィードを製作しました。 TwitterとFacebookのリアルタイム情報を対象に、目的のキーワードで検索した最新の結果をRSSリーダーでチェックするための検索フィードです。 YRS-Feed：Yahoo!リアルタイム検索の汎用フィード Twitterの検索性能に関しては少し前に公開した『TWS-Feed 2』に劣りますが、Facebookも含めた広範囲で包括的なソーシャル検索が可能な点が最大の特徴です。使用方法【Keyword】に検索する語句を指定し[Rua Pipe]をクリックして検索結果を出力した後[Get as RSS]をクリックするとRSSフィードが作成されます。また、適宜下記の設定項目を変更し目的にあった検索の設定をしてください。（検索
teddy-g 2014/08/11
Y!リアルタイム検索をPipesでRSS化するネタ。Pipes作るのって結構めんどい。

yahoo

searchengine

rss

pipes

realtime
リンク
ベクトル空間法による文書の類似度の算出
Next: シラバスの類似度の計算 Up: テキストマイニングのための自然言語処理技術 Previous: 候補語の出現頻度情報目次ベクトル空間法による文書の類似度の算出[27] 前節ではある文書における各単語の重要度を算出した。次にその重要度を利用して、ベクトル空間法という計算方法を用い、複数の文書同士の類似度を計算する。ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、二つのベクトルを比較することにより類似度を調べるものである。つまり、ベクトルの方向は文書の特徴であるので、二つのベクトルのなす角が小さいほど似ているということである。個のタームを持つ文書を形態素解析し、各ターム毎の重要度をとしたとき、文書のベクトルは以下のように表される。
teddy-g 2014/03/18
ベクトル空間法の計算式忘れたらここへ。

searchengine

morphological

analysis
リンク
全文検索システム: Fess - オープンソース全文検索サーバー Fess (フェス)
概要現在表示されているサイトは旧サイトです。新サイトは http://fess.codelibs.org/ja/ です。 Fess は「5 分で簡単に構築可能な全文検索サーバー」です。Java 実行環境があればどの OS でも実行可能です。Fess は Apache ライセンスで提供され、無料 (フリーソフト) でご利用いただけます。 Seasar2 ベースで構築され、検索エンジン部分には 2 億ドキュメントもインデックス可能と言われる Solr を利用しています。ドキュメントクロールには S2Robot を利用することで、Web やファイルシステムに対するクロールが可能になり、MS Office 系のドキュメントや zip などの圧縮ファイルも検索対象とすることができます。特徴 5 分で簡単に構築可能な全文検索サーバー Apache ライセンスで提供 (フリーソフト) OS 非依存
teddy-g 2013/01/13
あいまい検索をする為のオープンソースシステム。

searchengine

opensource

Fess
リンク
ZoomInfo
About ZoomInfo: Founded in 1999, ZoomInfo is a Web-based service that extracts information about people and companies from millions of published resources on the Web. Using an advanced natural language processing techno logy, ZoomInfo scans nearly every news article, press release, company Web site, and SEC filing published on the Internet, everyday. The information is then processed into a usa ble,
teddy-g 2010/04/16
これすごい。これ便利。誰かのリファレンス取りに使える。

searchengine
リンク
403 Forbidden
＼閉鎖予定のサイトも売れるかも？／アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう
teddy-g 2010/03/14
これは結構使うな

neta

2ch

searchengine
リンク
Latent Semantic Indexing - naoyaのはてなダイアリー
情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単
teddy-g 2009/05/25
Latent Semantic Indexing のはてなおや氏による簡単な説明と書こうと思ったが簡単ではないな

semanticweb

tips

hack

searchengine

programming
リンク
http://note.openvista.jp/2008/trying-google-book-search-api/
teddy-g 2009/05/25
Google Book Search APIはまだまだ使いどころがない気がする

api

google

book

searchengine
リンク
人間の感性は2,000次元？
teddy-g 2009/05/13
SFCの感性検索研究の概要説明。明快で論理的な手法だが、言語間/文化的背景の違いによるゆらぎもあるわけで。

tips

AI

searchengine
リンク
株式会社ALBERT（レコメンドエンジン）
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
teddy-g 2009/05/13
抜けはあるけどACKマトリクスの整理はおもしろい。

neta

biz

tips

AI

searchengine
リンク
感情検索
teddy-g 2009/05/11
感情で本を探せる。結構それなり。ベースは何だろう？情動立体モデルともちと違う気がする。

searchengine

book
リンク
なんでも評点:人は選択肢が多いほど疲れることが判明 ― だからネタ探しは重労働。能動的なネットが受動的なテレビに勝てないのもこのため？
人は選択肢が多いほど疲れることが判明 ― だからネタ探しは重労働。能動的なネットが受動的なテレビに勝てないのもこのため？われわれは「情報の多さに疲れる」というような表現をすることがある。しかし、人間は情報量が多すぎると本当に疲れてしまうのだろうか？たとえば、テレビを観ている人は、実に大量の視覚情報と聴覚情報にさらされている。だが、テレビを観ているだけで疲労感を覚える人はあまりいないはずだ。ネットの世界は自分で情報を取捨選択しないと先へ進むことができない。能動的な意思決定が求められる。一方、テレビはこちらの都合など関係なく、情報を延々と流し続ける。（少なくとも現時点の地上波テレビでは）視聴者に残された能動的要素があるとすれば、チャンネルを変えるか、テレビの電源を切るか・・・ぐらいのことしかない。まあ、テレビを観ていて“うんざり”することなら、いくらでもあるだろう。しかし、それは“情報
teddy-g 2008/04/23
サーチはつかれるという話からTV局のパクリ批判へと華麗に話題転換

biz

neta

searchengine
リンク
大手4書店の在庫情報をまとめて確認できるサービス：Making OPAC 2.0 - Liner Note
大手4書店の在庫情報をまとめて確認できるサービス：Making OPAC 2.0 書いた人： hash 投稿日： 2007年12月30日（最終更新：5年3ヶ月と14日前）読者の皆さんの反応 17 被ブックマーク数： 8 要約：紀伊國屋書店、旭屋書店、ジュンク堂書店、丸善のウェブサイトから、在庫情報をまとめて取得して表示するアプリを書きました題字の通り。ISBNを指定して検索すると紀伊國屋書店、旭屋書店、ジュンク堂書店、丸善などの本屋さんの在庫情報を取得して表示するアプリを書きました。旭屋書店とジュンク堂書店は在庫冊数も表示します。 3,000円以上する本とかだとやっぱり中身を立ち見したり、他の本と比較してから買いたいので、本屋さんに足を運んで確認するんですね。それで、一応無駄足にならないように事前に書店のサイトで在庫情報を確認するんですが、いちいち各書店の検索ボックスで入力するのが面倒
teddy-g 2008/04/21
リアル店舗の在庫を検索

api

webservices

web2.0

mashup

books

searchengine
リンク
1 2 次のページ