Elastic Stackの紹介とOpenStackでの活用事例(Searchlightなど) - OpenStack最新情報セミナー 2016年5月VirtualTech Japan Inc.
Elastic Stackの紹介とOpenStackでの活用事例(Searchlightなど) - OpenStack最新情報セミナー 2016年5月VirtualTech Japan Inc.
Ubuntu 10.04 LTS にHyperEstraierをインストールしてみた。CentOSでもインストールしたことがあるが、Ubuntuのパッケージ管理がすばらしく、手軽にできてしまうところが良い。 作業はHyperEstraier イントロダクションを参考にした。いつものように忘れたときのためにメモしておく。 サイト構築の前提条件 HTMLドキュメントの格納場所を /var/www/html とする CGIスクリプトの設置場所を /var/www/cgi-bin とする HyperEstraierインデックスの設置場所を /var/www/casket とする サイトのURLアドレスを http://192.168.11.101 とする サイトのディレクトリを作成する $ sudo mkdir /var/www $ sudo mkdir /var/www/html $ sudo
を前提としてHyper Estraier のインストールと設定を行います。 STEP1.HyperEstraierのインストール $ apt-get install hyperestraier テキスト以外にもWord、Excel、PowerPointを検索対象とする場合には、wv、xlhtml、ppthtmlのインストールが必要です。 $ apt-get install wv xlhtml ppthtml STEP2.cgi-binの設定 通常はdefaultでcgi-binに関しては設定済みですから設定は不要です。 変更する場合に参考にしてください。 ScriptAlias /cgi-bin/ /usr/lib/cgi-bin/ <Directory "/usr/lib/cgi-bin/"> AllowOverride None Options +ExecCGI -MultiView
前提としてTokyoCabinet(若しくはTokyoTyrant)にテーブルDBがあり、 その複数カラムにまたがって全文検索ができるようにしたい。 例えばブログでいえばタイトルと本文と追記から全文検索をしたいとする。 Tokyoシリーズを使うということは平林幹雄氏の製品を信頼しているということなので、 できればmade by mikioで検索できればいいなと思って調べてみたところ、 想像以上に様々な方法があって迷った。 有力そうな4案について勝手に長所と短所をまとめてみるので参考にして下さい。 Hyper Estraierを使う http://hyperestraier.sourceforge.net/index.ja.html Tokyo Tyrantにインデックスを張る mixi engineer blog Tokyo Tyrant+Lua拡張で転置インデックスを作成 mixi en
夏本番に向けて海に行ける体作りに励まないといかんなーと思いつつも、ついついDSのスターフォックスで遊んでしまうmikioです。さて今回は、人知れずリリースされている検索エンジンTokyo Dystopiaの概要と設計思想について述べます。 Hyper Estraierとの違い Tokyo Dystopia(以下、TDと呼びます)は、新しい検索エンジンです。しかし、私が作ったもう一つの検索エンジンHyper Estraier(以下、HEと呼びます)の後継としては位置付けていません。 Hyper Estraierの製品コンセプトは、「検索システムの需要が生じる様々なシーンで手軽に導入できる」ことです。言い換えれば、「いわゆるシロウトの人でも、お高い商用システムを買えない個人や小組織でも、ちょっとの努力で自分の要求を満たすシステムを構築できる」ことです。そのために、様々なファイル形式に対応したテ
Overview Tokyo Dystopia is a full-text search system. You can search lots of records for some records including specified patterns. The characteristic of Tokyo Dystopia is the following. High performance of search High scalability of target documents Perfect recall ratio by character N-gram method Phrase matching, prefix matching, suffix matching, and token matching Multilingualism with Unicode La
情報の可視化、という意味でおもしろかったのでご紹介。 Instagrokを使えば、ある単語が他の単語とどう関連しているかを視覚化してくれる。 ちょっと試してみたが、周辺知識で抑えておくべきなのはどういった分野なのかがわかってなかなか便利である。 調べ物をするときに良さそうですな。是非試してみてもらいたい。
Parallel Domain is putting the ability to generate synthetic datasets into the hands of its customers. The San Francisco-based startup has launched a new API called Data Lab that stands on the shoulde Multiple subreddits are adopting alternative methods of protesting like publishing only one kind of post, changing the topic in focus, and days when the community turns private. A lot of these commun
+1 ボタン 2 AMP 11 API 3 App Indexing 8 CAPTCHA 1 Chrome 2 First Click Free 1 Google アシスタント 1 Google ニュース 1 Google プレイス 2 Javascript 1 Lighthouse 4 Merchant Center 8 NoHacked 4 PageSpeed Insights 1 reCAPTCHA v3 1 Search Console 101 speed 1 イベント 25 ウェブマスターガイドライン 57 ウェブマスタークイズ 2 ウェブマスターツール 83 ウェブマスターフォーラム 10 オートコンプリート 1 お知らせ 69 クロールとインデックス 75 サイトクリニック 4 サイトマップ 15 しごと検索 1 スマートフォン 11 セーフブラウジング 5 セキュリティ 1
2012年01月08日20:30 カテゴリアルゴリズム百選Math algorithm - ソート済み配列をソートしなおすべからず 珠玉のプログラミング Jon Bentley / 小林健一郎訳 ぐぬぅ。男子ゆえ女子をこじらせようがないとはいえ、風邪が普通にこじれている。 というわけでアルゴリズムのことなどつらつら考えていた。 高速な安定ソートアルゴリズム “TimSort” の解説 : Preferred Research Timsort - Wikipedia, the free encyclopedia 要はソートすべき配列中にすでに存在する秩序を活用するのがtimsortなのだと。 だけどすでにソート済みの配列を活用するなら、こういう方法もありではというわけでentry。 If it ain't broke, don't fix it. ソート済みの配列に要素を加えるなら、要素を加
MinHashを用いたSketchSortの論文がMolecular Informaticsに採択されました。 論文は下のサイトからダウンロードすることができます。 Yasuo Tabei and Koji Tsuda: SketchSort: Fast All Pairs Similarity Search for Large Databases of Molecular Fingerprints, Molecular Informatics, 2011. Link ソフトウェアをgoogle codeにて公開しています。 本論文では、以前紹介したCosine距離に基づく高速な全点間類似度検索法(SketchSort)をJaccard-Tanimoto距離に基づく手法に拡張しました。このため、以前は与えられた任意の2点間のCosine距離をハミング距離で保存したままバイナリ文字列へとハッ
SketchSort(スケッチソート)法の論文が ACML2010にアクセプトされました。今年も採択率30%の難関でした。 http://sugiyama-www.cs.titech.ac.jp/ACML2010/ Yasuo Tabei, Takeaki Uno, Masashi Sugiyama, Koji Tsuda: Single Versus Multiple Sorting in All Pairs Similarity Search, The 2nd Asian Conference on Machine Learning (ACML2010), Tokyo, Japan, 2010. Link to the paper SketchSort法は、データー点の集合が与えられたら、集合中の2点間の距離がある閾値以内のペアー(近傍ペアー)を全て求める問題(全点間類似度検索)を高速
東京工業大学の杉山研究室でSketchSort法に関する講演をさせていただきました。杉山研はいろいろな国からの留学生が多くゼミでの公用語は英語だそうです。企業と同様に大学の研究室単位でもグローバル化しているようです。ツッコミも激しかった。杉山研での発表のためにスライドを少し修正したので再アップしました。またまた英語で発表したので英語のスライドになっております。 Sketch sort sugiyamalab-20101026 - publicView more presentations from tbyasu. 今後の予定 11月4日〜6日に行われるibis2010にて以下のタイトルでポスター発表します。 「大規模化合物のスケッチ表現によるクラスタリング」 http://ibis-workshop.org/2010/index.html SketchSort法を2千5百万からなる化合物デ
こんにちは、二台目のmbaを買うのをためらっている岡野原です。 アイテム集合に対し、与えられたアイテムと似ているアイテムを求める、という近傍探索問題は古典的な問題でありながら、現在でも多くの改善がされています。特に言語情報、画像情報、行動履歴情報、生物情報、購買情報などありとあらゆるデータが高次元中の点として表現されるようになってきており、こうしたデータの最近傍探索は広い分野で応用範囲がある技術になっています。 アイテムが低次元(例えば2, 3次元)の場合はkd木や最近だとwavelet木を使う方法がありますが、今回扱うケースは各アイテムが高次元(数百万次元)中の点であったり、アイテム間の距離のみが定義されている場合(カーネル関数など)です。アイテム数は数万から数億ぐらいを想定しています。 最近傍探索問題はいくつかありますが、例えばk近傍グラフ構築問題では、 「アイテム集合X = x1,
巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました. ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました. The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際の
What is sary? sary is a suffix array library and tools. It provides fast full-text search facilities for text files on the order of 10 to 100 MB using a data structure called a suffix array. It can also search specific fields in a text file by assigning index points to those fields. Table of Contents What's New Characteristics Brief Introduction to Suffix Array libsary Reference Manual Using the I
Welcome to Startups Weekly — Haje‘s weekly recap of everything you can’t miss from the world of startups. Sign up here to get it in your inbox every Friday. Well,…
2009年06月01日22:45 カテゴリNewsiTech bingが改めて教えてくれた、Googleのまっとうさ というわけでコメントではなくTBで。 Bing Bingのお試しバージョンが一般公開, さあ使ってみようどうでしたか? あなたの独自の実験結果を、コメントで教えてほしいね。 結論から言うと、少なくとも現段階ではGoogleの足下にも及ばない。 検索といえばエゴサーチ。まずは「小飼弾」を引いてみる。 なぜかOvertureは、小飼弾の下に池田信夫を広告しているが、それはさておき、トップとなっている本blogのリンクをよく見て欲しい。「404 Blog Not Found」ではなく「小飼 さん の ブログ」となっている。形態素解析の結果かそのまま分かち書きされて表示されているのは微笑ましいが、これが「ユーザーの期待した検索結果」だろうか。ちなみに「忌野清志郎」で引くと、「忌野
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く