/* 全て */ name:* /* 0 個以上の任意の文字 */ name:A*A // id=1(name=AAA), id=4(name=AAAA) /* 1個の任意の文字 */ name:A?A // id=1(name=AAA) /* AND */ name:A*A AND rank:A // id=4(name=AAAA, RANK=A) name:A*A && rank:A // id=4(name=AAAA, RANK=A) /* OR */ name:A*A OR rank:A // id=1, 3, 4, 6 (name=AAA, name=AAAA, rank=A) name:A*A || rank:A // id=1, 3, 4, 6 (name=AAA, name=AAAA, rank=A) /* NOT */ name:A*A AND NOT rank:A //
ヤフー株式会社には、技術や制作の分野において専門性に優れたエキスパート人財を「黒帯」に認定し、その活動を手厚く支援する黒帯制度があります。「ある分野に突出した知識とスキルを持っているその分野の第一人者」が黒帯として認定され、褒賞金と活動予算が付与され、それぞれの分野のエバンジェリストとして社内外で活躍します。この黒帯によるリレー連載として、第2回目は「Solr黒帯」が執筆します。 はじめに 企業において、データの可視化(Visualization)の重要性が取り上げられ、今注目されています。WebサイトやECサイトを運営しているのであれば、サーバーのアクセスログには、現在までの顧客の活動記録といった膨大な量のデータが蓄積されており、顧客がどんなキーワードで自社サイトにたどり着いたのか、どんな商品を購入していったのかなど、その内容は多岐にわたります。そのデータを分析することで、新たな発見につ
BufferedReader br = new BufferedReader(new InputStreamReader(hoge.getInputStream(), "SJIS"));
やりたいこと なんか ElasticSearch + Kibana で「わたしたちが考えたもっともかんたんなかしか」みたいなことができるらしいが、Hadoop User Experience (HUE)でもできるたい。 gethue.com これ見た時には、すげーー!!!! もしかしたら IBM の Many Eyes も目じゃねーよ!って思って、とりあえずやってみようと決意しました。 installation(途中) 環境 cloudn の FLAT タイプ CentOS 6.5 ansible は少々おまちください。 途中経過 これをやるためには cloudera(少なくともHUE の主要開発者トップ 2 が cloudera の人)に体と魂を売らなければならない、もとい、cloudera のパッケージを使わなければいけないっぽい。それですっげー苦労した。 gethue.com とっか
Hue...Hue 3.6およびCuracaoに引きこもっていたチームは、いくつかの高い基準になるために、以前の検索アプリの第2版をもたらしました。今のアプリは、カスタム·ダッシュボードとビジュアライゼーションを構築するための非常に簡単な方法を提供しているので、ユーザーエクスペリエンスが大幅に向上しました。 これは、demo.gethue.comによるライブのHueによるもので、実際のApacheのいくつかのログデータを対話形式で探索する方法をデモしたビデオです 。数回クリックするだけで、私たちはエラーのあるページを探したり、最も使用されているHueのアプリは何か、色がグラデーションされている世界地図上で一番利用されているウェブブラウザやユーザーのトラフィックの検査を行います: 主な機能は次のとおりです: ライブで動的なインタフェースの更新 ドラッグ&ドロップのダッシュボードビルダー テキ
Solr Lucene Revolution DC 14 Presentation: Interactively Search and Visualize Your Big Data Published on 13 November 2014 in - 1 minute read - Last modified on 06 March 2021 Interactively Search and Visualize Your Big Data Presented by Romain Rigaux, Cloudera Open up your user base to the data! Contrary to programming and SQL, almost everybody knows how to search. This talk describes through an in
Solr www.rondhuit.com Apache Lucene/Solr • Apache Lucene – Java • Apache Solr – Lucene • • N-gram • • • – • • • • • • • Fuzzy • Google • Google CharFilter – Reader CharStream +correctOffset(int):int CharReader input:Reader CharFilter input:CharStream correct(int):int BaseCharFilter pcmList: List<OffCorrectMap> getLastCumulativeDiff ():int addOffCorrectMap (int,int):void OffCorrectMap off:int
6. 見出し語(=原型語) 類義語(=略語、日本語版頭字語) 入国管理局 入管 文房具 文具 社員食堂 社食 国際連盟 国連 リポビタンD リポD ベルサイユのばら ベルばら 木村拓哉 キムタク Universal Serial Bus USB (日本語における頭字語の例) Copyright (c) 2012 RONDHUIT Co.,Ltd. 6 7. 辞書型コーパス (見出し語,説明)× M 項目 設定ファイル <類義語知識の獲得> すべての見出し語に関し以下を ループ処理 Lucene/Solr インデックス 1. 類義語候補tBの同定 インデックス作成 2. 見出し語tAと類義語候補tBの 類似度S(tA, tB)の計算 3. 類似ならば出力 • • • 説見見 明出出 しし 語語 の 読 CSVファイル み Copyright (c) 2012 RONDHUIT Co.,Ltd
編集長の佐藤(http://cocky.exblog.jp/)です。 Solrで類義語検索を行う場合良く使われる「SynonymFilter」ですが、いざ類義語を使おうとすると困るのが辞書のフォーマット。結構細かいところで辞書が読み込めなかったりとか問題があるんですね。 なので今回は一通り情報をまとめてみました。 #ざっとさらった程度なので、細かいところの挙動などで下記と違うことがあるかもしれませんが、そのへんはご容赦を。 なお、例によってSolrのバージョンは基本4.2です。最新版の場合挙動が異なる可能性があります。 内部の挙動 まずSynonymFilterですが、Solr 4.2の場合、実体としてはluceneの「FSTSynonymFilterFactory」が呼び出されて、その中で類義語辞書が読み込まれます。 オプションとしては以下のものがあります。schema.xmlでSyno
2014-02-19 全文検索エンジンApache Solrをとりあえず使う方法 Apache Solrとは 全文検索データベース・サーバ。 このサイトで詳しく説明されています。 http://www.atmarkit.co.jp/ait/articles/1111/18/news148.html 利用シーン ①個人サイトや企業サイトのサイト内検索 ②企業内データ検索(エンタープライズサーチ) ③テキストデータ(Wikipedia記事など)の検索 これらの機能を実現するためにMySQLやSQLiteを利用すると ・あいまい検索(LIKE文)が遅い ・文章に対しインデックスを張っても意味がない という問題があるので、全文検索エンジンを利用します。 Apache Solrは文章内の単語をn-gramや形態素解析によって区切り、 それらに対してインデックスを張り高速な検索を実現します。 用語に
概要 全文検索エンジンのSolrを使って、Wikipedia(日本語版)の記事を検索する機能をさらっと作ってみる。面倒なことはすっ飛ばして、できるだけ少ない手数を選択。あと、ソースコードはJava。 注意事項として、Solrはけっこうメモリ食う。特にoptimize時とか、大掛かりなソート時とか。 メモリが少ないマシンでは使うと不自由するので避けた方が良いかもしれない。とりあえず手元の4G積んだマシンでは快適に動いている。 @CretedDate 2011/09/04 @Env Solr3.5.0 / lucene-gosen1.2.1 @UpdateDate 2012/02/21 Solr3.5.0に変更したりクエリの誤りを直したり Solrの導入 まずSolrをダウンロードして解凍する。 ここからダウンロード http://lucene.apache.org/solr/#getstar
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く