[B! solr] kodamashiのブックマーク

[Solr] GoSenを使う

Javaで形態素解析ライブラリはもうSenしかない状況、、だと思っていましたが、(ちょっと途中で投げ出されている感はあるものの)GoSenのほうが辞書作成もJavaだけでできる等、整備されていて良さそうです。ただ、Senはトークナイザだけを提供しているので、Solrで使うにはLucene-jaというのを別途取ってきて、そこに入っている"アナライザ"経由で使わなくてはなりません。つまり、(Lucene-jaの)アナライザが使うトークナイザを、SenからGoSenに変えればよい。。のですが、GoSenはSenから多少構成が変わっているため「ただjarを入れ替え」るだけでは動きません。細かくはまた別に書こうと思いますが、hideakiさんのブログを参考に、・Lucene-ja(のSenTokenizer.javaを)書き換え・無いと不便なbuild.xmlを作成としたlucene-j

kodamashi 2011/04/10

リンク

全文検索システム: Fess - オープンソース全文検索サーバー Fess (フェス)

概要現在表示されているサイトは旧サイトです。新サイトは http://fess.codelibs.org/ja/ です。 Fess は「5 分で簡単に構築可能な全文検索サーバー」です。Java 実行環境があればどの OS でも実行可能です。Fess は Apache ライセンスで提供され、無料 (フリーソフト) でご利用いただけます。 Seasar2 ベースで構築され、検索エンジン部分には 2 億ドキュメントもインデックス可能と言われる Solr を利用しています。ドキュメントクロールには S2Robot を利用することで、Web やファイルシステムに対するクロールが可能になり、MS Office 系のドキュメントや zip などの圧縮ファイルも検索対象とすることができます。特徴 5 分で簡単に構築可能な全文検索サーバー Apache ライセンスで提供 (フリーソフト) OS 非依存

kodamashi 2010/09/02

リンク

OSDIR

kodamashi 2010/04/27

solr

リンク

[Solr] Nutchでサイトクロール

やってみた。 Nutchはウェブスパイダーとしてのクロール機能を提供している。内部に分散ファイルシステムたるHadoopを持っていのだが、今回はこれは使わない方法(のようだ)。 - - - - 1. Nutchを<a href="http://hudson.zones.apache.org/hudson/job/Nutch-trunk/">ダウンロード</a>し、解凍する。 tar xzf apache-nutch-1.0.tar.gz 2. Solrの設定を行う Nutchの中にはschema.xmlなどSolrを連携して使うためのサンプルの設定ファイルが含まれています。 a. schema.xmlの配置 apache-nutch-1.0/conf to directory apache-solr-1.3.0/example/solr/conf b. “content”フィールドの設定変

kodamashi 2010/02/26

リンク

『[Solr]　分散検索（Distributed Search）』

ミ通信（本編）転職がかない、2006年1月より東京渋谷で新たに働く一介のIT エンジニアの日記。徒然なるままに雑記などを書いていきたいと思います。 Distributed Search in Solr 1.3 分散は結構簡単そう。shards=localhost:8080/solr,localhost:8081/solr とかすればすぐできる見たいで素敵一応、shards数は、GETメソッドの長さの制限（webサーバ）がそのまま適用されるかんじ。大体4000文字までいけるそうですが、shardが多くなってくるときはここを注意する。 ※dnsやhostsとかで短い名前をつけてしまえば、いいかも Solr1.3より実装されています。 ■Distributed Searchとは？インデックスがひとつのシステムの中で非常に大きくなってしまった場合やひとつのクエリーの検索結果が非常に大きくなっ

kodamashi 2009/11/10

solr
lucene

リンク

Welcome to Apache Solr

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™. Learn more about Solr. Solr is highly reliable, scala ble and fault tolerant, providing distributed indexing, replication and load-balanced querying, automated failover and recovery, centralized configuration and more. Solr powers the search and navigation features of many of the world's largest inter

kodamashi 2009/10/21

リンク

ヒット件数が数十万件を超えるような場合でも使える。新しくインデキシングしたドキュメントを検索結果の上位に表示する２つの方法。 - Solr, Python, MacBook Air in Shinagawa Seaside

新しくインデキシングされたドキュメントを検索結果の上位に表示したいというニーズは割とよくあると思います。フレッシュネスブーストと呼ばれる手法です。 Solr の場合 TIMESTAMP などの日付でソートすることもできるのですが Solr はソートがあまり上手ではありません。時間とシステムリソースを大量に消費します。ヒット件数が数十万件を超えるような場合にはあまり使いたくありません。正確にソートされなくても最近インデキシングされたドキュメントがだいたい上位にくればいいのであれば日付でブーストする方法があります。 1つめはクエリタイプが dismax の場合で、BoostQuery を使う方法です。 bq で指定します。 bq=TIMESTAMP:[NOW/DAY-7DAY TO NOW/DAY]^20000 この例では1週間以内にインデキシングされたドキュメントがブーストされま

kodamashi 2009/10/21

リンク

全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全

kodamashi 2009/10/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

solrに関するkodamashiのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス