[B! lucene] stick23rdのブックマーク

stick23rd id:stick23rd

luceneに関するstick23rdのブックマーク (18)

Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
stick23rd 2011/05/23
java

自然言語処理

lucene

nlp
リンク
第3回 Solr 勉強会資料 | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
stick23rd 2010/07/15
solr

lucene

資料
リンク
JavaでPDFから文章を抽出 - tsubosakaの日記
プログラム上からPDFの文章を取り出したいと思うことがあったので、方法を調べてみた。 PDFBoxというツールを使うと結構いい感じに抽出できた。以下に簡単なサンプルプログラムを示す。 import java.io.*; import org.apache.pdfbox.pdfparser.PDFParser; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.util.PDF TextStripper; public class ExtractPDF { private static String extractText(String filePath) throws FileNotFoundException, IOException { FileInputStream pdfStream = ne
stick23rd 2010/03/14
pdf

Java

lucene

solr

研究関連
リンク
SNA Projects Blog : Tech Talk: Michael Deerkoski (Flickr) — “Continuous Deployment at Flickr”
Hire the best. At 10x the speed.Hire the best. At 10x the speed.Screen and interview candidates 10x faster with MOPID AI Recruiter that saves upto 80% of your time and resources. Hiring 100+ positions? Try⚡Bl itzhiring⚡for a change!Hiring 100+ positions?Try ⚡Bl itzhiring⚡ for a changeWe get it. Large scale hiring costs a lot. What if you could hire the perfect talent AND save up to 80% resources? We
stick23rd 2010/02/08
fast faceted search

lucene

solr
リンク
全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集
はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全
stick23rd 2010/01/28
lucene

solr

チュートリアル

まとめ
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
stick23rd 2009/09/02
java

lucene

webサービス

チュートリアル
リンク
Solr勉強会行ってきた。 - public static void main
21日にECナビさんで開催されたSolr（そーら）勉強会に参加してきました。 http://atnd.org/events/937 Luceneを1、2年前ぐらいに触っていて、そのときSolrも調査したことがあったので、その頃からどのように変わったのか楽しみにしていきました。以下発表内容のまとめです。 Solrとは？（ロンウィット関口さん）全文検索ライブラリのLucene JavaのAPIを使うので、開発期間の短くなっている昨今では導入の敷居が高い SolrはLuceneを使った検索サーバ実装 HTTPベースのAPIが提供されている→言語を選ばない検索アプリが非常に楽に作成可能→時代に合っている Solrとのデータやりとり XMLで登録データを作成（CSVでも可）→HTTPでPOSTすると登録が完了検索結果もXMLでGETする検索アプリでは、XMLで返ってきた結果を加工してHTM
stick23rd 2009/07/23
solr

lucene

資料
リンク
Lucidworks
Skip to main content Lucidworks Search Categories Product Training Support Library Troubleshooting Issues How-To's Best Practices Announcements Promoted articles Log4j vulnerabilities: CVE-2021-44228, CVE-2021-45046, CVE-2021-45105, and CVE-2021-44832 Powered by Zendesk
stick23rd 2009/07/08
Facet Search・ファセットサーチ、カテゴリを絞り込むような検索に、属性で絞り込むような検索に

lucene

solr
リンク
3行でできる超お手軽全文検索 - mixi engineer blog
梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。使い方テーブルデータベースについてまずおさらいしておきましょう。PerlやRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER
stick23rd 2009/06/24
全文検索エンジンがお手軽に利用出来る

プログラミング

MySQL

nlp

tips

まとめ

lucene
リンク
Apache Solrを使ってみた。
Apache Solrというのは、Javaベースの検索エンジンシステムです。「ソーラ」と呼ぶそうです。どうしても覚えられません。 Solr - Wikipedia 実はモバツイッターにも、秘かにツイッターのログ検索なる機能が追加してありまして、モバツイのエゴサーチなどをして、不具合がないかを調べていたりします。検索エンジンはmysql + sennaを使っているのですが、自分のマシンのスペックよりも、データ量が増えてしまった状態らしく、ヒット数が多い「tinyurl」などの文字列で検索すると、めっさ遅いという状態になってしまいました。おそらくmysqlの設定などはまだまだ余地があるんでしょう、と、いろいろ工夫しようとしたのですが、どうせならsenna以外も使えるようになりたいなぁと思って、こちらのtwitter検索で使われているSolrってのがあるというお話を聞いたので、Java久々
stick23rd 2009/04/28
lucene

java

twitter

使い方

お役立ち

Python

php
リンク
Apache Mahout - Taste Documentation
Taste is a flexible, fast collaborative filtering engine for Java. The engine takes users' preferences for it ems ("tastes") and returns estimated preferences for other it ems. For example, a site that sells books or CDs could easily use Taste to figure out, from past purchase data, which CDs a customer might be interested in listening to. Taste provides a rich set of components from which you can c
stick23rd 2009/03/30
レコメンデーションに使えるかも。lucene傍系プロジェクト。機会学習ライブラリ

lucene

webサービス

お役立ち

機械学習
リンク
LuceneとGoSen - Vox
私もGosenに入れ替えようとしたのですが、、、うまく動きません。クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T
stick23rd 2008/05/22
lucene

sen

お役立ち
リンク
N-gramモデルを利用したテキスト分析　―インデックスページ―
↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ
stick23rd 2007/10/25
まとめ

品詞抽出

研究関連

自然言語処理

N-gram

lucene
リンク
Luceneで遊んでみる
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
stick23rd 2007/10/23
lucene

まとめ

品詞抽出

困ったとき

形態素解析
リンク
記事から名詞だけを取り出す | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
stick23rd 2007/09/07
lucene

サンプル

まとめ

形態素解析

品詞抽出
リンク
Hello, Lucene （入門者向けプログラム例） | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
stick23rd 2007/08/08
lucene

入門

使い方
リンク
トップページ
SQL データベース操作言語SQLについて、またRDBMSの持つ機能について詳しく解説します。 DB概要、SQL、テーブル操作、データ操作 ... 特集：replication PostgreSQLのレプリケーションシステムを紹介し、それらの機能を比較していきます。特集：pgbench PostgreSQLのベンチマークテストに用いられるプログラムである pgbench について解説します。 SQL演習問題各章に用意された演習問題を集めました。
stick23rd 2007/08/07
java

lucene

使い方

解説
リンク
http://www.itarchitect.jp/enterprise/-/25122.html
stick23rd 2007/08/07
java

lucene

使い方
リンク
1