[B! java][lucene] stick23rdのブックマーク

stick23rd id:stick23rd

javaとluceneに関するstick23rdのブックマーク (6)

Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
stick23rd 2011/05/23
java

自然言語処理

lucene

nlp
リンク
JavaでPDFから文章を抽出 - tsubosakaの日記
プログラム上からPDFの文章を取り出したいと思うことがあったので、方法を調べてみた。 PDFBoxというツールを使うと結構いい感じに抽出できた。以下に簡単なサンプルプログラムを示す。 import java.io.*; import org.apache.pdfbox.pdfparser.PDFParser; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.util.PDF TextStripper; public class ExtractPDF { private static String extractText(String filePath) throws FileNotFoundException, IOException { FileInputStream pdfStream = ne
stick23rd 2010/03/14
pdf

Java

lucene

solr

研究関連
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
stick23rd 2009/09/02
java

lucene

webサービス

チュートリアル
リンク
Apache Solrを使ってみた。
Apache Solrというのは、Javaベースの検索エンジンシステムです。「ソーラ」と呼ぶそうです。どうしても覚えられません。 Solr - Wikipedia 実はモバツイッターにも、秘かにツイッターのログ検索なる機能が追加してありまして、モバツイのエゴサーチなどをして、不具合がないかを調べていたりします。検索エンジンはmysql + sennaを使っているのですが、自分のマシンのスペックよりも、データ量が増えてしまった状態らしく、ヒット数が多い「tinyurl」などの文字列で検索すると、めっさ遅いという状態になってしまいました。おそらくmysqlの設定などはまだまだ余地があるんでしょう、と、いろいろ工夫しようとしたのですが、どうせならsenna以外も使えるようになりたいなぁと思って、こちらのtwitter検索で使われているSolrってのがあるというお話を聞いたので、Java久々
stick23rd 2009/04/28
lucene

java

twitter

使い方

お役立ち

Python

php
リンク
トップページ
SQL データベース操作言語SQLについて、またRDBMSの持つ機能について詳しく解説します。 DB概要、SQL、テーブル操作、データ操作 ... 特集：replication PostgreSQLのレプリケーションシステムを紹介し、それらの機能を比較していきます。特集：pgbench PostgreSQLのベンチマークテストに用いられるプログラムである pgbench について解説します。 SQL演習問題各章に用意された演習問題を集めました。
stick23rd 2007/08/07
java

lucene

使い方

解説
リンク
http://www.itarchitect.jp/enterprise/-/25122.html
stick23rd 2007/08/07
java

lucene

使い方
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx