一定期間更新がないため広告を表示しています
![lucene-gosenのTokenFilterたち | @johtani の日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/2302e44c95c7e474fefb218540004f95dc47a4bb/height=288;version=1;width=512/https%3A%2F%2Fimaging.jugem.jp%2Ftemplate%2Fimg%2Fjugem_og-image.png)
先日、OSSコンソーシアムの部会で (株)TIS さんから OSSのデジタルアーカイブシステム DSpace を紹介 していただきました。デジタルアーカイブというのは、いろんな文化資源をデジタル化して保存し、公開する仕組みで、国家プロジェクトとして多くの美術館や博物館、図書館などで取り組みがなされています。DSpaceはこの仕組みをOSSで実装したもので、すでにかなりの大学や博物館などで実績があるそうです。 もともと、ファイルの保管に関する仕組みと言うことで、弊社が扱っている文書管理システム Alfresco と似ている部分があるのでは、と思って参加したわけですが、システムにおいて重視している点がかなり違うことが分かりました。以下、セミナーを聞いて、ぼくの感じたDSpaceのイメージですので、実際のDSpaceの開発思想とは異なっているかもしれないことをご容赦ください。 DSpace 自体
はじめに 研究室に全文検索機があってもいいじゃないかということで、Lucene を導入しました。 そのときに、ちょろっと試す意味で、Scala から Lucene を叩いてみました。 Scala だから特別簡単になるというわけでもないのですが、REPL があるのは、試してみたい時に良いですね。 Lucene のインストール 研究室のサーバの OS は全台 Debian squeeze です。 Lucene はパッケージで用意されており、バージョンは 2.9.2 みたいですね。 Debian では Java のライブラリは、だいたい /usr/share/java 以下にインストールされます。 $ sudo apt-get install liblucene2-java インデックス作成 ではでは、Scala の REPL からLucene を叩きます。クラスパスで lucene-c
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く