Overview Solr caches are associated with an Index Searcher — a particular 'view' of the index that doesn't change. So as long as that Index Searcher is being used, any items in the cache will be valid and available for reuse. Caching in Solr is unlike ordinary caches in that Solr cached objects will not expire after a certain period of time; rather, cached objects will be valid as long as the Inde
概要 本コーパスの HTML アーカイブは,ipadic-2.7.0 の見出し語をシードとして,かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです.テキストの抽出においては,文字コードを UTF-8 に統一した後,いくつかの記号をデリミタとして文への分割をおこない,さらに文を構成する文字の種類や数によるフィルタリングを施しています.N-gram コーパスについては,テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています. 本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です. 謝辞 本コーパスの作成においては,様々なウェブサービス,ツール,コーパスを利用させていただきました.開発者・研究者の皆様に感謝いたします. コーパスの作成・保存・配布には Amazon Web Serv
以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik
はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全
「コンテンツがアプリケーション内に存在していても検索できない場合、果たして本当にコンテンツは存在していると言えるのか?」このような疑問に対して、この記事では、Lucene スタックを活用して、コンテンツ内の重要な内容を見つけ出すためのヒントおよびテクニックを提示し、コンテンツが見つけられるようにするにはどうすればいいかを考察する。 読者の方々が私と同じであれば、子供の頃、ウェブ サイトまたはハードディスク内のテキストおよびデータの検索を向上させる仕事をするようになるなんて思いもしなかったでしょう。さらに言えば、大学に入って計算機工学を専攻しているときでも、そんなことは考えつきもしなかったでしょう。それなのに現実には、コンテンツを検索する必要があるプロジェクトに携わっており、その方法を模索してます。あるいは、既に検索できるようにはなっているものの、テストの結果やプログラミングで培った直感から
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く