並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

gosenの検索結果1 - 21 件 / 21件

  • Java製形態素解析ライブラリ「lucene-gosen」を試してみる

    概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol

    • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

      This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

      • Lucene gosenの紹介 solr勉強会第7回

        2. u  所属:㈱シーマーク u  氏名:大谷 純 u  twitter:@johtani u  ブログ: http://johtani.jugem.jp u  「Apache Solr入門」 の著者の一人 u  lucene-gosenのcommitter

          Lucene gosenの紹介 solr勉強会第7回
        • GAE/J で GoSen を動かして形態素解析 | Altus-Five Labs

          Google App Engine Java のアプリを作ってみました。 ちょっと前に検索エンジンの開発に触れる機会があったので、今回の手習いは、形態素解析器を GAE/J で動かすことをテーマにしました。 まずは、下記ページに書かれている 「Eclipse を使用して(または使用せずに)App Engine Java プロジェクトを作成する方法」 にしたがって開発環境を作成します。 http://code.google.com/intl/ja/appengine/docs/java/gettingstarted/introduction.html そして、ひと通りチュートリアルを試して、開発環境に慣れてしまいます。 実は、最初はチュートリアルは試さないで、他に GAE/J を紹介している記事を参考にして、必要なことだけをやろうとしたんですけど、後から考えると、先にチュートリアルを通し

          • lucene-gosenの辞書編集方法 - エメラルドアオキロック

            lucene-gosenとは lucene-gosenとは、全文検索エンジンのLucene/Solr3.1及び4.0で動作する、日本語の形態素解析用のJavaライブラリで、ここで公開されています。なお、ここで扱うlucene-gosenのバージョンは1.0.1とします。 一般的に日本語を扱う場合には、英語のように空白で文章を単語に区切れない為、n文字ずつ格納するN-GramのCJKAnalyzer(Bi-Gram)や、形態素解析を用いるJapaneseAnalyzer(lucene-gosenに含まれる)を主に用います。それぞれメリットとデメリットがあって、N-Gramは検索もれが少ない分ノイズが多く、形態素解析を用いるとノイズは少なくなるが検索もれが多くなるという特徴があります。どちらも一長一短なので、日本語を扱う場合二つのAnalyzerを併用したりします。(例として、形態素解析を用い

              lucene-gosenの辞書編集方法 - エメラルドアオキロック
            • lucene-gosen + Solr 3.1 | 関口宏司のLuceneブログ

              一定期間更新がないため広告を表示しています

                lucene-gosen + Solr 3.1 | 関口宏司のLuceneブログ
              • LuceneとGoSen - Vox

                私もGosenに入れ替えようとしたのですが、、、うまく動きません。 クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。 わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。 変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T

                • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章) | @johtani の日記

                  一定期間更新がないため広告を表示しています

                    Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章) | @johtani の日記
                  • [Solr] GoSenを使う

                    Javaで形態素解析ライブラリはもうSenしかない状況、、だと思っていましたが、(ちょっと途中で投げ出されている感はあるものの)GoSenのほうが辞書作成もJavaだけでできる等、整備されていて良さそうです。 ただ、Senはトークナイザだけを提供しているので、Solrで使うにはLucene-jaというのを別途取ってきて、そこに入っている"アナライザ"経由で使わなくてはなりません。 つまり、(Lucene-jaの)アナライザが使うトークナイザを、SenからGoSenに変えればよい。。のですが、GoSenはSenから多少構成が変わっているため「ただjarを入れ替え」るだけでは動きません。 細かくはまた別に書こうと思いますが、hideakiさんのブログを参考に、 ・Lucene-ja(のSenTokenizer.javaを)書き換え ・無いと不便なbuild.xmlを作成 としたlucene-j

                    • lucene-gosenのTokenFilterたち | @johtani の日記

                      一定期間更新がないため広告を表示しています

                        lucene-gosenのTokenFilterたち | @johtani の日記
                      • anti gosen

                        ※「処刑の記述なし」に関しては、前後関係、他の資料との比較検討により、処刑された可能性が高いと判断するのが妥当であろうとされている。 合計値 最大値では括弧付きの人数をすべて合計に入れ、数千の表示は5000と扱う。最小値では括弧付きは合計に含めず、数千の表示は2000として扱う。 最大値 140,990人 最小値  80,830人 koβ註: あくまでもここに集計された数字は、公開されている戦闘詳報などを集計したものであり、それら軍関係の文書は、いまだに公開されていないものが多い。また、南京事件の死亡者数の推計には、軍関係以外の史料も考慮に入れる必要がある。戦闘詳報などの「戦果」は一般に大目の見積もりをする傾向があるので、あくまでも概数として参考にする他はない。 南京事件に関する、日本側の記録 「第一一四師団第六六連隊第一大隊 戦闘詳報」 (一二月一二日午後七時ごろ)最初の捕虜を得

                        • 1本の糸から、豊かな暮らしを創造する|株式会社ゴーセン(GOSEN)

                          2023/12/15 「Kneissl(クナイスル)」ライセンス展開開始のお知らせ[企業情報] 2023/12/1 年末年始休業のお知らせ[企業情報] 2023/12/1 東京支店ビル名称変更のお知らせ[企業情報] 2023/9/4 「SDGs」の取り組み公開のお知らせ[企業情報] 2023/8/24 健康宣言に関するお知らせ[企業情報] 2023/8/1 夏期休業のお知らせ[企業情報] 2022/12/1 年末年始休業のお知らせ[企業情報] 2022/6/22 LINEスタンプ発売のお知らせ[ラケットスポーツ] 2022/4/1 車いすテニス選手契約のお知らせ[ラケットスポーツ] 2021/10/15 ソフトテニス選手契約のお知らせ[ラケットスポーツ] 一覧を見る

                          • Javaで実装された形態素解析器 GoSen - mtbrの日記

                            GoSen がよさげなので使ってみる。 プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab. GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folde

                              Javaで実装された形態素解析器 GoSen - mtbrの日記
                            • SenよりGoSenの方が遅い? - kaisehのブログ

                              形態素解析エンジンSenを改良したGoSenというライブラリがあります。 Significantly improved text analysis speed http://itadaki.org/wiki/index.php/GoSen と書いてあるので、どの程度速くなったのかなと思ってSenと比べてみたんですが、逆にSenより遅いという不思議な結果になりました。 GoSenの計測方法 SVNリポジトリから最新版をチェックアウト /testdata/dictionaryでantを実行し、辞書ファイルを作成 GoSen付属のbenchmark.SenBenchを実行 Senの計測方法 sen-1.2.2.1.zipをダウンロード /dicでantを実行し、辞書ファイルを作成 上記のbenchmark.SenBenchをSen向けに一部書き換えて実行 実行環境はIntel iMac 2GHz

                                SenよりGoSenの方が遅い? - kaisehのブログ
                              • 「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章) | @johtani の日記

                                一定期間更新がないため広告を表示しています

                                  「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章) | @johtani の日記
                                • 【重要】lucene-gosen 2.0.0リリース | @johtani の日記

                                  一定期間更新がないため広告を表示しています

                                    【重要】lucene-gosen 2.0.0リリース | @johtani の日記
                                  • 【重要】lucene-gosenの次期リリースについて | @johtani の日記

                                    一定期間更新がないため広告を表示しています

                                      【重要】lucene-gosenの次期リリースについて | @johtani の日記
                                    • lucene-gosen 2.0.1リリース(Java7対応) | @johtani の日記

                                      一定期間更新がないため広告を表示しています

                                        lucene-gosen 2.0.1リリース(Java7対応) | @johtani の日記
                                      • GitHub - lucene-gosen/lucene-gosen: Japanese analysis for Apache Lucene/Solr

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - lucene-gosen/lucene-gosen: Japanese analysis for Apache Lucene/Solr
                                        • 株式会社ゴーセン(GOSEN)|フィッシングサイト

                                          株式会社ゴーセンは、釣糸の永遠のテーマである「細くて強い糸」の実現に向け、日々研究開発を重ねています。自然に挑み、自然を愛するために生まれたラインをご提供するとともに、お客様のフィッシングライフを輝かせる「釣糸」の未来をこれからも創造し続けます。

                                          • Solr+lucene-gosenで日本語検索 - 自然言語処理 on Mac

                                            最新版のSolr/Luceneで日本語を扱う場合には、文字列を2文字ずつ切り出すCJKAnalyzerもありますが、MeCab相当の機能を持つlucene-gosenを使うことができます。 http://code.google.com/p/lucene-gosen/ LuceneでMeCabの機能を使う場合、Senが有名でしたが、残念ながら現在はメンテナンスがされていないようです。 Senの入手方法 | 関口宏司のLuceneブログ lucene-gosenをSolrで使うためには、すでにapache-solr-3.2.0が展開されているとして: $ svn checkout http://lucene-gosen.googlecode.com/svn/trunk/ lucene-gosen $ cp lucene-gosen/example/*.txt apache-solr-3.2.0

                                              Solr+lucene-gosenで日本語検索 - 自然言語処理 on Mac
                                            1