並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

gosenの検索結果1 - 21 件 / 21件

  • Java製形態素解析ライブラリ「lucene-gosen」を試してみる

    概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol

    • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

      This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

      • Google Code Archive - Long-term storage for Google Code Project Hosting.

        Code Archive Skip to content Google About Google Privacy Terms

        • Lucene gosenの紹介 solr勉強会第7回

          株式会社オルターブース Chief Technical Architect 松村 優大 Microsoft MVP for Developer Technologies 亀川 和史 2021年11月に .NET 6 がリリースされました。 .NET 6以降、毎年メジャーバージョンアップが行われ、 .NET 開発者にはアプリケーションライフサイクルの素早さが求められてきます。 .NET Framework を維持するのか、.NET 6に移行するのか、アプリケーション開発に関わる方が取り組むべき課題に対してDevOpsプラクティス使って解決しましょう。

            Lucene gosenの紹介 solr勉強会第7回
          • Google App Engine Java で形態素解析器の比較 | Altus-Five Labs

            以前、Google App Engine Java で形態素解析器を作成しました。以前の記事はこちら。 今回は、これに改良を加えました。 改良前に使用していた辞書は、IPAdic でしたが、これを NAIST-jdic に入れ替えてみました。 そして、せっかくなので、IPAdic と NAIST-jdic の違いを見てみようと、両方の辞書で解析して、結果を並べて表示するようにして、それをやるなら、ついでに、Yahoo!JAPAN WEB API の日本語形態素解析の解析結果も並べて表示できるようにしました。 ご興味のある方、試してみてください。 http://agolabs.appspot.com/ * IPAdic と NAIST-jdic の違いで、一番わかりやすいのはアルファベットです。 ◇ 辞書について 形態素解析器といえば、ChaSen や Mecab ですが、これらのエンジ

            • GAE/J で GoSen を動かして形態素解析 | Altus-Five Labs

              Google App Engine Java のアプリを作ってみました。 ちょっと前に検索エンジンの開発に触れる機会があったので、今回の手習いは、形態素解析器を GAE/J で動かすことをテーマにしました。 まずは、下記ページに書かれている 「Eclipse を使用して(または使用せずに)App Engine Java プロジェクトを作成する方法」 にしたがって開発環境を作成します。 http://code.google.com/intl/ja/appengine/docs/java/gettingstarted/introduction.html そして、ひと通りチュートリアルを試して、開発環境に慣れてしまいます。 実は、最初はチュートリアルは試さないで、他に GAE/J を紹介している記事を参考にして、必要なことだけをやろうとしたんですけど、後から考えると、先にチュートリアルを通し

              • lucene-gosenの辞書編集方法 - エメラルドアオキロック

                lucene-gosenとは lucene-gosenとは、全文検索エンジンのLucene/Solr3.1及び4.0で動作する、日本語の形態素解析用のJavaライブラリで、ここで公開されています。なお、ここで扱うlucene-gosenのバージョンは1.0.1とします。 一般的に日本語を扱う場合には、英語のように空白で文章を単語に区切れない為、n文字ずつ格納するN-GramのCJKAnalyzer(Bi-Gram)や、形態素解析を用いるJapaneseAnalyzer(lucene-gosenに含まれる)を主に用います。それぞれメリットとデメリットがあって、N-Gramは検索もれが少ない分ノイズが多く、形態素解析を用いるとノイズは少なくなるが検索もれが多くなるという特徴があります。どちらも一長一短なので、日本語を扱う場合二つのAnalyzerを併用したりします。(例として、形態素解析を用い

                  lucene-gosenの辞書編集方法 - エメラルドアオキロック
                • lucene-gosen + Solr 3.1 | 関口宏司のLuceneブログ

                  一定期間更新がないため広告を表示しています

                    lucene-gosen + Solr 3.1 | 関口宏司のLuceneブログ
                  • LuceneとGoSen - Vox

                    私もGosenに入れ替えようとしたのですが、、、うまく動きません。 クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。 わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。 変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T

                    • [Solr] GoSenを使う

                      Javaで形態素解析ライブラリはもうSenしかない状況、、だと思っていましたが、(ちょっと途中で投げ出されている感はあるものの)GoSenのほうが辞書作成もJavaだけでできる等、整備されていて良さそうです。 ただ、Senはトークナイザだけを提供しているので、Solrで使うにはLucene-jaというのを別途取ってきて、そこに入っている"アナライザ"経由で使わなくてはなりません。 つまり、(Lucene-jaの)アナライザが使うトークナイザを、SenからGoSenに変えればよい。。のですが、GoSenはSenから多少構成が変わっているため「ただjarを入れ替え」るだけでは動きません。 細かくはまた別に書こうと思いますが、hideakiさんのブログを参考に、 ・Lucene-ja(のSenTokenizer.javaを)書き換え ・無いと不便なbuild.xmlを作成 としたlucene-j

                      • Android で日本語読ませる実験中

                        プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの Android 楽しいです。 手軽にアプリが作れるってところがいいですね。Java はあまり使ってなかったのですが、勉強しててよかったです。ほんとそう思います。 今は、とりあえず、Aquestalk2 で漢字を含んだ文章を読ませる実験をしています。辞書はSDカードに直接書き込んでいるので、これが自動化できたら誰でも使えるようになるので、そうなったら公開できると思います。 今回は GoSen を Android 向けに改造したものを使って日本語を解析しています。MeCab を元に Java で書き直した Sen。その Sen を補強した GoSen です。それを Android で動くように少し書き換えました。Android で GoSen を動かそうとしたら、どういうわけか XML

                          Android で日本語読ませる実験中
                        • Javaで実装された形態素解析器 GoSen - mtbrの日記

                          GoSen がよさげなので使ってみる。 プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab. GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folde

                            Javaで実装された形態素解析器 GoSen - mtbrの日記
                          • 2010-05-27

                            Solr(というかLucene)で日本語を使えるようにするには 大きくわけて、N-グラム(CJKAnalyzer)か形態素解析(JapaneseAnalyzer) を使う方法がある。 N-グラムは東京都で検索すると京都が引っかかったりと残念なので、 形態素解析を使いたいのだが、Lucene-jaでは形態素解析にsenを使わなきゃいけない。 senはバギーなので(辞書に登録する単語数が少ない場合は問題ない) Lucene-jaを改変してGoSen(senよりかはマシ)用のラッパーを作らなきゃいけない。 antを入れておきましょう(eclipseなら標準ではいってる) ダウンロード http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/ より落とす。SVNがない場合はしたのほうでtar.gz形式でダウンロードできる $GoSen_HOM

                              2010-05-27
                            • 「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章) | @johtani の日記

                              一定期間更新がないため広告を表示しています

                                「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章) | @johtani の日記
                              • SenよりGoSenの方が遅い? - kaisehのブログ

                                形態素解析エンジンSenを改良したGoSenというライブラリがあります。 Significantly improved text analysis speed http://itadaki.org/wiki/index.php/GoSen と書いてあるので、どの程度速くなったのかなと思ってSenと比べてみたんですが、逆にSenより遅いという不思議な結果になりました。 GoSenの計測方法 SVNリポジトリから最新版をチェックアウト /testdata/dictionaryでantを実行し、辞書ファイルを作成 GoSen付属のbenchmark.SenBenchを実行 Senの計測方法 sen-1.2.2.1.zipをダウンロード /dicでantを実行し、辞書ファイルを作成 上記のbenchmark.SenBenchをSen向けに一部書き換えて実行 実行環境はIntel iMac 2GHz

                                  SenよりGoSenの方が遅い? - kaisehのブログ
                                • Itadaki

                                  Itadaki is a Japanese language toolset for OpenOffice. It offers features intended for students and translators, including furigana (reading) annotation for Japanese text and an integrated dictionary.

                                  • GoSen - Itadaki

                                    Introduction GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab. GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folded back into the base Sen project; unfortunately, the original authors of Sen seem to be uncontactable at the prese

                                    • 5 SEASONS kitchen

                                      レストラン5SEASONSkitchenは閉店いたしました 2012年より6年にわたり五泉の地で営業できましたのも皆さまのおかげです ありがとうございました ただいま、レストラン部分・ベーカリー部分を貸店舗としての運営を予定しております 詳しくは「INFORMATION お知らせ」をご覧いただきまして、お問合せください どうぞよろしくお願いします

                                      • http://lucene-gosen.googlecode.com/svn/branches/javadoc/api/index.html

                                        • 『Java製形態素解析ライブラリ「lucene-gosen」を試してみる』へのコメント

                                          ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

                                            『Java製形態素解析ライブラリ「lucene-gosen」を試してみる』へのコメント
                                          • [Java] SenよりもGoSen?

                                            ちょっと前に見たSenは、しかしバグ付きだという噂だし、どうしたものかと思っていたら、GoSenというのもあるらしい。 PerlやJCLからの依存性を排除したとのことだが、しかし、これも本家のURLがNotFoundで、、どうもJavaでこの手のアプリは保守するのが面倒になるものなのか(CMeCabの中にあるような、辞書不要のタイプもある)。 書きながら調べていたら、早速(Senよか治ってるようだけど)バグ情報も。あとLucene対応の書換えについて。

                                              [Java] SenよりもGoSen?
                                            1