タグ

2009年5月5日のブックマーク (9件)

  • 日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air in Shinagawa Seaside

    Senとは Sen はJAVAで書かれた日形態素解析器です。 辞書を使って日語の文章をトークナイズします。 下は「Sen はJAVAで書かれた日形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。 これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。 Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。 ここでは文字コードをutf-8で統一してい

    日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air in Shinagawa Seaside
    nilab
    nilab 2009/05/05
    日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air
  • Lucene/JapaneseAnalyser/Sen、辞書にすごく長い単語が含まれてるとその単語を含んだドキュメントを追加する際にIndexOutOfBoundsExceptionで失敗する - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

    環境:sen 1.2.2.1 IndexOutOfBoundsExceptionって明らかにバグやんけ。 エラーメッセージ java.lang.RuntimeException: java.lang.IndexOutOfBoundsException at net.java.sen.Dictionary.getPosInfo(Dictionary.java:149) at net.java.sen.Viterbi.analyze(Viterbi.java:134) at net.java.sen.StringTagger.analyze(StringTagger.java:180) at net.java.sen.StreamTagger.hasNext(StreamTagger.java:109) at org.apache.lucene.analysis.ja.sen.SenToken

    Lucene/JapaneseAnalyser/Sen、辞書にすごく長い単語が含まれてるとその単語を含んだドキュメントを追加する際にIndexOutOfBoundsExceptionで失敗する - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
    nilab
    nilab 2009/05/05
    Lucene/JapaneseAnalyser/Sen、辞書にすごく長い単語が含まれてるとその単語を含んだドキュメントを追加する際にIndexOutOfBoundsExceptionで失敗する:マジックナンバー256が頻出:ほとんどテスト書いてない:サイトがSPAMに乗っ取られてる
  • Solr1.3(Jetty)でSenを使えるようにする設定方法:お題目うぉっち

    2008年12月30日 Solr1.3(Jetty)でSenを使えるようにする設定方法 現在、Solr1.3をいろいろいじくる際には、最初からついてくるJettyのExampleをそのまま流用して使っている。 Senの組み込みもできているのだが、あれこれ試行錯誤をしながらセットアップしたので、どれが当に必要な設定なのか、実はよく分かっていないという状態。が、一度はうまく動いているものを下手に変更して動かなくなるのは避けたい。そんなこんなで「触らぬ神にたたりなし」だったのだが、今後の新規インストールの際に再びハマりそうな気がしたので、Senの組み込みを0からやり直してみた。 参考にさせていただいたのは、いつも参考にさせていただいている下記のページ。ありがとうございます。 日形態素解析器Senを導入する その2 lucene-jaのインストール Solrお試し2 普通に読むと、sen.j

    nilab
    nilab 2009/05/05
    Solr1.3(Jetty)でSenを使えるようにする設定方法 - お題目うぉっち
  • LuceneとGoSen - Vox

    私もGosenに入れ替えようとしたのですが、、、うまく動きません。 クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。 わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。 変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T

    nilab
    nilab 2009/05/05
    LuceneとGoSen - Vox : 「Luceneでつかっている、JapaneseAnalyzerを、SenからGoSenをつかうように書き換えてみた」
  • Gmail Labs の新機能: 携帯絵文字の追加

    デスクトップ Gmail での絵文字機能 を2008 年 10 月に提供を開始してから半年、日、デスクトップ Gmail (http://mail.google.com/)で、日の携帯キャリア(NTT ドコモ、KDDI、Softbank モバイル)の絵文字を追加する Gmail Labs の新機能をリリースしました。携帯電話でおなじみの絵文字をメール編集時に挿入できるようになります。 この機能を利用するには、Gmail トップの「設定」→「Labs タブ」で表示される 「追加の絵文字」 を有効にしてください。下のスクリーンショットのように新たな絵文字絵文字の一覧に追加されます。 「ドコモの i-mode メールに送るときには、ドコモの絵文字を使う必要がある?」 -- いいえ、そんなことはありません。携帯メールに絵文字を送るときは、宛先に応じて自動的に絵文字を変換します。例えばSoft

    Gmail Labs の新機能: 携帯絵文字の追加
    nilab
    nilab 2009/05/05
    Google Japan Blog: Gmail Labs の新機能: 携帯絵文字の追加 : 「Gmail トップの「設定」→「Labs タブ」で表示される 「追加の絵文字」 を有効にしてください」 : a pile of unko
  • New in Labs: Extra emoticons

    News, tips and tricks from Google's Gmail team and friends.

    New in Labs: Extra emoticons
    nilab
    nilab 2009/05/05
    Official Gmail Blog: New in Labs: Extra emoticons : a pile of unko
  • 夫よりも、自分の家族を優先?!「妻の実家」に振り回される夫たちの悲鳴

    1967年生まれ。上智大学外国語学部卒業。編集プロダクション勤務を経て、独立。週刊ダイヤモンド、人事関連雑誌、女性誌などで、メンタルヘルスや介護、医療、格差問題、独立・起業などをテーマに取材、執筆を続ける。西川氏の連載「『うつ』のち、晴れ」「働く男女の『取扱説明書』」「『婚迷時代』の男たち」は、ダイヤモンド・オンラインで人気連載に。 「婚迷時代」の男たち 仁義なき最新の婚活事情から、結婚をビジネスにする企業、結婚生活や離婚の実態までを徹底取材。「結婚」という2文字に翻弄される男たちの姿を追う。はたして「結婚」は男を幸せにするのか――。 バックナンバー一覧 「困るわね、そんなに子育てに非協力的では。おむつもちゃんと替えてくれないんですって? あまりにも娘が可哀想ですよ。あのね、私も主人も、『別れたかったら我慢しないで、すぐ子どもを連れて帰っておいで』って、いつもそう言っているのよ」 くどくど

    夫よりも、自分の家族を優先?!「妻の実家」に振り回される夫たちの悲鳴
    nilab
    nilab 2009/05/05
    夫よりも、自分の家族を優先?! 「妻の実家」に振り回される夫たちの悲鳴:「相当な節約生活」とか「毎朝夫を送り出すとすぐ子どもを連れ、自転車で実家に」とか健康ランドの話とか、なんだか専業主婦前提の話のよう。
  • 離婚後の人生は男女で明暗分かれる? 未来系めざす「離活」妻 「離婚うつ」に苦しむ夫|「婚迷時代」の男たち|ダイヤモンド・オンライン

    西川敦子(フリーライター) 【第7回】 2009年04月24日 離婚後の人生男女で明暗分かれる? 未来系めざす「離活」離婚うつ」に苦しむ夫 藤原紀香の「未来系離婚」以来、婚活ならぬ「離活(りかつ)」がさらに盛り上がっている。離活とは、もちろん離婚活動の略語。離婚後に慰謝料や養育費などをばっちりもらえる、好条件の離婚を目指し、水面下でこっそりおこなわれる活動のことである。 今年4月からスタートしたNHKの金曜ドラマ「コンカツ・リカツ」で、一気に認知度がアップ。「離婚は女性にとって未来のためのステップ」という風潮も高まっていたことから、あちこちの雑誌やテレビ番組で取り上げられるようになった。 なかには「夫の携帯電話はまめにチェックを」「カバンの中身もよく確認して」などと手とり足とり離活指南をおこなうものもある。これらの情報に、我ががひそかに刺激を受けているとしたら――と、気が気

    nilab
    nilab 2009/05/05
    離婚後の人生は男女で明暗分かれる? 未来系めざす「離活」妻 「離婚うつ」に苦しむ夫|「婚迷時代」の男たち|ダイヤモンド・オンライン : 「30代」で「結婚して5年未満」のビジネスマンは要警戒
  • 不二子エキゾチックブラ - Ig 商品検索

    nilab
    nilab 2009/05/05
    ig - 不二子エキゾチックブラ