タグ

mecabとrubyに関するmaxyのブックマーク (5)

  • はてなブログ | 無料ブログを作成しよう

    来年も作りたい!ふきのとう料理を満喫した 2024年春の記録 春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。 中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

    はてなブログ | 無料ブログを作成しよう
  • aki note » MeCab ruby binding が windows 上でうまく動かない

    MeCab ruby binding が windows 上でうまく動かないうーん。。情報も少ない。。この数時間の私の履歴。一応アプリは書ける状態に。 家を見てみる MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.net/ Ruby バインディングあるあるやったー。あでも windows … cygwin でいけそうなの発見。 mecab-ruby のインストール (Mac OSX & Cygwin on Windows) http://homepage.mac.com/matsuan_tamachan/software/MecabRuby.html extconf.rb 内のよくわかんないところでエラー発生・・・。そう言えばさっき他にもやり方書いてる人いた気が

  • 言語処理関連のプログラム類

    可能な限りプログラミングをしなくて済むようにプログラミングを学ぶ rubyっぽいの 手習いで作ったrubyのコードとか google N-gramを利用したデモ類 以下のデモはNYUの関根先生の指導の下、New York Experience Program滞在中に進めたテーマを元にスピンアウトしたもので、株式会社データセクションの支援により開発しました。 用語集合拡張器デモ google N-gramが研究室に届いたので、trigramだけを用いて簡単な知識獲得のデモを作ってみた。 いわゆる用語集合拡張器と言う奴です。解説はそのうち google N-gramを利用した用語集合拡張器デモ 用語間共通属性抽出器デモ 上で作った用語集合拡張器を利用して、入力語間に共通すると思われる属性の抽出器を構築。 これも基的にtrigramだけで動いています。 google N-gramを利用し

  • koress.jp: Ruby on Rails + MySQL 日本語全文検索まとめ

    「よいさいと」で日語の検索やろうと思って忘れていました。せっかくなので、最近のMySQLの日語全文検索の事情についてまとめてみます。2007/10/3時点。 ちなみに、以前に別のアプリで全文検索を実装したときには、例の如く「メカブで分解して16進の文字列で格納する」という方法でやっていたのですが、もうやりたくないです。 アルゴリズムいろいろ インデキシングの方法です。 単語分かち書き 形態素解析エンジンを使って、日語の文章を分解し、スペースを挿入してインデキシング。 形態素解析のエンジンにはmeCabとかchaSenがある。 インデックスのサイズはn-gramと比較して小さい。 辞書に登録されていない単語がある場合にはナイーブ。「脳トレ」「みっくみっく」 n-gram 基的に文章の任意の位置から後方n文字を切り出してインデキシングする。 bigramの場合 「その域に達していない」

  • mecab-ruby のインストール<BR> (Mac OSX & Cygwin on Windows)

    mecab の ruby バインディング、mecab-ruby をインストールします。 2007-11-10 Leopard でのビルドを追加 まえがき インストール 設定 使い方 関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に喰わせています。 MeCab —- mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac で使っているソフト —- ソフトのインストールや設定

  • 1