タグ

mecabに関するk-holyのブックマーク (3)

  • 技術めも » Blog Archive » MroongaでMecab

    MariaDBにMroongaはバンドルされていますが、 TokenizerとしてMecabを使う際は、少し注意が必要です。 公式には、以下のように書かれていますが、手順を残しておきます。 https://mariadb.com/kb/en/library/mroonga-overview/ 「Tokenise using MeCab. Required Groonga to be buillt with MeCab support.」 なお、OSはCentOS7、MariaDBのバージョンは、10.3.8です。 まずは、バンドルされているMroongaのインストールを見ていきます。 公式(https://mariadb.com/kb/en/library/about-mroonga/)を参考にしています。 1.プラグインのインストール MariaDB [(none)]> show eng

  • Regexp.ja

    解析前に行うことが望ましい文字列の正規化処理 辞書データを冗長にして異表記を吸収するのにも限界がある。 辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理 以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。 生成時には色々置換と削除をしているが、最後に反映されているのは以下である。 全角英数字は半角に置換 0-9=> 0-9 A-Z=> A-Z a-z=> a-z 半角カタカナは全角に置換 半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。 ハイフンマイナスっぽい文字を置換 以下はハイフンマイナスに置換する。 MODI

    Regexp.ja
    k-holy
    k-holy 2019/11/05
    mecab使う際の正規化処理
  • 文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita

    依存関係 natto が利用できる必要があります。 使い方 Rhymer::Parser.newの引数に文章を渡すと、検査結果が含まれたインスタンスが生成されます。インスタンスのrhymesメソッドを実行すると、韻を踏んでいるフレーズの組み合わせの配列が返されます。 require "rhymer" rhymer = Rhymer::Parser.new("今日はとても良い天気ですね。こんな日は自然に元気になります。") rhymer.rhymes.each do |rhyme| puts [rhyme[0], rhyme[1]].join(" ") end require "rhymer" lyric = <<"LYRIC" 1853年(嘉永6年)、長崎の出島への折衝のみを前提としてきた幕府のこれまでの方針に反して、江戸湾の目と鼻の先である浦賀に黒船で強行上陸したアメリカ合衆国のマシュー

    文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita
    k-holy
    k-holy 2016/05/23
    こりゃ面白い
  • 1