タグ

kuromojiに関するoverlastのブックマーク (5)

  • さだまさしを kuromoji を用いて簡単に品詞分解してみる - Qiita

    さだまさし 名詞-固有名詞-人名-一般 さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。 個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に(サダゴスティーニとかは節度のある大人なので言わない)書いていければと思います。 ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。 道具の用意 解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji KuromojiはJavaで書かれているオープンソースの日形態素解析エンジンです。 Java形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が OSS として k

    さだまさしを kuromoji を用いて簡単に品詞分解してみる - Qiita
    overlast
    overlast 2015/12/04
    「北の国から」の歌詞を形態素解析してる😅大学のテキストマイニング初級の授業でこういうのを好きなアーティストでやるの結構良さそう。
  • Lucene Kuromojiのトークナイズを、Graphvizを使ってビジュアル化する - CLOVER🍀

    ちょっと前に見ていたこちらのエントリ。 Solr + kuromoji で単語の切れ方がおかしかったのでガッツリ調べてみた、理由と調べ方その方法を公開します! http://blog.yoslab.com/entry/2014/09/12/005207 kuromoji のサイトに行くと、トークナイズの処理を分析することができる。 http://blog.yoslab.com/entry/2014/09/12/005207 Atilika Kuromojiのサイトやkuromoji-serverで、Kuromojiのトークナイズの様子がビジュアル化できるようで、へぇ〜と思っていたのですが、最近Lucene Kuromojiで同じことができそうなことに気付き、ちょっとやってみました。 kuromoji-server http://atilika.org/kuromoji/ ※このページで、「

    Lucene Kuromojiのトークナイズを、Graphvizを使ってビジュアル化する - CLOVER🍀
    overlast
    overlast 2015/07/19
    "mecab-ipadic-NEologdを組み込んだLucene Kuromojiでビジュアル化してみます"
  • Lucene Kuromojiに対して、mecab-ipadic-neologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀

    ここ2〜3日、ず〜っとmecab-ipadic-neologdの辞書をLucene Kuromojiに適用するという作業を延々と繰り替えしていました。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 が、けっこうな数の手順を踏むので、だんだん面倒になってきました…。 そこで、上記のエントリでやった手順をまとめたbashスクリプトを書きました。ビルド方法もだいたい決まったことですし。 ※完全に同じではありません エラートラップとかは大して入れていませんが、ご了承ください。 実行する前提条件として、以下がインストールされている必要があります。 MeCabをビルドできるソフトウェア(C++コンパイラ、iconv、xz) Git wget

    Lucene Kuromojiに対して、mecab-ipadic-neologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀
  • 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

    先日、このようなエントリを書きました。 mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150315/1426391366 mecab-ipadic-neologd自体については、こちら。 MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました http://diary.overlasting.net/2015-03-13-1.html このエントリでは、LuceneのKuromojiにmecab-ipadic-neologdを適用してみたのですが、2つの問題が出ました。 ひとつは、Kuromojiがmecab-ipadic-neologdのシード辞書に含まれる原形が15文字を超える単語を取り込めないこと。もうひとつは、同じくmecab-ipadic

    修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
    overlast
    overlast 2015/03/17
    再び素敵な記事を書いて頂きました!いますぐKuromojiで使いたい方は必見です。 #neologd #kuromoji
  • mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

    注意) このエントリでは、mecab-ipadic-neologdをLucene Kuromojiに適用するにあたり、2つほど問題が発生したのですが、作者の@overlastさんにそのうちのひとつを対応いただきました。 修正版mecab-ipadic-neologdを使ってLucene Kuromojiに適用するエントリは、以下を見るようにしてください。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 こちらのエントリは、備忘録的に残っているだけです。 以降は、それを踏まえた上で読まれますよう。とりあえずLucene Kuromojiに適用したい場合は、上記のエントリをご覧ください。 先日、ちょっと気になるエントリが世の中に出ていま

    mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
    overlast
    overlast 2015/03/15
    複雑な手順を平易に解説して下さってます。原型15文字制限以外は本日夕方に対処しました。
  • 1