ブックマーク / qiita.com/yukinoi (6)

  • Mozcの辞書を使ってMeCabでかな漢字変換する - Qiita

    Mozc (OSSのIME) 用の辞書をMeCab (OSSの形態素解析器) 用の辞書に変換することで、MeCabでかな漢字変換できるようにするスクリプトをお遊びで作りました。 💁‍♀ https://github.com/ikegami-yukino/mecab-as-kkc 💁‍♂ 現状では、かな漢字変換は日常的に使われているにも関わらず割とニッチな分野です。特にLinux界隈ではこれまで使われてきたMozcの開発頻度が大幅に下がったため、新しいIMEの登場が期待されています。これをきっかけに少しでもかな漢字変換に興味を持っていただければ幸いです。もっと欲を言えばMozcの代わりとなる新しいLinux用IMEを作っていただけたら最高です。 また、mecab-as-kkcをnksndやJLM、SIMPLE、ngram-converter-cpp、neural_ime、mecab-sk

    Mozcの辞書を使ってMeCabでかな漢字変換する - Qiita
    yag_ays
    yag_ays 2020/07/20
  • Mac に SentencePiece をインストール - Qiita

    brew install autoconf automake libtool protobuf pushd . git clone --depth=1 https://github.com/google/sentencepiece.git /tmp/ cd /tmp/sentencepiece perl -i -pe 's/libtoolize/glibtoolize/' autogen.sh ./autogen.sh ./configure make make check sudo make install popd rm -rf /tmp/sentencepiece

    Mac に SentencePiece をインストール - Qiita
    yag_ays
    yag_ays 2017/04/09
  • ML-Askでテキストの感情分析 - Qiita

    ちゃお……† 今回は感情分析ライブラリML-Askについて紹介します。 ML-Askができること 感情の推定 2,100語の辞書によるパターンマッチングで{喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚}の10種類の感情を推定します。この2,100語は、感情表現辞典に基づいているそうです。 感情の強さ 間投詞、擬態語、がさつな言葉、顔文字、「!」や「?」の数で感情の強さを推定します。 ネガポジ分類 推定された感情から文を{ネガティブ、ポジティブ、ニュートラル}の3種類に分類します。 文脈の考慮 Contextual Valence Shifters (CVS) という概念に基づいて, 文脈を考慮した感情推定を行います. たとえば, 「好きとは言えない」という文の場合、「好き」が否定されているので、「好き」の逆の感情である「厭」だと推定します。 活性的かどうか 推定された感情を元に

    ML-Askでテキストの感情分析 - Qiita
    yag_ays
    yag_ays 2017/02/10
  • defragTreesがよさそう - Qiita

    ちゃお……† 今回はdefragTreesという機械学習ライブラリを紹介します。 defragTreesとは RandomForestやXGBoostなどに対して、できるだけ精度やカバレッジを下げないようにしつつ、モデルをシンプルに(ルールを減らす)表現する手法を使ったライブラリです。 ルールが少ないので人間が見たときのわかりやすさがあります。 たとえば、元はシンプルなデータ(Figure 1 の a)でもアンサンブル学習すると無駄に複雑になってしまうことがあります (Figure 1 の b)。そこで、defragTreesを使うとオリジナルと同じようなシンプルさになります (Figure 1 の c)。 コード: https://github.com/sato9hara/defragTrees 論文: https://arxiv.org/abs/1606.09066 使い方 from

    defragTreesがよさそう - Qiita
    yag_ays
    yag_ays 2016/11/29
  • PythonでのMeCabを速くするtips - Qiita

    ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います! parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。 わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。 コード import MeCab tagger = MeCab.T

    PythonでのMeCabを速くするtips - Qiita
    yag_ays
    yag_ays 2015/12/18
  • NLTK に Sentiment Analysis がやってきた - Qiita

    NLTK 3.1でSentiment analysis関連が追加されたので試してみました。 * 3.1時点での話だから今後古くなるかも...† NLTKって? Natural Language Tool Kit という自然言語処理・テキストマイニングの学習や実験に向いてるPython用ライブラリのこと。 品詞タグ付けや構文解析、情報抽出、意味解析などが簡単にできるようになっていて、オライリーから出ている入門自然言語処理の題材にもなってます。 Sentiment analysisって? ざっくりいうと文が positive/negative (快/不快あるいは肯定的/否定的) であるかを判定すること。 日語だと評判分析と呼ばれてたり。 あくまでも2極だけをみるので喜怒哀楽・恥ずかしい・怖いみたいな違いはわからないけど、そこまで細かく知る必要がないときには使えます。 nltk.sentime

    NLTK に Sentiment Analysis がやってきた - Qiita
    yag_ays
    yag_ays 2015/10/18
  • 1