yag_aysのブックマーク - はてなブックマーク

Mozcの辞書を使ってMeCabでかな漢字変換する - Qiita

Mozc (OSSのIME) 用の辞書をMeCab (OSSの形態素解析器) 用の辞書に変換することで、MeCabでかな漢字変換できるようにするスクリプトをお遊びで作りました。 💁‍♀ https://github.com/ikegami-yukino/mecab-as-kkc 💁‍♂ 現状では、かな漢字変換は日常的に使われているにも関わらず割とニッチな分野です。特にLinux界隈ではこれまで使われてきたMozcの開発頻度が大幅に下がったため、新しいIMEの登場が期待されています。これをきっかけに少しでもかな漢字変換に興味を持っていただければ幸いです。もっと欲を言えばMozcの代わりとなる新しいLinux用IMEを作っていただけたら最高です。また、mecab-as-kkcをnksndやJLM、SIMPLE、ngram-converter-cpp、neural_ime、mecab-sk

yag_ays 2020/07/20

リンク

Mac に SentencePiece をインストール - Qiita

brew install autoconf automake libtool protobuf pushd . git clone --depth=1 https://github.com/google/sentencepiece.git /tmp/ cd /tmp/sentencepiece perl -i -pe 's/libtoolize/glibtoolize/' autogen.sh ./autogen.sh ./configure make make check sudo make install popd rm -rf /tmp/sentencepiece

yag_ays 2017/04/09

リンク

ML-Askでテキストの感情分析 - Qiita

ちゃお……† 今回は感情分析ライブラリML-Askについて紹介します。 ML-Askができること感情の推定 2,100語の辞書によるパターンマッチングで{喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚}の10種類の感情を推定します。この2,100語は、感情表現辞典に基づいているそうです。感情の強さ間投詞、擬態語、がさつな言葉、顔文字、「！」や「？」の数で感情の強さを推定します。ネガポジ分類推定された感情から文を{ネガティブ、ポジティブ、ニュートラル}の３種類に分類します。文脈の考慮 Contextual Valence Shifters (CVS) という概念に基づいて, 文脈を考慮した感情推定を行います. たとえば, 「好きとは言えない」という文の場合、「好き」が否定されているので、「好き」の逆の感情である「厭」だと推定します。活性的かどうか推定された感情を元に

yag_ays 2017/02/10

リンク

defragTreesがよさそう - Qiita

ちゃお……† 今回はdefragTreesという機械学習ライブラリを紹介します。 defragTreesとは RandomForestやXGBoostなどに対して、できるだけ精度やカバレッジを下げないようにしつつ、モデルをシンプルに(ルールを減らす)表現する手法を使ったライブラリです。ルールが少ないので人間が見たときのわかりやすさがあります。たとえば、元はシンプルなデータ(Figure 1 の a)でもアンサンブル学習すると無駄に複雑になってしまうことがあります (Figure 1 の b)。そこで、defragTreesを使うとオリジナルと同じようなシンプルさになります (Figure 1 の c)。コード: https://github.com/sato9hara/defragTrees 論文: https://arxiv.org/abs/1606.09066 使い方 from

yag_ays 2016/11/29

リンク

PythonでのMeCabを速くするtips - Qiita

ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います！ parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。コード import MeCab tagger = MeCab.T

yag_ays 2015/12/18

リンク

NLTK に Sentiment Analysis がやってきた - Qiita

NLTK 3.1でSentiment analysis関連が追加されたので試してみました。 * 3.1時点での話だから今後古くなるかも...† NLTKって？ Natural Language Tool Kit という自然言語処理・テキストマイニングの学習や実験に向いてるPython用ライブラリのこと。品詞タグ付けや構文解析、情報抽出、意味解析などが簡単にできるようになっていて、オライリーから出ている入門自然言語処理の題材にもなってます。 Sentiment analysisって？ざっくりいうと文が positive/negative (快/不快あるいは肯定的/否定的) であるかを判定すること。日本語だと評判分析と呼ばれてたり。あくまでも2極だけをみるので喜怒哀楽・恥ずかしい・怖いみたいな違いはわからないけど、そこまで細かく知る必要がないときには使えます。 nltk.sentime

yag_ays 2015/10/18

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/yukinoi (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス