Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
1. 何をするの? 自分のツイートを解析して、「疲れ指数」を計算するような簡単なプログラムを作りながら、TwitterAPIとMeCabをサクッと試してみましょう。 ・TwitterAPIで自分のツイートを取得 ・MeCabでツイートを分かち書き(形態素ごとにリスト化) ・「疲」「しんどい」「眠」といった文字列がどれくらいあるかを出力する(「疲れ指数」) ちなみに、MeCabを使わずともTwitter APIだけで似たようなものは作れます。ではなぜMeCabを使うのかというと、例えば 「疲れた疲れた疲れた」 といったようなツイート(少し心配になりますね)を単にstrとして受け取って「疲」が含まれているかどうかを判断すると、値として1を返すのですが、MeCabを使うと 「疲れた」「疲れた」「疲れた」といった風に分かち書きしてくれるので、カウントが3になり、より正確な「疲れ指数」を計算できるよ
$ sudo pip install mecab-python3 Collecting mecab-python==0.996 Using cached https://files.pythonhosted.org/packages/86/e7/bfeba61fb1c5d1ddcd92bc9b9502f99f80bf71a03429a2b31218fc2d4da2/mecab-python-0.996.tar.gz Building wheels for collected packages: mecab-python Running setup.py bdist_wheel for mecab-python ... error Complete output from command /usr/bin/python2.7 -u -c "import setuptools, tokeniz
個人的に、Dockerfileに書くことが多い3つの記述をメモします。ただし、ここでメモするのは一般的な「aptでのインストール」とか「pipでのインストール」のようなものではなく、パッケージマネージャでは対応できないことについて書きます。 キーワード: dockerfile MeCabのインストール dockerfile anacondaのインストール dockerfile emacsの設定 dockerfileの例 以下のリンクで私のdockerfileの例をアップロードしています。 https://github.com/sugiyamath/credibility_analysis/blob/master/Dockerfile 前提 このリストは、ベスト3の内容ではなく、dockerfileの前提です。 ユーザはrootとする。 nvidia/cuda:9.0-develのようなub
import MeCab def mecab_list(text): tagger = MeCab.Tagger("-Ochasen") tagger.parse('') node = tagger.parseToNode(text) word_class = [] while node: word = node.surface wclass = node.feature.split(',') if wclass[0] != u'BOS/EOS': if wclass[6] == None: word_class.append((word,wclass[0],wclass[1],wclass[2],"")) else: word_class.append((word,wclass[0],wclass[1],wclass[2],wclass[6])) node = node.next ret
はじめに PythonのWhooshとMecabを使用して全文検索を行います。 全文検索とは、その名の通りある文章の中に指定の単語が含まれているかを調べる検索です。 使用データ、環境など 今回使用するデータはwikipediaデータ(2.7GB)ですが好きなテキストデータで行えるので各人でデータを用意してください。 wikiのデータを使用したい場合はこちらからjawiki-latest-pages-articles.xml.bz2をダウンロードしてWikipedia Extractorを使用することで記事ごとに<doc> </doc>で囲まれたテキストデータが得られるみたいです。(配布されたものを使用するので、自分ではこの方法を試していないです。) Anaconda Python3.6使用 (Python2でも実行出来る可能性はあります。) Windows, Mac, Linux(Ubun
CSGAdventCalendar 9日目 最近ラズパイを使ってモールス符号変換器を作ったので、備忘録。 概要 入力した文字列をモールス信号に変換、それをRaspberry PiのLEDを光らせて遊びました。 その際にpykakasiとMeCabを使ってアルゴリズムを組んだので備忘録です。 Githubのリンクも載せておきます。 環境はMac, python3.5.2です。 モールス信号とは 文字や記号を表象する方法のひとつ。電信による伝達を目的として発明され、短点とその3倍の長さを持つ長点の組み合わせにより文字や記号を表す。ラテン文字を基礎とした国際モールス信号の他、和文モールス信号のように各国の文字に対応したモールス信号が考案されている。 みなさんご存知SOSのあれです。 日本語やアルファベットを「トン」「ツー」の二つの記号で表すことができます。 そんなモールス信号にもいくつかのルール
はじめに 何番煎じかわかりませんが、MacにおけるMecabの環境構築方法についてまとめておきます。 OSのバージョンはOS X High Sierraです。 Mecabについて MeCabはオープンソースの日本語の形態素解析器です。 形態素解析の分析において必須のソフトウェアとなっています。 なお、形態素解析の精度を大きく左右するものに、日本語の辞書があります。 利用する辞書によって形態素解析の結果が大きく変わります。 特に、Twitterのツイート本文や検索ワードなど新語が多く登場することが想定される文章ではその性能差が顕著に出ます。 この記事では、MeCabで用いられる代表的な辞書であるIPA辞書とIPA辞書を拡張して開発されたneologd辞書をインストールして利用できるようにするところまでを解説します。 MeCabのインストール MeCabはHomebrewからインストールできま
形態素解析による日本語自然言語処理システムであるChaSenをインストールしたメモ。 環境:centos6.3 こことここを参考にインストールしてみました 環境:centos6.3 まずはChaSenの情報を見に行く http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/ iconvと Darts-0.31が必要らしい。 まずはDartsから。3,2があったので、そっちを入れる。 $ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz gtar xvzf darts-0.32.tar.gz cd darts-0.32 ./configure make make check sudo make insta
sudo yum install php-common php-devel php-cli php-pear sudo yum install pcre-devel sudo yum install php-mbstring git clone https://github.com/miraoto/php.mod-mecab-dic.git cd php.mod-mecab-dic mkdir mkdir mod-mecab-dic/tmp cd mod-mecab-dic/tmp wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz php ./mod-mecab-dic/bootstrap.php wikipedia cd mod-mecab-dic/tmp mv mecab-d
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く