Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

概要 日本語の形態素解析(MeCab)のようなことを英語でもやりたいのでApache OpenNLPを使用する 環境 OS: Windows7 64bit 言語: Java8 IDE: Eclipse4.6.1 目的 MeCabをコマンドラインで使用すると 今日はいい天気ですね。 ↓ ↓ 今日 「名詞,副詞可能,*,*,*,*,今日,キョウ,キョー」 は 「助詞,係助詞,*,*,*,*,は,ハ,ワ」 いい 「形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ」 天気 「名詞,一般,*,*,*,*,天気,テンキ,テンキ」 です 「助動詞,*,*,*,特殊・デス,基本形,です,デス,デス」 ね 「助詞,終助詞,*,*,*,*,ね,ネ,ネ」 。 「記号,句点,*,*,*,*,。,。,。」 と形態素に分け、形態素の情報が表示される ※ipadic辞書を使用した場合、 「品詞、品詞細分類1
概要 AWS LambdaでMeCabを動かそうと思ったら、思いのほか大変だったので今後の自分のために手順をまとめた。 (MeCabとは日本語の自然言語処理によく使われるオープンソースの形態素解析エンジン。詳しくは上記の作者のサイトへ。) 参考にさせてもらったサイト https://shogo82148.github.io/blog/2017/12/06/mecab-in-lambda/ http://marmarossa.hatenablog.com/entry/2017/02/03/223423 他にもたくさん「mecab lambda」で片っ端から検索かけて読み漁ったのだけど、もはやどこを読んだのかも覚えていない。上記二つの記事はとにかく作業スタートから完了するまでの間、ブラウザで開かれていた。 結論から述べると一番上の記事の通りにやればいいだけだったのだが、正直自分が次回この作業を
$ brew install mecab-ipadic Error: mecab-ipadic: /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:39: syntax error, unexpected << <<~EOS ^ /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:40: syntax error, unexpected tIDENTIFIER, expecting keyword_do or '{' or '(' ... enable mecab-ipadic dictionary, add to #{HOMEBREW_PREFIX}/e... ... ^
技術書典 5、楽しみですね。 どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。 とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。 技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。 チェックするサークルさんの数を雑に数えてみたら って言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。 なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。 できたもの Node.js でこんな感じの CLI を作ってみました。 あいまい検索で関連していそうなサークルさ
普段は仕事の合間を縫って、趣味でボードゲームのAI開発や自然言語処理を嗜んでいます。 色々ネタが溜まってきているので備忘も兼ねて少しずつQiitaに書いていこうと思います。 今回の記事では自然言語処理の中でも形態素解析に焦点を当て、最近NTTコミュニケーションズからリリースされたというCOTOHA APIと、形態素解析で有名なOSSであるMecabとの解析特徴の違いについて書こうと思います。 形態素解析 言語処理を経験されてる方には当たり前かもしれませんが、まずは基本から。 形態素解析とは、日本語や中国語のように文中に切れ目が存在しない文を、形態素と呼ばれる意味のある最小単位に分割する解析のことです。 例えば「すもももももももものうち」という文は「すもも/も/もも/も/もも/の/うち」のように分割することができます。 また、単に分割するだけでなく、名詞・動詞などの品詞情報や、表記ゆれ・活用
$ sudo ./tools/add-userdic.sh path/tools generating userdic... nnp.csv path/tools/../model.def is not a binary model. reopen it as text mode... reading path/tools/../user-dic/nnp.csv ... done! person.csv path/tools/../model.def is not a binary model. reopen it as text mode... reading path/tools/../user-dic/person.csv ... done! place.csv path/tools/../model.def is not a binary model. reopen it as t
import MeCab import sys import re from collections import Counter # ファイル読み込み cmd, infile = sys.argv with open(infile) as f: data = f.read() # パース mecab = MeCab.Tagger() parse = mecab.parse(data) lines = parse.split('\n') items = (re.split('[\t,]', line) for line in lines) # 名詞をリストに格納 words = [item[0] for item in items if (item[0] not in ('EOS', '', 't', 'ー') and item[1] == '名詞' and item[2] == '一般'
韓国語を形態素解析したいけど、 何がいいかなと探していたところ、mecab韓国語版を見つけました。 というのはもう2年前の話なのだが、それはさておいて。 mecab-koとは mecabを韓国語の形態素解析用に多少コードを改変しているようです。 Bitbucketにて公開されています。 https://bitbucket.org/eunjeon/mecab-ko/src/master/ 何をどう改変したのかはコミットログを見て、、、も、私は分かりません (README読む限りでは、空白文字の扱いが違うっぽい) インストール ひとまずMacbook Airにインストールします。 mecab-ko本体をインストール 韓国語用辞書をインストール mecab-ko本体をインストール Macであれば、homebrewであっさりインストールできます。 といってもREADMEにソースコンパイルの手順書い
本投稿の内容 pythonでtwitterのつぶやきを取得してその内容を見える化します。 Twitterのツイートデータをtweepyを使用して取得してテキストに出力 MeCabを使用して形態素解析を行い、名詞、動詞、形容詞の単語を抽出してデータ分析(Wordcloudで見える化) Twitterの検索キーワードは 7月27日に開催された「Oracle Innovation Summit Tokyo 2018」のつぶやき ハッシュタグ「#oracleinnovation」を検索しました。 (7月27日にtwitterのデータは取得していたのですが、トラブル対応等で忙しかったので投稿がおくれました。。) 事前準備 準備は以下の4つを実施 1.Twitter APIを使用するためのアカウント申請と「Consumer API keys」、「アクセストークン」の取得 2.tweepyのインストール
はじめに Pythonを用いて、ニュース記事の分類分けを教師ありの機械学習にかけて、未知の文章がどのニュース記事にあたるのかを予測する。ということをやってみました。 使うものとしては、 Mecab Gensim scikit-learnのSVM これらを利用しました。 また今回やるにあたり、主にMecabとGensimの利用の辺りを以下のサイトを参考(というよりもはやパクリ)に行ったので、まずはそちらの記事を見ていただいたらと思います。 scikit-learnとgensimでニュース記事を分類する gensimのコーパス操作 環境や各種ツールの説明 環境 OS : windows10 python : 3.6.6 ツール Mecab : 0.996.1 Gensim : 3.5.0 scikit-learn : 0.19.1 Mecabの用意 Mecabは、普段pythonでモジュールの
概要 小説家になろう(通称:なろう)というサイトは、自分で小説を書いて公開できるというサイトであるが、なろうで公開されている小説タイトルは一般的に長く特徴的なものが多いとされています。そこで、文書生成の手段として有名なマルコフ連鎖を用いてなろう小説のタイトルの自動生成を行いました。 プログラム 1.title_correct.py : なろうのAPIを使ってなろう小説のタイトルを記録する 。 2.marcov.py : 1でできたテキストファイルからMeCabを用いて分かち書きを行いマルコフ連鎖のもととなるデータベースを作成しそこからタイトルを自動作成する。 タイトルを集める タイトルを集めるプログラムは「小説家になろう」の作品タイトルは、本当に長くなってるのか? Pandasで確認しよう(https://qiita.com/dely13/items/5e949a384161c96
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く