Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
MeCabとは、形態素解析をするためのライブラリです。 NEologdとは、Web上から得た新語に対応しており、毎週更新されるMeCab用のシステム辞書です。 この二つで最新の単語に対応した形態素解析ができます! 「画像での上のコマンド」がデフォルトの辞書、「画像での下のコマンド」がNEologdです。 NEologdでは、「ポケモンGO」「位置情報」などが固有名詞として取得できている。 インストール確認環境 ・さくらVPSのCentOS6 ・AWSEc2のCentOS7 MeCabのインストール 公式サイト http://taku910.github.io/mecab/ ダウンロードするもの まずは公式サイトに行き、 ・Sourceからmecab-0.996.tar.gz ・IPA 辞書から辞書 の2つをダウンロードします。 2つをサーバでインストールする ・mecab-0.996.ta
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ちゃお・・・† 個人的にですが、最近はWindowsのPythonでMeCabを使う機会が増えてきました。しかし、WindowsでMeCabのPythonラッパーを入れるには、ソースをダウンロードしたりsetup.pyを書き換えたりコンパイラをインストールしたりしないといけないので、とても面倒です。 そこで、WindowsでもmacでもUbuntuでもpipで簡単にMeCabのPythonラッパーを使えるものを公開しました! https://pypi.org/project/mecab/ ※ 過去にmecab-python-w
$ echo "10日放送の「中居正広のミになる図書館」(テレビ朝日系)で、SMAPの中居正広が、篠原信一の過去の勘違いを明かす一幕があった。" | \ docker run -i -a STDIN -a STDOUT nownabe/mecab-neologd 10日 名詞,固有名詞,一般,*,*,*,10日,トオカ,トオカ 放送 名詞,サ変接続,*,*,*,*,放送,ホウソウ,ホーソー の 助詞,連体化,*,*,*,*,の,ノ,ノ 「 記号,括弧開,*,*,*,*,「,「,「 中居正広のミになる図書館 名詞,固有名詞,一般,*,*,*,中居正広のミになる図書館,ナカイマサヒロノミニナルトショカン,ナカイマサヒロノミ ニナルトショカン 」 記号,括弧閉,*,*,*,*,」,」,」 ( 記号,括弧開,*,*,*,*,(,(,( テレビ朝日 名詞,固有名詞,組織,*,*,*,テレビ朝日,テレ
はじめに Windows 7 64bit に MeCabを導入するのに思ったよりも大変だと思ったので備忘録として投稿します。 MeCabは形態素解析ツールです。基本的に下記のことをしてくれます。 日本語の文を形態素(意味の通る最小のブロック)に分けてくれる 形態素の持つ品詞を分析してくれる 1行目:入力したテキスト、3行目以下:結果 参考にした情報は以下(ありがとうございました!): 64bit Windows + python 2.7 + MeCab 0.996 な環境をつくる Windows 64bitで、mecab-python 導入に必要なもの python 2.7.11 Microsoft Visual Studio 2015 mecab-0.996.exe mecab-0.996.tar.gz mecab-python-0.996.tar.gz 手順 1. 「導入に必要なもの」
Rettyのクラフトビール担当兼エンジニアのbokenekoです。 doc2vecを使って実験的なリコメンデーションシステムを作ってみたのでその手法を紹介します。 doc2vec doc2vecはword2vecの進化系です。word2vecはある単語はその周りにどんな単語が現れやすいかでその単語の意味を捉えようとしますが、doc2vecはそこにさらに文脈を加味するように学習します。 例えば、「私はxxxを飼っている」という文章のxxxには「犬」とか「猫」とかが入るので「犬」も「猫」も似た意味を持つのだろうというのがword2vecの考え方です。 ですが、もしこの文章が犬の話の小説のものであれば「猫」よりも「犬」が圧倒的に出やすくなりますし、SM小説の一節なら...まあ出やすい単語が変わるのは分かっていただけるかと思います。 つまり文章の文脈によって単語の出やすさが変わるので、どんな単語が
とコマンドを入力すると、MeCabが起動し、文字入力待ちモードになります。 何か言葉を入力し、returnキーを押してみましょう。 追加の辞書ファイルのインストール IPA辞書と一緒に、mecab-ipadic-NEologdという新語辞書を使うことにします。 http://diary.overlasting.net/2015-03-13-1.html IPA辞書(IPADIC)だけを使うと何が問題かというと、 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を
はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/
(この記事は Elixir (その2)とPhoenix Advent Calendar 2016 6日目の記事です) AIには、「強いAI」と「弱いAI」という分類がありますが、Elixirと、MeCabやWikipedia API等を使って、「弱いAI」の中でも、更に貧弱ゥな「弱々しいAI」(笑)を何回かに分けて作ってみます ザックリとした仕様としては、こんな感じですかね 対話して、言われた文脈を何となく解釈して、それとない返事を返す 聞いた言葉から受けた印象から、感情のようなものが揺らぎ、返事が変化する 足りない知識は、Wikipediaに取得しに行き、当たり障り無い感じで引用する なんとも頭の悪いAIになりそうな気配しかしませんが、アレコレしているうちに魂みたいなものが宿るか、哲学的ゾンビができあがるかも知れない ひとまず今回は、MeCabで日本語の文章をパースして、ワンパターンな意
Perl 5 Advent Calendar 2016 - Qiitaの22日目の記事です. 僕はバイト先や大学で Perl を使って自然言語処理を行う時があるのですが, 対象のテキストに記号や URL などが含まれている場合があってまー面倒です. そういった問題を解消しながら形態素解析を行うために Text::Shirasu というモジュールを使ってみましょう. 形態素解析をやってみる もともと Text::MeCab のラッパーとして開発していたものなので, Text::MeCab と似たように扱うことができます. 手始めにこのツイートを形態素解析してみましょう. 綿密に打ち合わせをしたのに突然クライアントの都合で色々変わって大変な目に合うデザイナーの図 pic.twitter.com/9DnOlaf6mT — えかきどう (@E_K_D) 2016年12月18日 use strict
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (N
$ cat Procfile bot: bash heroku_exec.sh $ cat heroku_exec.sh /app/vendor/mecab/libexec/mecab/mecab-dict-index -d /app/vendor/mecab/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 dic.csv mv original.dic /app/vendor/mecab/lib/mecab/dic/ipadic/ echo "userdic = /app/vendor/mecab/lib/mecab/dic/ipadic/original.dic" >> /app/vendor/mecab/lib/mecab/dic/ipadic/dicrc /app/vendor/bundle/ruby/2.4.0/bin
MeCab 用の辞書として、大きく3つあります。 私の感覚としては話し言葉にはUniDicを、文章にはIPAかJumanを用いると良いです。 IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書 Juman 辞書, 京都コーパスに基づき CRF でパラメータ推定した辞書 UniDic 辞書, BCCWJコーパスに基づき CRF でパラーメータ推定した辞書 それぞれの違いは次の説明が分かりやすいです。 形態素解析と辞書をどのように選べばよいのか 一般に性能が良い、精度がよいものがよいというのであれば、MeCab + UniDic を利用すればよい。但し、出力される単位・品詞が後続の処理において有効であるものと無効であるものがある。付与されている各種情報に基づいて、用途による使い分けをお勧めする。 音韻的な情報が重要な場合 UniDic + MeCab を利用するが、固有
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く