Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
$ juman | knp -tab 雨が降った # S-ID:1 KNP:4.17-CF1.1 DATE:2017/11/23 SCORE:-5.31832 * 1D <文頭><ガ><助詞><体言><一文字漢字><係:ガ格><区切:0-0><格要素><連用要素><正規化代表表記:雨/あめ?雨/う><主辞代表表記:雨/あめ?雨/う> + 1D <文頭><ガ><助詞><体言><一文字漢字><係:ガ格><区切:0-0><格要素><連用要素><名詞項候補><先行詞候補><正規化代表表記:雨/あめ?雨/う><解析格:ガ> 雨 あめ 雨 名詞 6 普通名詞 1 * 0 * 0 "代表表記:雨/あめ 漢字読み:訓 カテゴリ:抽象物" <代表表記:雨/あめ><漢字読み:訓><カテゴリ:抽象物><正規化代表表記:雨/あめ?雨/う><品曖><ALT-雨-う-雨-6-1-0-0-"代表表記:雨/う 漢字読み:
■MeCabについて MeCab は、オープンソースの形態素解析エンジンです。 MeCab 以外でもフリーで入手可能なものには、ChaSen、Juman、KAKASI などがある。有償のものだと Basis Technology の Rosette 形態素解析システムなどもある。 MeCab - Wikipedia によると、 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。 品詞情報を
さだまさし 名詞-固有名詞-人名-一般 さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。 個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に(サダゴスティーニとかは節度のある大人なので言わない)書いていければと思います。 ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。 道具の用意 解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji kuromoji KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。 Java で形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が
問題 mecab-ruby を本格的に使う必要が出てきたので mecab-ruby を触っていました. mecab-ruby は SWIG という一度書いたものをより高級な言語で使いまわせるようにするツールで実装されているので, インターフェイスが Ruby っぽくないです. あと各言語向けバインディングの Doc の MeCab::Node の振舞い で触れられているように MeCab::Node の振る舞いはすこし癖があります. 書いてみた というわけで, 不満があるならラッパーを書けばいいじゃない!ということで gem を書いてみました. https://github.com/taiki45/mecab-ext https://rubygems.org/gems/mecab-ext どこが便利なったのか・使い方 まずは Node インスタンスを作ります.
TD;LR mecab標準のフォーマットは少し扱いづらい 出力フォーマットを弄ろう! 表層系+品詞の組み合わせができるようになり幸せ mecabのデフォルトの出力形式は使いづらくないですか? 前回の投稿の複数の形態素解析を一度に見るコマンドを作った話に引き続き, 形態素解析器の利用に関するtipsです. 形態素解析と言えば, mecabを使われている方が非常に多いかと思います. 企業利用だと, 製品への組み込みやすさから kuromojiを使ってる方も多いでしょうか? kuromojiを使ったことはないですが mecabを使っていて思うことは, "標準の出力形式扱いづらくない?"ということです. よく利用するのは, 僕は単語分割(分かち書き)と品詞取得, 活用形の原形化ぐらいなものなのですが 標準の出力形式だと, どうしても後段の処理で扱いづらいです. ある問題に対する分析を行うため, と
はじめに オープンソースの日本語形態素解析器:MeCabの辞書を利用する方法を備忘録として記録します。 MeCabの辞書には、システム辞書とユーザ辞書があります。 システム辞書の方が処理が早いと言われており、ユーザ辞書を使用する機会は少ないと思われる。 また、MeCab用の新語辞書・固有表現に強いシステム辞書:mecab-ipadic-NEologdが公開されている。mecab-ipadic-NEologdは、毎週2回(月曜日と木曜日)に一般サイト(はてなキーワードや郵便番号データやSNS,ニュース記事など)から情報を収集して更新されている。 参考サイト: MeCab公式サイト MeCabの辞書をカスタマイズする mecab-ipadic-neologd - GitHub 環境 OS:Red Hat Enterprise Linux 7.2 MeCab:0.996 MeCabのシステム辞書
はじめに 自然言語処理を学ぼうと思い、PythonにMeCabをインストールしようと考える人は多くいると思う。 MacやLinux環境では比較的簡単に(HomeBrewやapt-getを使用して)インストールすることが可能だが、Windows環境では一筋縄ではいかない。(現に2,3日ハマった) 多くの先人達がブログの記事にしているが、個人によって環境は異なるので、私がインストールに成功した方法を記事にしたいと思う。 インストール(に試して成功した)環境 OS:Windows10, Windows7 Pythonの環境:Anaconda3系 先にダウンロードしておくべきもの https://www.visualstudio.com/vs/older-downloads/ VS2015 Community (私の手元ではVS2017だと失敗した) http://taku910.github.i
初めまして。WACULでデータサイエンティストをしている @knknkn1162 です。 半年くらい前にMeCabをブーストさせようという記事を書いて、未だにいいねがつくので、そのお話の延長として、今回の記事を書きました。同様にMeCabをブーストさせる趣旨の記事ですが、違うツール(Google Search Console API)を用います。得られる効果はこちらのほうが高めです。 動機 半年くらい前の記事はどういうお話かというと、 MeCab をちょっと触ってみたが、mecab-ipadic-neologdでも足りねぇ、もうちょっと新語や特殊語彙を踏まえて分かち書きしたいという動機のもと、サイトのスクレイピング1 + GCP Natural Language API で新語を取得して、MeCabで新語を登録する方法の紹介でした。 当初はこの方法でのアプローチを用いていて、精度的は十分な
IBM Watson API や Pythonベースの日本語の自然言語処理に必要なツールが入った IBMコンテナ(Dockerコンテナ)をビルドして、IBM Bluemix のリポジトリに登録して、再利用できる様にします。 開発環境用のコンテナですから、もちろんコンテナが継続して実行する工夫もします。 Dockerコンテナのビルド環境の構築 目的のDockerコンテナは、自己のPC環境でビルドして、Bluemix のコンテナのリポジトリーに登録していきます。ビルドする環境は Ubuntu Linux の Docker が便利ですから、最初に自己のPC環境に Vagrantで Ubuntu Linux が動作する環境を作ります。 ここでは Vagrant の環境を準備する方法は以下のリンクが参考になると思います。 Vagrant by HashiCorp Qiita Windows + Va
MeCabとは、形態素解析をするためのライブラリです。 NEologdとは、Web上から得た新語に対応しており、毎週更新されるMeCab用のシステム辞書です。 この二つで最新の単語に対応した形態素解析ができます! 「画像での上のコマンド」がデフォルトの辞書、「画像での下のコマンド」がNEologdです。 NEologdでは、「ポケモンGO」「位置情報」などが固有名詞として取得できている。 インストール確認環境 ・さくらVPSのCentOS6 ・AWSEc2のCentOS7 MeCabのインストール 公式サイト http://taku910.github.io/mecab/ ダウンロードするもの まずは公式サイトに行き、 ・Sourceからmecab-0.996.tar.gz ・IPA 辞書から辞書 の2つをダウンロードします。 2つをサーバでインストールする ・mecab-0.996.ta
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く