You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)
perlでText::MeCabを使っていて、「なんか変だなー。みょ〜〜に、変だな〜・・」と稲川淳二ばりに思っていたら、作成したはずのmecabのユーザ辞書がText::MeCabに適応されていませんでした。人生オワタ、と嘆いていると、ザッツさんがCPANを見ればといってくれたので、見てみると、あーなるほど普通に書いてある。ということで、Text::MeCabに自分で作成したユーザ辞書を適応させる方法です(CPAN見れば書くまでもありませんが...)。 use Text::MeCab; use utf8; binmode(STDOUT, ":raw :utf8"); binmode(STDIN, ":raw :utf8"); use Encode; my $userdic ='../mecab_dic/wikipedia.dic, ../mecab_dic/hatena_keyword.d
スロウでローファイ Xをやめてから急に写真を撮る速度が落ちたようで、そういえば最近このblogにもフィルム写真の話題を書いていない。 写真に飽きたわけではなくペースが落ちただけなのだが、よくよく考えてみれば写真なんて分野はそうそう目新しいことが起きるわけでもなくイノベーショ…
ubuntu 7.10にmecab 0.97とIPA辞書をソースビルドを行いインストールした手順です。 配布元のインストールガイド UNIX項を参考にインストールしました。 参考:MeCab: Yet Another Part-of-Speech and Morphological Analyzer#インストール 1. 必要なパッケージのインストール ubuntu 7.10をUSBメモリにインストール直後の開発用パッケージをほとんどインストールしていない環境にmecabをインストールしています。 この環境では、makeを実行した時にエラーが発生します。 あらかじめ、gawkとbuild-essentialの2つのパッケージをインストールします。 $ sudo apt-get install gawk $ sudo apt-get install build-essential 2. mec
Linux, otoge.net, PHPotoge.netにMecabを使用した検索機能を実装するため、調べた記事を参考に作業を進めていたのですが、MecabをPHPから利用するためのモジュールであるphp_mecabのインストールで数時間程はまってしまい、凄く嫌な思いをしたので、備忘録として残しておきます。 まず、事前にイカサイトにてMecabと辞書をインストールしておきます。MeCab: Yet Another Part-of-Speech and Morphological Analyzer そして、php_mecabを以下のようにインストールします。 pear channel-discover pecl.opendogs.org pear remote-list -c opendogs sudo pear install opendogs/mecab-beta 普通はこれで上手く
この文章は、さくらインターネット・スタンダードプラン(FreeBSD)でMeCab、ipadic、MeCab Perlモジュールをインストールする際のメモです。ここでのMeCabのバージョンは0.81です。最新版のMeCabではないので気をつけてください。 説明の都合上、カレントディレクトリを「/home/username/」とします。 表示の関係で本来、一行に記述しなければならないのに改行して表示されている個所があります。注意してください。 ◆準備 アーカイブファイルをダウンロードします。 http://chasen.naist.jp/stable/ipadic/ipadic-2.4.4.tar.gz http://prdownloads.sourceforge.jp/mecab/14968/mecab-0.81.tar.gz http://prdownloads.sourceforge
MeCab(和布蕪/めかぶ) は 京都大学情報学研究科-日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer 今回は、Mecab本体のインストール 〜 Perlから利用可能にする(バインディング) までをやってみました。 環境としては、 CentOS 5.5 Perl 5.8.8 になります。 Mecab + 辞書 のインストール 最初に Mecab本体 と 解析で必要になる辞書をインストールします。 Mecab本体 の インストール 「Mecab」について、yum パッケージが無いので、ファイルをダウンロードして、make でインストールします。 configure で「--with
某バイトというか勉強させてもらっているところ*1でRとMeCabでほげほげするようなのでインストールするよ!!Macです。 mecabと辞書のインストールMeCab - Browse Files at SourceForge.netよりmecabとmecab-ipadicをダウンロード。win用以外のは辞書が含まれていないらしいので、辞書もダウンロードしてくる。 両方ともディレクトリに移動して以下を実行すればおk。 ./configure --with-charset=utf-8 make chmod 700 install-sh sudo make install こんな感じで結果が返ってくればインストールできてるっぽい。 /Users/yasuhisa/Downloads/mecab-ipadic-2.7.0-20070801% echo 'install log' | mecab i
_ 基本 2022 年 05 月 02 日 RMeCab_1.10 for R-4.2.0 (64bit・UTF-8のみ対応) 公開 2022 年 04 月 29 日 RMeCab_1.08 for R-4.2.0 (64bit・UTF-8のみ対応) 公開 2021 年 11 月 27 日 M1 MacOSX 用の注意を追記 2021 年 05 月 27 日 RMeCab_1.07 for R-4.1.0 (M1 Mac 用バイナリを追加で作成) 公開 2021 年 01 月 11 日 RMeCab_1.06 for R-4.0.3 (MacおよびLinuxでは辞書としてneologdを指定できるようになりました) 公開 R と MeCab? (ただしWindowsでは64bit UTF-8辞書版)の両方が既にインストールされているのならば R を起動し、コンソールで以下を実行すればRMe
メモがわりに MeCab + Python のインストールで引っかかったところを書く。 状況:研究室のサーバのローカル環境にインストールする。suになれる権限はない。 1.MeCabのインストール とりあえずmecab-0.98を持ってくる。 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz そして、インストール ./configure --prefix=自分のローカル --with-charset=utf8を打ち込む。 「--prefix=自分のローカル」がないと、勝手に/usr/local/のほうにインストールされることになって、もちろんそんな権限はないのでエラーが起きる。 makeのときに、 make[2]: `all' に対して行うべき事はありません。 make install
Mac OS X 10.4 で Mecabをインストールしようとしているのですが Mecab-0.93.tar.gzをダウンロード解凍し ターミナルで ./configure make make check sudo make install を行い成功したようで、 引き続き mecab-ipadic-2.7.0-20060707.tar.gzをダウンロード、解凍し 同じくターミナルで ./configure としたところ checking for mecab-config... no configure: error: mecab-config is not found in your system とのメッセージが出て失敗してしまいます。 どうすれば、上手くインストールできるのでしょうか? よろしくお願いします。
久しぶりにMeCabをいれることになったけど超絶簡単になっててびっくりした。 yumでインストールできます。 yum mecab mecab-devel ipadic ipadicは辞書です。辞書がないとmecabは機能しません。 一昔前までeucだのsjisだとutf8だの言ってたけど、yumで入れるとutf8の辞書ができ上がっています。 perlで弄る為にcpanモジュールもインストール。 cpanのシェルでインストールするとコケるので、無理やりインストール。 force install Text::MeCab 途中で辞書のエンコーディングは何か聞かれるのでデフォルトのutf-8を選択 これでperlからmecabを使う準備が整いました。 #!/usr/bin/perl use strict; use warnings; use utf8; use Text::MeCab; my $m
以下で、現時点での最新0.96版のPPDファイルと、PPMコマンドでのインストール方法が公開されています。 http://namazu.asablo.jp/blog/2007/06/28/1611341 私が使用しているWindows+ActivePerl 5.8の環境では、ここに書かれているとおり以下を実行することでMeCab?モジュールをインストールできました。 ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd サンプルスクリプトを参考に、次のようなスクリプトを作成しました。 use MeCab; print $MeCab::VERSION, "\n\n"; my $sentence = "太郎 はこの本を二郎を見た女性に渡した。"; my $tagger = new MeCab::Tagger(join " ",
管理人が試した限りでは、動作が軽くて一番インストールしやすかった形態素解析エンジンでした。 #contents(page=MeCab) ---- *インストール [[ここ>http://mecab.sourceforge.net/#download]]から必要なものをダウンロードし、サーバの適当なディレクトリに配置してrootでインストールしました。 MeCab本体 mecab-0.98.tar.gz 辞書(IPA辞書) mecab-ipadic-2.7.0-20070801.tar.gz perlバインディング(perlからMeCabを使うときに必要) mecab-perl-0.98.tar.gz インストールログ(rootでインストール) 【 本体のインストール 】 #mkdir MeCab #cd MeCab #tar xvf mecab-0.98.tar.gz #cd mecab-
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く