[B! mecab] nfunatoのブックマーク

大規模日本語ビジネスニュースコーパスを学習したXLNet（MeCab+Sentencepiece利用）モデルの紹介 - Qiita

はじめに以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。昨今の自然言語処理界？では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています！ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため

nfunato 2019/10/25

リンク

Common Lispで書かれた形態素解析器cl-igo / cl-mecabを使ってみた - masatoi’s blog

cl-igo http://igo.osdn.jp/cl-igo.html cl-igoはCommon Lispから使える形態素解析器で、辞書にはmecab互換の辞書が使える。 roswellから入るようにgithubにミラーを作ったので、 ros install masatoi/charseq masatoi/cl-igoでインストールできる。SBCL推奨とのこと。 igoのバイナリ辞書を作る IPA辞書をダウンロード https://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/ igo-0.4.5.jarをダウンロード https://osdn.net/projects/igo/downloads/55029/igo-0.4.5.jar/ mecab-ipadic-2.7.0-20070801.tgz

nfunato 2016/12/03

リンク

MeCab の形態素解析誤りを修正する生起コストの求め方

「かつおたたき」、「りんごジュース」、「ロース肉薄切り」を MeCab + IPA 辞書で形態素解析すると以下のようになります。 % mecab かつおたたきかつ接続詞,*,*,*,*,*,かつ,カツ,カツお接頭詞,名詞接続,*,*,*,*,お,オ,オたたき名詞,一般,*,*,*,*,たたき,タタキ,タタキ EOS りんごジュースりん副詞,助詞類接続,*,*,*,*,りん,リン,リンご接頭詞,名詞接続,*,*,*,*,ご,ゴ,ゴジュース名詞,一般,*,*,*,*,ジュース,ジュース,ジュース EOS ロース肉薄切りロース名詞,一般,*,*,*,*,ロース,ロース,ロース肉薄名詞,サ変接続,*,*,*,*,肉薄,ニクハク,ニクハク切り名詞,接尾,一般,*,*,*,切り,ギリ,ギリ EOS 日本人の感覚とはだいぶずれた結果になってしまっていますね！人間であれ

nfunato 2016/11/29

mecab

リンク

MeCab ソースコードリーディング私的メモ（形態素解析編）

先日、次のエントリーを書きました。日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログこのエントリーを書く際に MeCab のソースコードをそれなりに読んだので、記憶が薄れないうちにメモっておきます。とりあえず形態素解析部分です。コスト算出部分は気が向いたら書きます・・・。勘違いしている箇所もあるかと思うので、気付いたら指摘してもらえると嬉しいです！形態素解析時の主要クラス形態素解析時に関連するクラスとして特に意識しないといけないのは以下のクラスかと思います。メソッドも主要なものしか表示していません。 Show the source 形態素解析時のシーケンス図主要クラスを把握したら、次は解析の流れです。クラス図のとおり model が viterbi を所有していますが、model()->viterbi()->analyze(

nfunato 2016/11/25

mecab

リンク

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

nfunato 2016/10/20

nlp
mecab

リンク

Taku Kudo

nfunato 2016/06/03

mecab
nlp

リンク

MeCab ソースコードリーディング私的メモ（形態素解析編） - あらびき日記

この記事は abicky.net の MeCab ソースコードリーディング私的メモ（形態素解析編）に移行しました

nfunato 2016/06/03

mecab
nlp

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

nfunato 2016/05/11

nlp
mecab

リンク

日本語と英語の、難易度が高い形態素解析の例 - StatsBeginner: 初学者の統計学習ノート

小ネタです。すもももももももものうち昨日、日本語形態素解析エンジンMeCabに関するエントリを書きました。 statsbeginner.hatena blog.com ところで、MeCabの公式サイト（リンク）にいくと、インストール完了後のテストとして「すもももももももものうち」の解析が行われています。"Hello world!"のノリで。 $ mecab すもももももももものうちすもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモの助詞,連体化,*,*,*,*,の,ノ,ノうち名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS これを受けて、MeCabの使い方を解説する

nfunato 2016/03/21

mecab

リンク

PythonとMeCabで形態素解析（neologdやユーザ辞書の使い方）

PythonプログラムからMecabを使用して、形態素解析を行う。 Mecabの使い方は基本本家サイトを参照。 PythonとMecabのバインディングや各種辞書の追加は以前の記事を参照。 Ubuntu14.04にpyenv,Anaconda,MeCabをインストールしPython3環境構築 Ubuntu14.04(15.04)にmecab-ipadic-neologdをインストールできなかった※追記あり Ubuntu14.04でmecabの辞書にWikipediaとはてな単語を追加 1. 通常のmecabを使う場合とりあえず本家サイト読んで使い方学ぶ。 MeCab::Tagger というクラスのインスタンスを生成し, parse (もしくは parseToString) というメソッドを呼ぶことで, 解析結果が文字列として取得できます. MeCab::Tagger のコンストラクタの引数

nfunato 2016/02/21

"python3 mecab"

リンク

Ubuntu14.04にpyenv,Anaconda,MeCabをインストールしPython3環境構築

Anacondaで入れたPython3からMeCabを使いたい。 Vagrant上のUbuntu14.04に構築する。目次 VagrantでUbuntu14.04環境を作成pyenvでAnacondaをインストールMeCabをインストールmecab-python3をインストール1. VagrantでUbuntu14.04環境を作成こちらのサイトから、Ubuntu14.04のboxを追加。色々あったけどOfficialにした。 vagrant box add ubuntu1404 https://cloud-images.ubuntu.com/vagrant/trusty/current/trusty-server-cloudimg-amd64-vagrant-disk1.boxVagrantfileの作成。 mkdir ubuntu cd ubuntu vagrant init ubu

nfunato 2016/02/21

"python3 mecab"

リンク

形態素解析エンジンMeCabをPython3でも使えるようにする（Macの場合） - StatsBeginner: 初学者の統計学習ノート

MeCabのPythonバインディングはPython3で使えない？日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました（過去エントリ）。 MeCabの公式サイトにいくとPythonバインディングというのが配布されていて、Python上でMeCabを使うことができるのですが、これだとPython2系でしか使えません。もともとこのPythonバインディングは、MeCabのプログラムからSWIGというツールを用いて自動生成したものらしく、この生成をやり直せばPython3系でも使うことができるようになります。 [追記]じつは、コメント欄で指摘を頂き、pipでmecab-python3というのが配布されていることが分かったので、公式サイトに置いてあるやつを使わずに、後述のとおりpipからインストールすれば全て解決しますｗ[/追記] ここ

nfunato 2016/02/21

"python3 mecab"

リンク

python3対応 Mecabの紹介 - Python, web, Algorithm 技術的なメモ

python3対応 Mecabの紹介 4月から大学院に来て，授業やらなんやらでブログを3ヶ月程放置していました．なんかすみません．今，MeCabとか使っているのですが，デフォルトではpython3に対応していないため，python3に対応させinstallもpipで出来るようにしました．（github経由だけど）今日は，python3に対応したMeCabをインストールする方法を紹介します．と，その前に１つ言わせて下さい．皆さん，もうそろそろpython3にした方がいいですよ． python3はpython2のゴミを取ったよりpythonicなpythonです． python3こそpythonです．皆さんpython3に移行しましょう！ MeCabのinstall 私がMecab python3 のレポジトリに書いたように，インストールは以下の通りにすればできます． pip insta

nfunato 2016/02/21

"python3 mecab"

リンク

Python3でmecabを使う - Qiita

公式サイトに書いてあったsetup.pyを使う方法がうまく行かなかった。ダメ元でpip searchしてみたらパッケージが見つかって、使ってみたらとりあえず動いたので共有。 Python 3.4.3 :: Anaconda 2.3.0 mecab 0.996 mecab-ipadic 102 $ python3 >>> import MeCab >>> mecab = MeCab.Tagger("-Ochasen") >>> print(mecab.parse("今日はいい天気ですね。")) 今日キョウ今日名詞-副詞可能はハは助詞-係助詞いいイイいい形容詞-自立形容詞・イイ基本形天気テンキ天気名詞-一般ですデスです助動詞特殊・デス基本形ねネね助詞-終助詞。。。記号-句点 EOS

nfunato 2016/02/21

"python3 mecab"

リンク

Google

世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。

nfunato 2016/02/21

"python3 mecab"

リンク

MeCabをPython3から使う(中間報告)

先日このようなツイートを見かけて、「Python3になってGCの挙動変わったのかな？」と疑問に思ったので調査してみました。 MeCabをPythonから使う注意点とか - Shogo's Blog http://t.co/vJnOqZfUd7 @shogo82148さんから python3だと変数に代入しなくても動くのだけど2.xでは留意しないといけない — NOKUBI Takatsugu野首貴嗣 (@knok) 2015年6月1日 Python3へのMeCabインストール手元のPython3.4.3にMeCab Bindingをインストールします。 MeCabの公式(Google Codeサービス停止にともないgithub pageへ移行している模様)から落とせる Python BindingはPython2.x向けのため、setup.pyがそのままでは動きません。 Python3

nfunato 2016/02/21

リンク

MeCabのGolangバインディングを書いてみた

GolangからMeCabを呼び出すライブラリ探せばあるにはあるのですが、なんだかどれもメモリ管理がちょっと怪しいんですよね・・・。 GolangでMeCabを使う。 yukihir0/mecab-go Go言語から mecab を使う - Qiita rerofumi/mecab Go で Mecab を使ってみたメモリ管理はbluele/mecab-golangが一番しっかりしているっぽいですが、 libmecabの一番高機能だけど面倒な使い方しか対応していなくて、ちょっとカジュアルに遊ぶにはつらい。というわけで、カジュアルな用途から高度な使い方まで対応したWrapperを書いてみました。 shogo82148/go-mecab 使い方 READMEとgodocのexamplesからのコピペになってしまいますが、簡単に使い方の紹介です。インストール go getで取ってくるこ

nfunato 2016/02/17

golang
mecab

リンク

Google

世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。

nfunato 2016/02/12

mecab

リンク

マルコフ連鎖をCommonLisp+MeCabで

nfunato 2016/02/12

mecab
lisp

リンク

Common Lisp から MeCab を手抜きで使う方法(SBCL 限定)

(defun run-mecab (string) (with-output-to-string (out) (with-input-from-string (in string) (sb-ext:run-program "mecab" nil :search t :input in :output out)))) (defun mecabaku (string) (with-input-from-string (in (run-mecab string)) (loop for i = (read-line in) until (string= "EOS" i) collect (collect-mecabu-output i)))) (defmacro collect-mecabu-output-macro () (let ((x '(表層形品詞品詞細分類1 品詞細分類2 品詞細分類

nfunato 2016/02/12

mecab
lisp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

mecabに関するnfunatoのブックマーク (32)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス