[B! analytics][mecab] [4ページ] nabinnoのブックマーク

nabinno id:nabinno

analyticsとmecabに関するnabinnoのブックマーク (130)

install ipadic on Ubuntu 16.04 for mecab Japanese tokenizer
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Error when make docker image for gem-mecab on rbenv environment
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Tokenizing Japanese text in R: Only first line of the specified column is tokenized
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
GitHub - nullnull/simstring: A Python implementation of the SimString, a simple and efficient algorithm for approximate string matching.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
nabinno 2018/07/31
github

simstring

python

mecab

morphological-analysis

analytics
リンク
PHP で Mecab を使って日本語形態素解析の結果を簡単に取得する! - Qiita
■MeCabについて MeCab は、オープンソースの形態素解析エンジンです。 MeCab 以外でもフリーで入手可能なものには、ChaSen、Juman、KAKASI などがある。有償のものだと Basis Techno logy の Rosette 形態素解析システムなどもある。 MeCab - Wikipedia によると、 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されている。名称は開発者の好物「和布蕪（めかぶ）」から取られた。開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。品詞情報を
nabinno 2018/07/11
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Python3×日本語：自然言語処理の前処理まとめ - Qiita
初めに方針・pandasは、CSVや、Mysql、SQLiteなど様々なデータベースから、取り扱いやすい自身のDataFrameに変換することができる。・pandasのDataFrameはscikit-learnとの連携も容易である。・自然言語処理を日本語で行う場合、適切に前処理を行わなければ、良い結果をだすことはできない。今回は自然言語処理における前処理の種類とその威力を参考にさせていただき、具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。 ※引用文は記載が無い場合、上記の記事からのものです。準備と想定 sqlite3からpandasのデータフレームへ変換しています。 import pandas as pd import sqlite3 con = sqlite3.connect("db/development.sqlite
nabinno 2018/06/14
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
nabinno 2018/06/06
cookpad

mecab

morphological-analysis

natural-language-processing

analytics
リンク
平成の次の元号を、AIだけで決めさせる物語 - Qiita
背景平成の次の元号は何になるの？エンジニアに限らず、多くの人が気になる話題である。エライ学者先生ががんばって調べたり選んだりして決めるんでしょ。しかし、時はAIが囲碁や将棋で名人を負かす時代。そうだ！AIに新元号を決めてもらえばいいじゃん！！まさに悪魔的発想・・・！「OK、Google、新しい元号は何になるの？」 ⇒　教えてくれるワケがない。（元号関連記事くらいは教えてくれる）じゃあ自分で作ってみよう！人の判断を一切入れずに、AIだけで新元号作ることが出来るのか？が今回のテーマ余談：ちなみに大喜利人工知能の、大喜利βさんに聞いたところ「アメリカ」との答えが返ってきた。このタイミングで、アメリカ合衆国51番目の州は「本州」です、とせよとの啓示なのか！？新元号のルールは？以下のように決められているらしい。 1. 国民の理想としてふさわしいようなよい意味を持つもので
nabinno 2018/06/05
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Mecab をもっと手軽に Ruby で扱える Gem - Qiita
問題 mecab-ruby を本格的に使う必要が出てきたので mecab-ruby を触っていました. mecab-ruby は SWIG という一度書いたものをより高級な言語で使いまわせるようにするツールで実装されているので, インターフェイスが Ruby っぽくないです. あと各言語向けバインディングの Doc の MeCab::Node の振舞いで触れられているように MeCab::Node の振る舞いはすこし癖があります. 書いてみたというわけで, 不満があるならラッパーを書けばいいじゃない！ということで gem を書いてみました. https://github.com/taiki45/mecab-ext https://rubygems.org/gems/mecab-ext どこが便利なったのか・使い方まずは Node インスタンスを作ります.
nabinno 2018/05/16
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Ubuntu 13.10でRubyからMeCabを使えるようにしたメモ - Qiita
$ mecab 吐き気を催す邪悪とは吐き気名詞,一般,*,*,*,*,吐き気,ハキケ,ハキケを助詞,格助詞,一般,*,*,*,を,ヲ,ヲ催す動詞,自立,*,*,五段・サ行,基本形,催す,モヨオス,モヨオス邪悪名詞,一般,*,*,*,*,邪悪,ジャアク,ジャアクと助詞,格助詞,一般,*,*,*,と,ト,トは助詞,係助詞,*,*,*,*,は,ハ,ワ
nabinno 2018/05/16
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mecab を便利に利用するためのtips - 高度なKWICをスクリプト無しで実現する - - Qiita
TD;LR mecab標準のフォーマットは少し扱いづらい出力フォーマットを弄ろう！表層系+品詞の組み合わせができるようになり幸せ mecabのデフォルトの出力形式は使いづらくないですか？前回の投稿の複数の形態素解析を一度に見るコマンドを作った話に引き続き, 形態素解析器の利用に関するtipsです. 形態素解析と言えば, mecabを使われている方が非常に多いかと思います. 企業利用だと, 製品への組み込みやすさから kuromojiを使ってる方も多いでしょうか？ kuromojiを使ったことはないですが mecabを使っていて思うことは, "標準の出力形式扱いづらくない？"ということです. よく利用するのは, 僕は単語分割(分かち書き)と品詞取得, 活用形の原形化ぐらいなものなのですが標準の出力形式だと, どうしても後段の処理で扱いづらいです. ある問題に対する分析を行うため, と
nabinno 2018/04/10
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
形態素解析ツールの比較 (NLP2018) - Qiita
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
nabinno 2018/03/19
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Mecabのシステム辞書・ユーザ辞書の利用方法について - Qiita
はじめにオープンソースの日本語形態素解析器：MeCabの辞書を利用する方法を備忘録として記録します。 MeCabの辞書には、システム辞書とユーザ辞書があります。システム辞書の方が処理が早いと言われており、ユーザ辞書を使用する機会は少ないと思われる。また、MeCab用の新語辞書・固有表現に強いシステム辞書：mecab-ipadic-NEologdが公開されている。mecab-ipadic-NEologdは、毎週２回（月曜日と木曜日）に一般サイト（はてなキーワードや郵便番号データやSNS，ニュース記事など）から情報を収集して更新されている。参考サイト： MeCab公式サイト MeCabの辞書をカスタマイズする mecab-ipadic-neologd - GitHub 環境 OS：Red Hat Enterprise Linux 7.2 MeCab：0.996 MeCabのシステム辞書
nabinno 2018/03/16
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
「UniDic」国語研短単位自動解析用辞書
「Web茶まめ」は複数のUniDic辞書で形態素解析のできるオンラインツールです。インストール作業も不要で使えるため、UniDicで形態素解析をしてみたい場合、まずはこちらをお試しください。
nabinno 2018/03/10
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Windows環境でのMeCab(Python)のインストール - Qiita
はじめに自然言語処理を学ぼうと思い、PythonにMeCabをインストールしようと考える人は多くいると思う。 MacやLinux環境では比較的簡単に(HomeBrewやapt-getを使用して)インストールすることが可能だが、Windows環境では一筋縄ではいかない。(現に2,3日ハマった) 多くの先人達がブログの記事にしているが、個人によって環境は異なるので、私がインストールに成功した方法を記事にしたいと思う。インストール(に試して成功した)環境 OS:Windows10, Windows7 Pythonの環境:Anaconda3系先にダウンロードしておくべきもの https://www.visualstudio.com/vs/older-downloads/ VS2015 Community (私の手元ではVS2017だと失敗した) http://taku910.github.i
nabinno 2018/03/05
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
【R】TwitterAPIとMeCabとwordcloud使い、人のツイートの単語出現頻度を可視化する | miyahub
人のツイートを可視化するまでの目的・環境今回の目的どんな単語をよく使っているのかを調べ、頻度が高い単語を大きな文字で表す。成果物はさっきの通り。実行環境 Windows10RStudioMeCabインストール済み MeCabをインストールしていない方は、【MeCab】を【R】で使えるようにするための【RMeCab】を導入する方法・流れ【Windows編】の記事をみてください。 RでMeCabを使う方法を書いています。ツイートを可視化する流れ超具体的に書いているので、長く感じると思います。実際は簡単なんで心配しないでください。 TwitterのAPIに登録パッケージの導入RからTwitter APIにアクセスツイートの取得テキスト部分を取得いらない部分の削除文字コード変換ファイルの結合と保存名詞・動詞などの残す部分を決める列名の変更一度表にしてみるツイートの可視化コードを実行してい
nabinno 2018/02/27
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PythonからMeCabを使うときのメモ - Qiita
#!/usr/bin/env python # -*- coding:utf-8 -*- import MeCab m = MeCab.Tagger() print m.parse("犬も歩けば棒に当たる。") $ ./mecab.py 犬名詞,一般,*,*,*,*,犬,イヌ,イヌも助詞,係助詞,*,*,*,*,も,モ,モ歩け動詞,自立,*,*,五段・カ行イ音便,仮定形,歩く,アルケ,アルケば助詞,接続助詞,*,*,*,*,ば,バ,バ棒名詞,一般,*,*,*,*,棒,ボウ,ボーに助詞,格助詞,一般,*,*,*,に,ニ,ニ当たる動詞,自立,*,*,五段・ラ行,基本形,当たる,アタル,アタル。記号,句点,*,*,*,*,。,。,。 EOS #!/usr/bin/env python # -*- coding:utf-8 -*- import sys param =
nabinno 2018/02/20
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
nabinno 2018/02/19
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
ubuntu 21.10 に mecab をインストール - Qiita
sudo apt install mecab sudo apt install libmecab-dev sudo apt install mecab-ipadic-utf8 $ mecab 特急はくたか特急名詞,一般,*,*,*,*,特急,トッキュウ,トッキューは助詞,係助詞,*,*,*,*,は,ハ,ワく動詞,自立,*,*,カ変・クル,体言接続特殊２,くる,ク,クた助動詞,*,*,*,特殊・タ,基本形,た,タ,タか助詞,副助詞／並立助詞／終助詞,*,*,*,*,か,カ,カ EOS
nabinno 2018/01/15
mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Python3からMecabを使いhtmlで自動でふりがなをふるツールを作る - Qiita
<ruby><rb>私</rb><rt>わたし</rt></ruby>は <ruby><rb>大学</rb><rt>だいがく</rt></ruby>を <ruby><rb>辞</rb><rt>や</rt></ruby>めたい私わたしは大学だいがくを辞やめたいとルビがふれるようになる必要なもの環境はMacOS,Pythonのバージョンは3.5.1。 1.Mecab(筆者の場合デフォルトでmacに入っていたので省略します） 2.mecab-python3 3.pip(mecab-python3をインストールするのに必要）必要なものをそろえる Mecabというのは辞書解析ツールでこれを使うことに漢字のよみがなを取得することができます。コマンドライン上からmecabコマンドを実行し、次の行にテキストを入力することで実行・取得できます。 $ mecab 私は大学を辞めたい私名詞,代名
nabinno 2018/01/06
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
前のページ 1 2 3 4 5 6 7 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx