[B! qiita][morphological-analysis] nabinnoのブックマーク

nabinno id:nabinno

qiitaとmorphological-analysisに関するnabinnoのブックマーク (175)

文章からダジャレのみを抜き出すコマンドを作ってみた - Qiita
kagomeを使うと、こんな感じで文章が分解され、「読み」や「品詞」が分かります。 ②文中に名詞と同じ「読み」が登場する回数を調べる kagomeで「読み」や「品詞」が分かったので、文章の中にある名詞と同じ「読み」が何回登場するか数えます。例えば、猫が寝転んだという文章はネコガネコロンダという読みになります。そして「猫が寝転んだ」という文の中には「猫」という名詞が含まれていますので、「ネコガネコロンダ」の中に「ネコ」が２回登場することが分かります。 ③文中に名詞と同じ「単語」が登場する回数を調べるもう②だけでダジャレ検出ができるようになった気になっていませんか？実はこのままでは欠陥があります。人民の人民による人民のための政治や靴を靴箱に入れるがダジャレ扱いされてしまいます。こんなものダジャレとは言えません。ダジャレをなめてます。この程度の重複で「今ダジャレ言った
nabinno 2019/05/17
qiita

dajarep

kagome

morphological-analysis

analytics
リンク
OpenNLPでMeCabのような英語の形態素解析 - Qiita
概要日本語の形態素解析(MeCab)のようなことを英語でもやりたいのでApache OpenNLPを使用する環境 OS: Windows7 64bit 言語: Java8 IDE: Eclipse4.6.1 目的 MeCabをコマンドラインで使用すると今日はいい天気ですね。 ↓ ↓ 今日「名詞,副詞可能,*,*,*,*,今日,キョウ,キョー」は「助詞,係助詞,*,*,*,*,は,ハ,ワ」いい「形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ」天気「名詞,一般,*,*,*,*,天気,テンキ,テンキ」です「助動詞,*,*,*,特殊・デス,基本形,です,デス,デス」ね「助詞,終助詞,*,*,*,*,ね,ネ,ネ」。「記号,句点,*,*,*,*,。,。,。」と形態素に分け、形態素の情報が表示される ※ipadic辞書を使用した場合、「品詞、品詞細分類1
nabinno 2018/10/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
AWS Lambda でMeCabを動かす (2018年9月時点） - Qiita
概要 AWS LambdaでMeCabを動かそうと思ったら、思いのほか大変だったので今後の自分のために手順をまとめた。（MeCabとは日本語の自然言語処理によく使われるオープンソースの形態素解析エンジン。詳しくは上記の作者のサイトへ。）参考にさせてもらったサイト https://shogo82148.github.io/blog/2017/12/06/mecab-in-lambda/ http://marmarossa.hatena blog.com/entry/2017/02/03/223423 他にもたくさん「mecab lambda」で片っ端から検索かけて読み漁ったのだけど、もはやどこを読んだのかも覚えていない。上記二つの記事はとにかく作業スタートから完了するまでの間、ブラウザで開かれていた。結論から述べると一番上の記事の通りにやればいいだけだったのだが、正直自分が次回この作業を
nabinno 2018/10/24
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
brew install mecab-ipadicでsyntax error - Qiita
2018/10/13版でbrewインストールを行ったところエラーが発生した。環境はmacOS Sierra。 $ brew install mecab-ipadic Error: mecab-ipadic: /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:39: syntax error, unexpected << <<~EOS ^ /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/Formula/mecab-ipadic.rb:40: syntax error, unexpected tIDENTIFIER, expecting keyword_do or '{' or '(' ... enable mecab-
nabinno 2018/10/14
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mecabの出力をpythonで整形 - Qiita
nabinno 2018/10/12
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
「この先生きのこる」を4つの自然言語処理エンジンに食わせてみる - Qiita
ちょっと気になったのでやってみた。 Google Natural Language API https://cloud.google.com/natural-language/ Kuromoji https://www.atilika.com/ja/kuromoji/ COTOHA API https://api.ce-cotoha.com/demo?query=%E3%81%93%E3%81%AE%E5%85%88%E7%94%9F%E3%81%8D%E3%81%AE%E3%81%93%E3%82%8B%E3%81%9F%E3%82%81%E3%81%AB Rakuten MA http://rakuten-nlp.github.io/rakutenma/ 感想意外と「この先生」「きのこる」とは誰も解析してくれませんでした。ほかにもwebで試せるものが教えてください。
nabinno 2018/10/12
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
NEologdをUbuntuに入れようとしたらMakeエラーが出た。 - Qiita
ど素人がwindowsにMeCabをいれて遊びたいと思ったのだが、思いのほかハマったので記録として残したいと思います。はじめに基本的には、趣味でPHPとpythonを独学でいじくっている、初心者に毛が生えた程度の実力です。間違いや効率的な方法などありましたら、どんどん教えてください。コードレビューも大歓迎です。よろしくお願いします。環境 windows10 home Anaconda3-5.3.0 windowsにMeCab投入特に難しいことはなく、以下を参考にしながらインストール PythonとMeCabで形態素解析(on Windows) NEologd辞書を入れる。 NEologdを入れるためにはWindows Subsystem for Linuxがひつようなため、下記を参考にUbuntu環境構築 Windows Subsystem for Linuxをインストールして
nabinno 2018/10/10
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Amazon SageMaker の Jupyter で MeCab-NEologd を使う - Qiita
概要 Amazon SageMaker の Jupyter Notebook ( Python3 ) で MeCab ／ NEologd を使うためのセットアップ手順です基本は公式手順どおりですが、下記でエラー回避と便利設定を加えています外部インターネットへ接続可能なノートブックインスタンスを使います端的にはページ下部のライフサイクル設定だけ適用すれば使えます手順 Install mecab ノートブックインスタンスの Jupyter をオープンし、Terminal から次を実行（インストール作業を行う場所は任意、ここでは別途マウントした EFS を指定しています） $ WORK_BASE="/efs" $ MECAB_ROOT="${WORK_BASE}/mecab" $ cd ${WORK_BASE} $ git clone https://github.com/taku91
nabinno 2018/10/10
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
MeCab のユーザー辞書を作る（UniDic） - Qiita
自分用メモ。環境 MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。 MeCabの設定ファイルを編集して、UniDicを使えるようにした。参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種（和語、漢語）を表示する - Qiita ゴールユーザー辞書を作って解析に使えるようにする。 # 現状 $ mecab タルスキータルタルタルタル-外国名詞-固有名詞-人名-一般固スキースキースキースキー-ski 名詞-普通名詞-一般外 EOS
nabinno 2018/10/05
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mecab-ipadic-neologdの辞書をアップデートする - Qiita
Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationWhat you can do with signing up
nabinno 2018/10/02
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
termextractを使って保持データから専門用語を抽出しmecabのユーザ辞書を作成する - Qiita
3.termextractで複合語を抜き出しユーザ辞書を作成する先ほど作ったファイルをインプットファイルとしてtermextractに突っ込んでmecabのユーザ辞書を作成します。コストは後で計算するためここでは入れていません。面倒臭ければ1285,1285,5000など適当な数値にしておいてもいいかもしれません。また、正しいかどうか分かりませんが、既に複合語としてmecabのシステム辞書に登録されている可能性も考慮して既にある複合語は省く処理も入れています。（termextractの中身をよく理解していないので、もしかしたら必要のない処理かもしれません。。） #termextractを使ってmecabのユーザ辞書の作成を行う import MeCab import termextract.mecab import termextract.core import collection
nabinno 2018/10/02
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
楽して技術書典 5 のサークルさんを探したい - Qiita
技術書典 5、楽しみですね。どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。チェックするサークルさんの数を雑に数えてみたらって言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。できたもの Node.js でこんな感じの CLI を作ってみました。あいまい検索で関連していそうなサークルさ
nabinno 2018/10/02
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
COTOHA APIとMeCabの比較 - Qiita
普段は仕事の合間を縫って、趣味でボードゲームのAI開発や自然言語処理を嗜んでいます。色々ネタが溜まってきているので備忘も兼ねて少しずつQiitaに書いていこうと思います。今回の記事では自然言語処理の中でも形態素解析に焦点を当て、最近NTTコミュニケーションズからリリースされたというCOTOHA APIと、形態素解析で有名なOSSであるMecabとの解析特徴の違いについて書こうと思います。形態素解析言語処理を経験されてる方には当たり前かもしれませんが、まずは基本から。形態素解析とは、日本語や中国語のように文中に切れ目が存在しない文を、形態素と呼ばれる意味のある最小単位に分割する解析のことです。例えば「すもももももももものうち」という文は「すもも/も/もも/も/もも/の/うち」のように分割することができます。また、単に分割するだけでなく、名詞・動詞などの品詞情報や、表記ゆれ・活用
nabinno 2018/09/29
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
形態素解析：韓国語：その2：mecab-ko ユーザ辞書作成 - Qiita
前回の続きユーザ辞書の作成のために専用のシェルが用意されている。 1. ユーザ辞書編集 READMEに書いてある通り、まずはユーザ辞書CSVに単語を追加。 - user-dic/nnp.csv　：固有名詞用 - user-dic/person.csv ：人名用 - user-dic/place.csv ：場所用 2. シェル実行シェルの中を見ればわかるが、内部でmecab-dict-indexを実行している。まず、mecab-koのインストールパスを確認して、パスが異なる場合は修正する。 - readonly MECAB_EXEC_PATH=/usr/local/libexec/mecab + readonly MECAB_EXEC_PATH=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2/libexec/mecab/
nabinno 2018/09/18
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
【Python3】MeCabでテキストファイルから名詞を頻出順に抽出 - Qiita
やりたいこと Python3でMeCabを使ってテキストファイルから名詞のみを抜き出し、出現回数ごとにリストアップコード全文 import MeCab import sys import re from collections import Counter # ファイル読み込み cmd, infile = sys.argv with open(infile) as f: data = f.read() # パース mecab = MeCab.Tagger() parse = mecab.parse(data) lines = parse.split('\n') it ems = (re.split('[\t,]', line) for line in lines) # 名詞をリストに格納 words = [it em[0] for it em in it ems if (it em[0] not
nabinno 2018/09/17
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
形態素解析：韓国語：その1：mecab-koをインストール - Qiita
韓国語を形態素解析したいけど、何がいいかなと探していたところ、mecab韓国語版を見つけました。というのはもう2年前の話なのだが、それはさておいて。 mecab-koとは mecabを韓国語の形態素解析用に多少コードを改変しているようです。 Bitbucketにて公開されています。 https://bitbucket.org/eunjeon/mecab-ko/src/master/ 何をどう改変したのかはコミットログを見て、、、も、私は分かりません（README読む限りでは、空白文字の扱いが違うっぽい）ひとまずMacbook Airにインストールします。 - mecab-ko本体をインストール - 韓国語用辞書をインストール mecab-ko本体をインストール Macであれば、homebrewであっさりインストールできます。といってもREADMEにソースコンパイルの手順書いてるの
nabinno 2018/09/09
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Python Twitterからツイートを取得してテキスト分析(wordcloudで見える化) - Qiita
本投稿の内容 pythonでtwitterのつぶやきを取得してその内容を見える化します。 Twitterのツイートデータをtweepyを使用して取得してテキストに出力 MeCabを使用して形態素解析を行い、名詞、動詞、形容詞の単語を抽出してデータ分析(Wordcloudで見える化) Twitterの検索キーワードは 7月27日に開催された「Oracle Innovation Summit Tokyo 2018」のつぶやきハッシュタグ「#oracleinnovation」を検索しました。（7月27日にtwitterのデータは取得していたのですが、トラブル対応等で忙しかったので投稿がおくれました。。）事前準備準備は以下の４つを実施１．Twitter APIを使用するためのアカウント申請と「Consumer API keys」、「アクセストークン」の取得２．tweepyのインストール
nabinno 2018/09/07
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
ニュース記事の分類を機械学習で予測する - Qiita
はじめに Pythonを用いて、ニュース記事の分類分けを教師ありの機械学習にかけて、未知の文章がどのニュース記事にあたるのかを予測する。ということをやってみました。使うものとしては、 Mecab Gensim scikit-learnのSVM これらを利用しました。また今回やるにあたり、主にMecabとGensimの利用の辺りを以下のサイトを参考（というよりもはやパクリ）に行ったので、まずはそちらの記事を見ていただいたらと思います。 scikit-learnとgensimでニュース記事を分類する gensimのコーパス操作環境や各種ツールの説明環境 OS : windows10 python : 3.6.6 ツール - Mecab : 0.996.1 - Gensim : 3.5.0 - scikit-learn : 0.19.1 Mecabの用意 Mecabは、普段pythonで
nabinno 2018/09/06
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
マルコフ連鎖を用いてなろう小説のタイトルを自動生成する - Qiita
概要小説家になろう（通称：なろう）というサイトは、自分で小説を書いて公開できるというサイトであるが、なろうで公開されている小説タイトルは一般的に長く特徴的なものが多いとされています。そこで、文書生成の手段として有名なマルコフ連鎖を用いてなろう小説のタイトルの自動生成を行いました。プログラム 1.title_correct.py　　:　　なろうのAPIを使ってなろう小説のタイトルを記録する。 2.marcov.py　　:　　1でできたテキストファイルからMeCabを用いて分かち書きを行いマルコフ連鎖のもととなるデータベースを作成しそこからタイトルを自動作成する。タイトルを集めるタイトルを集めるプログラムは「小説家になろう」の作品タイトルは、本当に長くなってるのか？ Pandasで確認しよう(https://qiita.com/dely13/it ems/5e949a384161c96
nabinno 2018/09/04
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
xubuntu18.04でmecab-ipadic-neologdを使えるようにする - Qiita
必要なパッケージのインストールまずはapt-getで必要なパッケージのインストール xubuntu18.04には最初からはcurlが入ってないので先にインストールします。
nabinno 2018/09/03
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
1 2 3 4 5 6 7 8 9 次のページ