はじめに ターミナルなどで使うMeCabのデフォルト辞書はmecabrcを編集することで変えられますが、mecab-python3をインストールしてpythonプログラムからMeCabをつかうときのデフォルト辞書はそれだけでは変えられません。"-d"オプションで毎回指定するのも面倒です。 やり方を調べても日本語記事がぱっと見つからなかったので、最終的に自分の環境でうまくできた方法をメモとして残しておきます。 環境 OS macOS Catalina 10.15.4 MeCab mecab 0.996 (brewでインストール) mecab-ipadic-NEologd Python python3.8.0 (pyenvでインストール) mecab-python3 (pipでインストール) MeCabなどのインストールは下記サイトの手順にほぼ倣いました。 https://qiita.com/
import MeCab def mecab_list(text): tagger = MeCab.Tagger("-Ochasen") tagger.parse('') node = tagger.parseToNode(text) word_class = [] while node: word = node.surface wclass = node.feature.split(',') if wclass[0] != u'BOS/EOS': if wclass[6] == None: word_class.append((word,wclass[0],wclass[1],wclass[2],"")) else: word_class.append((word,wclass[0],wclass[1],wclass[2],wclass[6])) node = node.next ret
#結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 #考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確に単語を分ける事ができるのならば、後は定番の機械学習アルゴリズム(ex.Complement Naive Bayes)にかけるだけである程度の精度の分類は行えるからです。先の辞書は秘伝のタレに比喩される事も多いです。 さて、その辞書ですが、世の中で最も多く使われているのはWikipediaのデータセットを元にしたものです。Wikipediaの記事のタイト
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du
大手通販サイト・アマゾンが扱う商品のレビュー(評価)欄にわざと悪い内容を書かせ、競合他社の信用を傷つけたとして、福岡簡裁が信用毀損(きそん)罪で、別の会社の男性役員に罰金20万円の略式命令を出したことがわかった。電子商取引の専門家によると、こうした「やらせレビュー」の実行者を特定するのは難しく、刑事罰に至るのは異例という。 【図】「やらせビュー」事件の構図をわかりやすく ■低評価の裏に「やらせ請負仲介サイト」 略式命令などによると、男性役員(25)は福岡市内で健康食品・器具の通販会社を経営。仕事仲介サイトで商品レビューの仕事を募集した際に応募した福岡県内の40代女性に対し、2018年1月、500円を支払い、福岡市の別の健康食品販売会社がアマゾンで扱うサプリメントに低評価のレビューをつけさせ、信用を傷つけた。 女性は商品を使ったことがないのに「一粒が大きくて飲みにくかった」などと書き、5段階
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く