Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

概要 国立情報学研究所Webサイトにある「ニコニコ大百科データ」(by 有限会社未来検索ブラジル)から、 MeCabの辞書を生成・適用する。 研究目的でテキストマイニングをするならこの方法もありかもしれない。 ※実行環境はLinuxMint13(Ubuntu12.04 LTS)です。 方法 01.ニコニコ大百科データを取得する。 http://www.nii.ac.jp/cscenter/idr/nico/nicopedia-apply.html ※head.zipをダウンロード・解凍する。 02.解凍後のheadフォルダと同じ階層に下記Pythonコードを配置する。 # -*- encoding: utf-8 -*- import os import csv import re def main(): #入力フォルダ名 pth = 'head' #出力ファイル名 wtnme = 'ncn
概要 Go言語の cgo バインディングを使って libmecab を呼び出すメソッドです。 珍しい物では無くむしろ良く見かけるのですが、手習いで自作してみました。 他は mecab_nbest_sparse_tostr() を使っているのが多く、それではシングルスレッドでしか使えない物になるため、mecab_lattice_tostr() を使う様にしています。 引っかかったところ import "C" は include 直下に書く // #include <mecab.h> // #include <stdio.h> import "C" import と include の間に空改行挟むと動かないそうです。 ずいぶんなやんだ。 C のポインタ戻りの納め方が良くわかってない `hoge := C.moga()' と := で戻り値を受け取ろうとして上手くいかない時があったのですがエラ
Pythonで形態素解析をしたい時、とりあえずMeCabを使うときがある。ただこのMeCab、pip install MeCab みたいに1行書けばすぐに使える楽な物では無いので、他の環境で動かしたい時にやや面倒。何度か試行錯誤したのでメモ。 方針 Virtualenvを使う システムに apt-get install python-mecab で入れた物を使わない 設定 システムにインストールするmecabは全てバージョンを指定する。 before_install: - sudo apt-get update -qq - wget http://ftp.sjtu.edu.cn/ubuntu/pool/universe/m/mecab/libmecab2_0.996-1.1_amd64.deb - sudo dpkg -i libmecab2_0.996-1.1_amd64.deb - w
# !/bin/bash # Remove mecab sudo apt-get remove mecab # Install mecab cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.tar.gz cd mecab-0.996 ./configure make sudo make install # load mecab.so sudo sh -c "echo '/usr/local/lib' >> /etc/ld.so.conf" sudo ldconfig # Install mecab-ipadic cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-ipadic-2.7
はじめに MeCab の標準の Ruby 用バインディングを利用してテキスト解析を行っていたら、 hoge.rb:XX: [BUG] Segmentation fault at 0x00123456789abc のようなエラーが発生した。 発生したタイミングは次の通り。 ・処理が一定の負荷を超えた場合、毎回そこで落ちる。 ・軽い処理の場合は落ちない。 落ちてた部分は下記の行。 node = MeCab::Tagger.new.parseToNode(string) Python で同様の事例 以前 Python で意図しないガベージコレクションが実行されることにより、 似たような事例が発生した事があった。 (この件は次のサイトが詳しくまとめてくれている Shogo's Blog: MeCabをPythonから使う注意点とか) 対処 Ruby でも同じことが起きてるんじゃないかと思ったので、
natto-py とは? natto-py は Python - MeCab の Foreign Function Interface (FFI) によるバインディングを提供する Python パッケージです。 Python 2 および 3 に対応し、コンパイラーが必要としない利点があります。*nix、OS X および Windows 上で利用可能です。 対応する Python バージョン natto-py は下記の Python 2 および 3 を利用できます。下記のバージョンは実証済みです。 Python 2.7 Python 3.2 Python 3.3 Python 3.4 MeCab をインストール まずは MeCab 0.996 をインストールします。 mecab-ipadic または mecab-jumandic のMeCab 用辞書も忘れずにインストールしましょう。 Win
#結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 #考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確に単語を分ける事ができるのならば、後は定番の機械学習アルゴリズム(ex.Complement Naive Bayes)にかけるだけである程度の精度の分類は行えるからです。先の辞書は秘伝のタレに比喩される事も多いです。 さて、その辞書ですが、世の中で最も多く使われているのはWikipediaのデータセットを元にしたものです。Wikipediaの記事のタイト
require 'csv' def output(title, type) title_length = title.length return nil unless title_length > 3 score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i [title, nil, nil, score, '名詞', '一般', '*', '*', '*', '*', title, '*', '*', type] end CSV.open("user.csv", 'w') do |csv| # niconico Dir::foreach('./niconico') do |f| next unless f =~ /^head[0-9]{4}\.csv$/ open("./niconico/#{f}").each do |line|
形態素解析について 様々なユーザーの Tweet を収集して利用するパターンで最も多いのは、 Tweet 中に含まれる特定の単語を抽出して利用するパターンである。 今回は形態素解析器の MeCab を利用して、単語単位に分割して名詞、動詞、形容詞を抽出する。 Python で Twitter からの情報収集 (環境構築編) 環境構築等はこちら MeCabの出力形式 出力形式はオプションにより変わる。 'mecabrc': (デフォルト) '-Ochasen': (ChaSen 互換形式) '-Owakati': (分かち書きのみを出力) '-Oyomi': (読みのみを出力) デフォルトだと 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 という出力になる。 サンプルコード ある文を単語単位(表層形そのまま)に分割して、 全単語 名詞のみ 動詞の
##課題 Python から MeCab の形態素解析の機能を利用可能にする。 ##手法 MeCab の Python バインディングをビルド/インストールする。 ##前提 対象: mecab-python-0.996.tar.gz 環境: Windows 8.1 64bit, Python 2.7, MeCab 0.996 ##内容 1. ビルド環境の構築 Visual Studio 2008 Express Edition with Service Pack 1 をインストールする。 Microsoft Windows SDK for Windows 7 and .NET Framework 3.5 SP1 をインストールする。 2. libmecab.lib と libmecab.dll の作成(MeCab のビルド) mecab-0.996.tar.gz(MeCabのソース)をダウ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く