Help us understand the problem. What is going on with this article?

Pythonで形態素解析をしたい時、とりあえずMeCabを使うときがある。ただこのMeCab、pip install MeCab みたいに1行書けばすぐに使える楽な物では無いので、他の環境で動かしたい時にやや面倒。何度か試行錯誤したのでメモ。 方針 Virtualenvを使う システムに apt-get install python-mecab で入れた物を使わない 設定 システムにインストールするmecabは全てバージョンを指定する。 before_install: - sudo apt-get update -qq - wget http://ftp.sjtu.edu.cn/ubuntu/pool/universe/m/mecab/libmecab2_0.996-1.1_amd64.deb - sudo dpkg -i libmecab2_0.996-1.1_amd64.deb - w
# !/bin/bash # Remove mecab sudo apt-get remove mecab # Install mecab cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.tar.gz cd mecab-0.996 ./configure make sudo make install # load mecab.so sudo sh -c "echo '/usr/local/lib' >> /etc/ld.so.conf" sudo ldconfig # Install mecab-ipadic cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-ipadic-2.7
はじめに MeCab の標準の Ruby 用バインディングを利用してテキスト解析を行っていたら、 hoge.rb:XX: [BUG] Segmentation fault at 0x00123456789abc のようなエラーが発生した。 発生したタイミングは次の通り。 ・処理が一定の負荷を超えた場合、毎回そこで落ちる。 ・軽い処理の場合は落ちない。 落ちてた部分は下記の行。 node = MeCab::Tagger.new.parseToNode(string) Python で同様の事例 以前 Python で意図しないガベージコレクションが実行されることにより、 似たような事例が発生した事があった。 (この件は次のサイトが詳しくまとめてくれている Shogo's Blog: MeCabをPythonから使う注意点とか) 対処 Ruby でも同じことが起きてるんじゃないかと思ったので、
natto-py とは? natto-py は Python - MeCab の Foreign Function Interface (FFI) によるバインディングを提供する Python パッケージです。 Python 2 および 3 に対応し、コンパイラーが必要としない利点があります。*nix、OS X および Windows 上で利用可能です。 対応する Python バージョン natto-py は下記の Python 2 および 3 を利用できます。下記のバージョンは実証済みです。 Python 2.7 Python 3.2 Python 3.3 Python 3.4 MeCab をインストール まずは MeCab 0.996 をインストールします。 mecab-ipadic または mecab-jumandic のMeCab 用辞書も忘れずにインストールしましょう。 Win
#結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 #考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確に単語を分ける事ができるのならば、後は定番の機械学習アルゴリズム(ex.Complement Naive Bayes)にかけるだけである程度の精度の分類は行えるからです。先の辞書は秘伝のタレに比喩される事も多いです。 さて、その辞書ですが、世の中で最も多く使われているのはWikipediaのデータセットを元にしたものです。Wikipediaの記事のタイト
require 'csv' def output(title, type) title_length = title.length return nil unless title_length > 3 score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i [title, nil, nil, score, '名詞', '一般', '*', '*', '*', '*', title, '*', '*', type] end CSV.open("user.csv", 'w') do |csv| # niconico Dir::foreach('./niconico') do |f| next unless f =~ /^head[0-9]{4}\.csv$/ open("./niconico/#{f}").each do |line|
形態素解析について 様々なユーザーの Tweet を収集して利用するパターンで最も多いのは、 Tweet 中に含まれる特定の単語を抽出して利用するパターンである。 今回は形態素解析器の MeCab を利用して、単語単位に分割して名詞、動詞、形容詞を抽出する。 Python で Twitter からの情報収集 (環境構築編) 環境構築等はこちら MeCabの出力形式 出力形式はオプションにより変わる。 'mecabrc': (デフォルト) '-Ochasen': (ChaSen 互換形式) '-Owakati': (分かち書きのみを出力) '-Oyomi': (読みのみを出力) デフォルトだと 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 という出力になる。 サンプルコード ある文を単語単位(表層形そのまま)に分割して、 全単語 名詞のみ 動詞の
##課題 Python から MeCab の形態素解析の機能を利用可能にする。 ##手法 MeCab の Python バインディングをビルド/インストールする。 ##前提 対象: mecab-python-0.996.tar.gz 環境: Windows 8.1 64bit, Python 2.7, MeCab 0.996 ##内容 1. ビルド環境の構築 Visual Studio 2008 Express Edition with Service Pack 1 をインストールする。 Microsoft Windows SDK for Windows 7 and .NET Framework 3.5 SP1 をインストールする。 2. libmecab.lib と libmecab.dll の作成(MeCab のビルド) mecab-0.996.tar.gz(MeCabのソース)をダウ
英文高速リーディングでさだまさしの名曲を再生する 記事を読む前に動作するサンプルを準備したので以下URLで挙動をご確認下さい。曲は関白宣言 / 案山子 / 防人の詩 / 秋桜 の4つを準備しました。 この記事はサンプルの実装方法と背景についての説明です。 クリスマス後が本番。1/1は毎年恒例「今夜も生でさだまさし」 今年も残り少なくなってきました。こうやって毎日カウントダウンされてるとクリスマスまで楽しみになります。 そしてクリスマスが過ぎるとファンにとってのメインイベント、毎年恒例「今夜も生でさだまさし」の生放送があります。来年2016年の放送は1月1日0:25~ですので除夜の鐘を聴いて年越しした後はそのままTVの前にかぶりつきましょう。 英文高速リーディングのSpritzと歌詞のインプリンティング 定期的に話題に上がるSpritzは英文を高速に読むために単語を整えて連続して表示するツー
名前、ふりがなが連続しているフォームにおいて、ふりがなを自動入力する機能は、よく要求としてあがってきます。 jquery.autoKana.jsがよく使われているようですが、これはキーイベントを拾って、フリガナを作るので、 Google日本語入力やATOKの予測変換 スマフォのフリック入力 などで、ちゃんとキーイベントが発生しないものは、うまくフリガナを作ることができません。 (参考) https://github.com/harisenbon/autokana http://qiita.com/u-chida/items/6c07d558b3f06c9ed8d8 サーバサイドでフリガナを作る ちょっと考えを変えて、サーバサイドで漢字からフリガナを生成するようにしてみます。 MeCabやKuromojiで形態素解析すると、漢字の"読み"も取得できます。 IPA辞書だと人名が弱いので、NEo
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4
■MeCabについて MeCab は、オープンソースの形態素解析エンジンです。 MeCab 以外でもフリーで入手可能なものには、ChaSen、Juman、KAKASI などがある。有償のものだと Basis Technology の Rosette 形態素解析システムなどもある。 MeCab - Wikipedia によると、 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。 品詞情報を
PHP、JavaScriptでやってみます。 環境はMac。 使ったもの XAMPP PHPのall in one開発環境 MeCab 形態素分析ライブラリ php-mecab PHPでMeCabを使うためのライブラリ jqcloud タグクラウドをjavascriptでつくるためのライブラリ twitteroauth twitterの認証ライブラリ 準備 参考にしたURL: ※準備はこっちを見たほうが丁寧です。。。 XAMPPをインストール インストールは省略。 macの場合、デフォルトでPHPが入ってて、XAMPPのPHPと混ざってちょっと困る。 なんで、XAMPPのPHPを使うように、以下の設定をしておく。 1.自分のホームディレクトリの .bash_profile ファイルに以下を追記(ファイルがなければつくる)。 export PATH="/Applications/XAMPP/
エンジニアチームのみんながどんな事に詳しいのかをざっくり知るため、Qiita:Teamをテキストマイニングしてスキルマップを作ってみる、というお話です。 ご挨拶 こんにちは。2015年10月にfreee株式会社にJoinした @kompiro こと近藤寛喜と申します。(本日34歳になりました)普段はフルスタックエンジニアとしてfreeeのユーザーさんにマジ価値を提供すべく日々奮闘してます。 freeeはまだ若い会社ですが猛烈な勢いでサービスが成長しており、結構な量のコードがあります。僕は入社したてということもあり、これまでチームの誰がどの仕事をしてきたのかがわかりません。なにか改善すべき点があったとして、 また、ここまでのAdvent Calendarの流れを見ていただいてもわかるとおり、freeeのエンジニアのみんなには得意技、言い方を変えればとんがっている分野を持っています。freee
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く