[B! mecab] mroriiのブックマーク

403 Forbidden

＼閉鎖予定のサイトも売れるかも？／アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう

mrorii 2011/04/27

mecab
C#

リンク

非公開サイト

サイトの構築。作品の販売。ブログの投稿。この他にもさまざまな機能があります。ログインサイトをはじめよう非公開サイトこのサイトは現在プライベート設定になっています。

mrorii 2011/04/27

リンク

「Lucene.Net」は.NET Framework上で利用できる「全文検索エンジン」です。例えば、ASP.NETを使ってWebサイトを作成する際に、サイト内のコンテンツを検索する検索ページを作成したいという場合や、Windowsアプリケーションで全文検索機能を利用したい場合にLucene.Netが利用できます。 Lucene.NetはApache Software Foundationが開発しているプロジェクトの1つで、オープンソースで開発されています。Java言語で記述された「Lucene」がそのオリジナルであり、これは、Wikipediaをはじめ多くのWebサイトで現在利用されています（Lucene-java WikiのPowerdBy） Luceneの.NET版であるLucene.NETは、Java版と同様Apache Software Foundationの「Lucene.Ne

mrorii 2011/04/26

lucene
mecab

リンク

mecab辞書にwikipediaのタイトル名を追加 - kokotech

wikipediaのタイトルを追加しようとしたらいくつかハマったので。環境はFedora10。まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん！のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい名詞,一般,*,*,*,*,けい,ケイ,ケイおん名詞,一般,*,*,*,*,おん,オン,オン！記号,一般,*,*,*,*,！,！,！の助詞,連体化,*,*,*,*,の,ノ,ノせい名詞,非自立,一般,*,*,*,せい,セイ,セイで助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t * w * i * t * t * e

mrorii 2010/01/12

mecab

リンク

Phactory: MeCabにユーザ辞書を追加する方法

MeCabの辞書登録方法には、ipadicなどのシステム辞書を一気に更新してしまう方法とユーザ辞書を追加で登録する方法があります。/usr/local/etc/mecabrcの編集権限があるならば、いつでも追加登録する辞書を切り替えられる点で後者の方が楽でしょう。辞書の作成方法については、本家の解説サイトを見てください。ここでは、以下の例(hoge.csv)を追加用ファイルとして用います。【hoge.csv】 AOC,-1,-1,3049,名詞,固有名詞,一般,*,*,*,AOC,AOC,AOC AOCホールディングス,-1,-1,3013,名詞,固有名詞,一般,*,*,*,AOCホールディングス,AOCホールディングス,AOCホールディングス AOCワインの一覧,-1,-1,3016,名詞,固有名詞,一般,*,*,*,AOCワインの一覧,AOCワインの一覧,AOCワインの

mrorii 2010/01/12

mecab

リンク

ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

こんにちは satoです。mecabのユーザ辞書を追加したのですが，いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic とユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

mrorii 2010/01/12

mecab

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

mrorii 2009/12/08

mecab

リンク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

mrorii 2009/06/29

リンク

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve

mrorii 2009/06/29

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

mrorii 2009/06/29

リンク

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

mrorii 2009/06/29

リンク

マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

mrorii 2009/06/29

リンク

はてなブログ | 無料ブログを作成しよう

織田信長ぼちぼち、元気にやっています。少し薬にも慣れた...んかなぁ。相変わらず食べられないけど。朝、指がこわばって文字なんて入力できなかったけど、それはほぼなくなった。関節もどこも痛くない。薬効いてきたんやろな。で、ブログを書こうと言う気がまた起きてきた。 …

mrorii 2009/06/29

リンク

Text::MeCab

NAME Text::MeCab - Alternate Interface To libmecab SYNOPSIS use Text::MeCab; my $mecab = Text::MeCab->new({ rcfile => $rcfile, dicdir => $dicdir, userdic => $userdic, lattice_level => $lattice_level, all_morphs => $all_morphs, output_format_type => $output_format_type, partial => $partial, node_format => $node_format, unk_format => $unk_format, bos_format => $bos_format, eos_format => $eos_format,

mrorii 2009/06/16

リンク

きまぐれ日記

2010年04月21日 MeCabがiPhone,OSXに載っていると言うのは止めようと思う iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/

mrorii 2009/06/16

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

mrorii 2009/06/16

リンク

Cygwin で MeCab 0.97 を - 疲れた疲れた…。

すんなりとは行かなかったので、インストールメモ用に結論: src/common.h の冒頭部を修正する。修正についてはこちらを参照。 ./configure LDFLAGS="-liconv" --with-charset="sjis"; make; 地道にメンテナンスが続いていて 0.97 になっていた事に驚く。だけど、相変わらず make の段に error で止まられて落ち込む。 sprintf ですか…。orz だけどすぐに MeCab-ML に答えを見つける。 0.95 辺りでは苦労した記憶があったけど今回はすぐに見つかって嬉しいなぁ♪ > undefined reference to `_libiconv' _libiconv で2度目のerror 祭り <- 今ココ …。orz さて、libiconv 周りを見直すか…。 MeCab-ML を見直すか…。 *1 追

mrorii 2009/06/16

cygwin
mecab

リンク

mecab のインストール<BR> (Mac OSX & Cygwin on Windows)

mecab をインストールします。 2007-11-10 Leopardでも、問題なくビルド出来ましたまえがきインストール設定使い方関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日本語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に渡しています。 MecabRuby —- bogofilter-nihongo.rb で、mecab-ruby を呼んでいます。mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac

mrorii 2009/06/16

cygwin
mecab

リンク

CentOSにMeCab+Senna+MySQLを入れる

日本語で全文検索をするために MySQL に Senna を組み込むメモ。少し前は個人ニュースサイトめぐり→日記書きに数時間を要していた私が次に目をつけたのがRSSめぐり→はてブ登録なのだがそれでも依然として数時間かかる。そんなあなた (私) に朗報です。私の代わりにブックマークしてくれるエージェントを作ればいいのです。そしてそのエージェントが今日よく使われていた単語やタグとか出してくれて、1次ソースAについてBさんとCさんとDさんがそれぞれの立場でこんなことを書いているとかいうのが俯瞰できて、さらにあとから検索とかができればいいのです。いまホッテントリを見なくてもいいのです。あとで検索できればいいのです。Googleが拾ってくる量は莫大過ぎるし個人で把握できる範囲にも限度がある。ユーザの皆さんが勝手に重み付けしてくれるならそれを使ったらいい。先週の週刊東洋経済を読んで悟った。いやなんか変

mrorii 2009/06/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

mecabに関するmroriiのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス