はじめに "termex"は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するためのシステムです。このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書 から重要な概念を抽出するなどの研究目的にも使用できると思います。このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール 作業を省略することもできます。以下、簡単なものから順に説明していきます。 機能と使い方 Windowsのテキストファイルを、termexのアイコンにドラッグ&ドロップします。 (和文の場合は「重要度計算(和布舞)」アイコン、 英文の場合は「重要度計算(英文・高速)」ア
Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなってきました。正確には文字 n-gram ですが、(単語 n-gramとの対比) ようするに、テキスト中の n 以下までのすべての部分文字列を取り出して index に使う処理のことを言います。 n-gram の取り出しは、すごく簡単で、プログラミングしてもたいした量にはなりませんが、ここはあえて MeCab だけでやってみたいと思います。 まず、mecab-0.91 (src/tokenizer.cpp) に以下のパッチを当てます。(もしくは最新の CSVからソースを拾ってきます) 実際この記事を書くにあたって見つけたバグです。 4c4 < $Id: tokenizer.cpp,v 1.13 2006/05/03 07:56:28 taku-ku Exp $; --
ActiveRubyとかからちょろっとMeCabを使ってみたい、、、でもMeCabのruby bindingとか使うのは億劫、って人向けに書いてみました。単にpopenで直接MeCabを呼んでるだけですが、、、 #!/bin/ruby -Ks # -*- coding: euc-jp -*- # # easymecab.rb # class MeCab def initialize(option) @path = "/cygdrive/c/MeCab/bin/mecab.exe" # MeCabへのパス @option = option end def parse_file(s) cmd_string = [@path, @option, s].join(" ") word_list = [] io = IO.popen(cmd_string, "r") until io.eof? wor
牧大輔さんがText::MeCabを作って公開しているのに今更ながら気が付きました。 http://search.cpan.org/~dmaki/Text-MeCab/ Text::KakasiのMeCab版のようなものが欲しいなと思っていたのありがたく試させていただきました。 分かち書き処理をするだけの場合ってこれで良いかな。 #!/usr/bin/perl -w use strict; use Text::MeCab; $/ = undef; my $str = <STDIN>; my @buf; my $mecab = Text::MeCab->new({output_format_type => 'wakati'}); for (my $node = $mecab->parse($str); $node; $node = $node->next) { push(@buf, $nod
よみがな(平仮名)を付けるFilter::YomiHiraGana。id:lestrratさんのText::MeCabを使っています。 まだ漢字を読めないお子様もこれで大丈夫。インターネットで漢字を楽しく勉強できます。幼稚園や小学校にPlaggerをぜひ導入しましょう。 人生に必要な知恵はすべて幼稚園の砂場で学んだ (河出文庫) 作者: ロバートフルガム,Robert Fulghum,池央耿出版社/メーカー: 河出書房新社発売日: 1996/03メディア: 文庫購入: 6人 クリック: 89回この商品を含むブログ (30件) を見る package Plagger::Plugin::Filter::YomiHiraGana; use strict; use base qw( Plagger::Plugin ); use Text::MeCab; use Unicode::Japanese;
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く