タグ

MeCabに関するtsupoのブックマーク (12)

  • Twitter Streaming APIでデータ収集 - のんびり読書日記

    Twitterからデータを引っ張ってきたいと前から思ってたので、TwitterのStreaming APIを試し中。とりあえず1日分(2010/02/10 12:00 〜 2010/02/11 12:00)のデータを引っ張ってきてみました。ドキュメントはほとんど読んでないままやってるので、いろいろ間違ってるかも。 実際に引っ張ってくるコードはこんな感じ。ユーザ名、TweetのID、日付、Tweetの文面をタブ区切りで出力します。Config::Pitについてはここを参照。 #!/usr/bin/perl use strict; use warnings; use AnyEvent::Twitter::Stream; use Config::Pit; use Data::Dumper; use Encode qw(encode); my $config = pit_get('twitter.

    Twitter Streaming APIでデータ収集 - のんびり読書日記
    tsupo
    tsupo 2010/03/16
    streaming API で収集したツイートを MeCab を使っていろいろ解析
  • 形態素解析を使って適当なnickを作ってWassrに送信するまで - すぎゃーんメモ

    MacにてText::MeCabを使う - すぎゃーんメモで下準備を終えた。 何がしたかったかというとこれ。 まずはこんなスクリプトを書いてみた。 #!/opt/local/bin/perl use strict; use warnings; use Text::MeCab; my $mecab = Text::MeCab->new(); my $n = $mecab->parse($ARGV[0]); my @nodes = (); # 分かち書きしたものを一つの配列に入れる my @noun = (); # 名詞を検出した番号を格納する my $index = 0; while ($n = $n->next) { push(@nodes, $n->prev->surface); if ((split(/,/, $n->prev->feature))[0] eq '名詞') { push

    形態素解析を使って適当なnickを作ってWassrに送信するまで - すぎゃーんメモ
    tsupo
    tsupo 2009/07/08
    kazuhoでkazuhoのkazuhoでもkazuhoして、kazuhoをkazuhoにkazuhoるようにしてkazuhoでkazuho時間ごとにkazuhoしたりしたらkazuhoかも!?
  • acotieのドキドキPerlプログラミング - acotie

    Microblog Conference (2008-08-27)acotienext: sm4435416(yappo) first: sm4430223(kazeburo) mylist: mylist/8144722http://soozy.org/index.cgi?MicroblogCon1

    acotieのドキドキPerlプログラミング - acotie
    tsupo
    tsupo 2008/08/31
    acotie さんのプレゼン @MicroBlogCon1 / 画面に付箋が出まくってプレゼン資料が隠れてしまったりして、面白かった
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    tsupo
    tsupo 2008/02/14
    HMMは形態素解析を間接的に解いていて,CRFは直接的に解いている / 「MeCabはSpotlight用日本語と中国語の解析に使われている / 彼らにとっては何も大変じゃない / 現在Webを簡単にgrepできる人は限られている
  • ミク語変換(初音ミク用歌詞データ生成)Rubyスクリプト - aike’s blog

    年末年始は初音ミク三昧。 いろいろ触ってて思ったのは、歌詞のテキスト起こしがけっこう面倒くさいということ。だいたい以下のようなことをする必要があります。 漢字はすべてカナにする 助詞の「は」は発音どおり「わ」にする(例:あれは何→あれわなに) 他にも表記と発音が違うものは発音どおりにする(例:どうすりゃいいの→どおすりゃいいの) 促音の「っ」は直前の母音にした方がうまくいく(例:ちょっとでいいのだ→ちょおとでいいのだ) そんなわけでそういった変換を自動でやってくれるプログラムを作ってみました。一番大変な上記1〜3はMeCabを入れれば全部やってくれるので、実は促音の処理を書くだけです。このへんを参考にしました。 ためしにid:navさんの自動作詞で生成した歌詞を変換すると以下のようになります。 実行 ruby mikugo.rb < kanji.txt > kana.txt 入力 ベッドの

    ミク語変換(初音ミク用歌詞データ生成)Rubyスクリプト - aike’s blog
    tsupo
    tsupo 2008/01/10
    促音の「っ」は直前の母音にした方がうまくいく → そうだったのか
  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

    tsupo
    tsupo 2007/04/07
    MeCabで抽出されたキーワードをはてなやWikipediaを使ってランク付け / ブックマークレットも用意されている
  • [を] MECAPI で JSONP 出力対応

    MECAPI で JSONP 出力対応 2006-09-23-1 [MECAPI][NLP] Web 経由で MeCab を使うための API である MECAPI (http://mimitako.net/api/mecapi.cgi)で、JSONP出力対応しました。 callback というパラメタでコールバック関数を指定する仕様。 これによってドメインが違ってもクライアント側 JavaScript から MECAPI (JSON) を呼び出して使えます。 サンプルを下記に置いておきます。 昨日のやつ[2006-09-22-4]をちょこっと改造しただけです。 - MECAPIのJSON出力で形態素解析 http://chalow.net/misc/mecapi.html 参考: - [鏡] 入門 JSON 3 -- JSONP とコールバック関数 -- 戯れ言++

    tsupo
    tsupo 2006/09/24
    ドメインが違ってもクライアント側 JavaScript から MECAPI (JSON) を呼び出して使える
  • [を] MECAPI (MeCab API) 暫定版を公開

    MECAPI (MeCab API) 暫定版を公開 2006-09-18-1 [WebTool][NLP][MECAPI] taku-ku 氏による日形態素解析器 MeCab の Web Service を 作ってみたので公開します。その名も MECAPI (メカピ)! - MECAPI - MeCab Web Service (MeCab API) http://mimitako.net/api/mecapi.cgi Perl の MeCab モジュールを使っています[2006-02-25-4]。 仕様は今後変わっていく可能性あり。 また、サーバ負荷によっては予告なく止めることもあり。 同一 IP からの回数制限とかするかも。 とりあえずしばらく様子を見て、落ち着いたらソースを公開します。 でもって、余裕のあるサーバに置いてもらいたいと思っています。 現段階で、

    tsupo
    tsupo 2006/09/19
    日本語形態素解析器 MeCab の Web Service を作ってみたので公開します → こういうサービスはうれしい。
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

    tsupo
    tsupo 2006/04/26
    実装にあたっては、連続する名詞を自動的に結合評価するようにした点がポイント/要約機能は未実装/時事問題や、専門性の高い文書についても、適切なキーワード抽出を期待できる
  • Amazon Search のコンテンツ解析ロジックをリファクタリング中

    Amazon Search サービスを開始してから約2年になりました。開始始めは 2004 年 03 月 07 日らしいんですが、自分でも覚えていません・・・ 細かい修正を含めるて数えてみたら、52回目のバージョンアップになりますが、サーバの計算力も Pentium 4 から Athlon 64 X2 と大幅に向上したこともあり、コンテンツ解析部分の計算量を増やして、より適合度の高い関連商品が選択されるようにしてみました。 前より良くなってますよね? (なってなかったらごめんなさい・・・) ※新しいエントリーもしくは古いキャッシュが消えるまでお待ち頂いてからご確認ください。 さて、計算量を増やす代わりに、形態素解析を ChaSen (茶筌)から MeCab に変更しました。MeCab は ChaSen の3〜4倍程度は高速に動作するので、全体としては速度的に速くなっているかもしれません。

    tsupo
    tsupo 2006/02/28
    MeCab 0.9 系は、0.8 系以前とは根本的に設計自身が違うようでして、かなり満足のいく分かち書きをしてくれるようになりました。
  • 83's : MeCabの辞書作成補助

    MeCabの辞書作成補助 September 11, 2005 18:19:46 Comments (0) Trackbacks (0) Ruby 形態素解析器MeCabの 辞書を自分で作る場合、動詞や形容詞など活用する品詞については 自分で活用を書かなければいけないんですが、 激しく面倒なのでこれを自動化するやつを作ってみた。 ( ・∀・)つ[katsuyou.tar.gz] このプログラムを使うには、別途ローマ字ひらがな変換ライブラリ suikyoと、 茶筌に(多分)付属しているcforms.chaが必要です。 まー基的にはcforms.chaでなくても、同じフォーマットで、かつ活用形の中に「基形」が 入っていれば動くはずです。 あとRubyも必須です。 katsuyou.rbは、入力されたMeCabの辞書の中で活用できるものがあるとそれを活用展開します。 だからあらかじめ1つだけ

    tsupo
    tsupo 2005/09/11
    動詞や形容詞など活用する品詞については 自分で活用を書かなければいけないんですが、激しく面倒なのでこ
  • Ajax を使った 日本語 IME

    最近はやりの Ajax で 簡易IMEを作ってみました。 適当な「ローマ字列」もしくは「ひらがな列」を入力してください. リアルタイムにかな漢字変換を行います. 変換候補の修正等はできません. 拙作の形態素解析器MeCabを 変換エンジンとして使っています. Google suggest 風に変換候補を出したいですが, かなり大変そうです. 変換エンジンは複数の候補を出しているので, UI の問題だけです. こちらに, この IME とKWICを 組み合わせたテキスト検索ツールがあります. あわせて御覧ください.

    tsupo
    tsupo 2005/06/02
    最近はやりの Ajax で 簡易IMEを作ってみました。
  • 1