hide-Kのブックマーク - はてなブックマーク

websequencediagrams をPerlでごにょごにょ - download_takeshi’s diary

http://www.websequencediagrams.com というサイトを知ってますか？ZIGOROuさんがブログで使っていたので知ったんですが、実に便利っぽいです。専用のダイアグラム構文を書いてサイトにHTTP POSTするとPNGやPDFでシーケンス図を生成して返してくれる代物です。構文自体とてもシンプルです。 Alice->Bob: Authentication Request Bob->Alice: Authentication Response こんな感じでとても簡単＆スマートなものなんですが、さらにこいつをプログラマブルに書けたら便利かなー、なんて思ってしまい、Perlでモジュール化してみました。 WebService::WebSequenceDiagrams github: http://github.com/miki/WebService-WebSequence

hide-K 2009/10/28

リンク

本文抽出モジュールを作り直す - download_takeshi’s diary

２年ほど前にHTML::FeatureというPerlの本文抽出モジュールを書きました。こいつはブログやニュース記事から「本文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかったです。外国の方も何人か使ってくれたりして、それなりに充実感のあるモジュールでした。しかし、昨年HTML::ExtractContentが出現してからは、すっかりその地位を奪われ＆忘れられた感がありました。作者としては「ま、いっか」的なノリだったのですが、最近になって急に「本文抽出界での復権を目指し全面リメイクを敢行するよ！」と思うに至りました。改善方針方針ってほどの方針ではありませんが、 - サイトごとに定義できる部分はすなおに定義する - アルゴリズムに頼りすぎない - google adsenceの人気にあやかる - 全体

hide-K 2009/07/22

perl

リンク

クラスタリングツール「bayon」を試してみた - download_takeshi’s diary

夜中の3時半過ぎですが、久しぶりになんか書こうと思います。ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました！「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。本当にありがたいことです。さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp

hide-K 2009/06/23

bayon

リンク

Kamaitachi入門 - download_takeshi’s diary

Kamaitachiとは、typesterさんが鋭意開発中のperlによるRTMPサーバの実装（ =~ Flash Media Server）です。 RTMPサーバのオープンソース実装としてはRed5やWowza、RubyIzumiなどが知られていますが、「perl使いだったらKamaitachiだよ！」ということで、年の瀬の忙しい中、家族の冷たい視線に刺されつつKamaitachiに入門してみようと思います。 Kamaitachi とはまずは周辺情報の整理から。 Kamaitachiの紹介サイト http://bm11.kayac.com/project/kamaitachi/ 作っている人 id:typester id:hide-K typesterさんのブログ http://unknownplace.org/memo/search?q=kamaitachi ソース http://g

hide-K 2008/12/31

wktk

kamaitachi

リンク

HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記

以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。どういうものか。例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。ぱっと思いつくのは「特定のコメントタグ