[B! perl] negatonのブックマーク

一行野郎(one-liner)はperlにおまかせ

序文もしもプログラミング言語が宗教だったら……（全訳版）［絵文録ことのは］2008/12/21 によると、ブードゥー教徒らしい dankogai です。ブードゥー教徒らしく、「上司があなたに金曜夜21時に緊急の仕事を命ずるときにしばしば使われる」呪文をここでまとめておくことにします。基本中の基本コマンドとしてのperlは、スイッチがない場合、引数はスクリプト名として扱われます。 % cat hello.pl print "Hello, world!\n"; % perl hello.pl Hello, world! % コマンドライン中の文字列をスクリプトとして解釈させるには、-eを使います。 % perl -e'print "Hello, World!\n"' Hello, world! % ちなみに、perlとコマンド名だけで起動すると、標準入力をスクリプトとして返します。 %

negaton 2008/12/22

リンク

MapReduce - naoyaのはてなダイアリー

"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

negaton 2008/05/12

リンク

Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.

Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS（フィード）クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。このフィードクローラは、次のような動作をします。データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。フィードの取得フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。読み出したフィードを取得します。取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。エントリ

negaton 2008/03/18

perl
crawler

リンク

HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記

以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。どういうものか。例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。ぱっと思いつくのは「特定のコメントタグ

negaton 2007/10/30

リンク

livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）

こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説

negaton 2007/10/19

nlp
perl

リンク

Perlで予約語プログラミング

記号もセミコロンも使わずにPerlプログラミング。ITpro Challenge終了後の飲み会での、takesakoさんによるプレゼンです。斜めから撮ったので、ちょっと見にくいかも＞＜続きはppencodeでググると吉。

negaton 2007/09/10

perl

リンク

Yet Another Hackadelic - 直積の導出と考えうる全ての値を網羅したハッシュの生成

昨日から激しく悩んでいた内容で、id:kazuhookuさんとnishioさんに色々教わったので、その内容のまとめ。やりたい事 my $entries = { A => [0..5], B => ["A".."D"], C => ["a".."c"] }; みたいな集合A, B, Cってのがあるとして、A, B, Cから一個ずつ値を抽出してくる組合せを列挙すると言うお話。ちなみに場合の数として、6 * 4 * 3 = 72 通り存在するハズです。 List::Utilのreduceを使う id:kazuhookuさん案を適当に整形。 #!/usr/bin/perl use strict; use warnings; use Data::Dump qw(dump); use List::Util qw(reduce); my $entries = { A => [0..5], B =>

negaton 2007/08/15

perl
test

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

negaton 2007/05/10

perl製拡張機能付きクローラ。

perl
crawler

リンク

404 Blog Not Found:perl+apache - LWPを責めないで

2007年04月10日18:00 カテゴリLightweight LanguagesBlogosphere perl+apache - LWPを責めないでこれはPerl Mongerとして一言言っておかねばなるまい。 Googleにもアクセス拒否され、スパム送信源と化した「libwww-perl」とは？ - GIGAZINE スパム対策をして気がついたのですが、どうやらスパムトラックバックを送信してくるリモートホスト（IPアドレスなど）はバラバラであっても、ユーザーエージェント、いわゆるブラウザの名称部分に「libwww-perl/5.805」というように「libwww-perl」と入っているものが多く、結果として、Googleなどは検索結果ページに対してこのユーザーエージェント名の一部「libwww」が含まれているとアクセス拒否しているようです。LWPことlibwww-perlは、We

negaton 2007/04/10

perl
crawler

リンク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

negaton 2007/04/02

nlp
perl

リンク

WikiStartJa - Plagger - Trac

Plagger: the UNIX pipe programming for Web 2.0 Plagger はプラガブルな RSS/Atom フィードアグリゲータで、Perl で記述されています。すべての機能は小さなプラグインとして実装されていて、ユーザはそれを組み合わせることによって自分好みのフィードアグリゲータをつくることができます。Ray Ozzie は RSS はインターネットのUNIX パイプになれるといいましたが、Plagger はそれを乗りこなす UNIX シェルのようなものともいえます。 Perl ソフトウェアに詳しい方には、 Plagger は bl osxom や qpsmtpd の RSS アグリゲータ版と考えてもらうとわかりやすいかもしれません。 Shortcuts Plagger Blog (英語) ChangeLog Development Mailing L

negaton 2007/03/16

plagger
perl

リンク

YAPC::Asia 2007 Tokyo - April 4-5 2007 (Japanese)

動画ファイルの公開を開始 by miyagawa YAPC::Asia 2007 のセッションの動画ファイルの公開を開始しました。すべてのセッションの動画は i-revo 特設サイト (WMV ストリーミング) または Google Video (Flash/DivX/MP4) にて閲覧できるようになっています（一部非公開のセッションを除く）。また、YAPC::Asia 2007 サイト内のセッション詳細ページに Google Video の Flash プレイヤーを埋め込んでありますので、タイムテーブルからみたいセッションを選んでブラウザ上で見ることも可能です。 Google Video からダウンロードできる MP4 (H264)ファイルのビデオキャストフィードも用意しました。iPod や PSP などにダウンロード・同期してお楽しみいただけます。iTunes や Demo

negaton 2007/02/26

perl

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

perlに関するnegatonのブックマーク (12)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス