タグ

perlに関するnegatonのブックマーク (12)

  • 一行野郎(one-liner)はperlにおまかせ

    序文 もしもプログラミング言語が宗教だったら……(全訳版)[絵文録ことのは]2008/12/21 によると、ブードゥー教徒らしい dankogai です。 ブードゥー教徒らしく、「上司があなたに金曜夜21時に緊急の仕事を命ずるときにしばしば使われる」呪文をここでまとめておくことにします。 基中の基 コマンドとしてのperlは、スイッチがない場合、引数はスクリプト名として扱われます。 % cat hello.pl print "Hello, world!\n"; % perl hello.pl Hello, world! % コマンドライン中の文字列をスクリプトとして解釈させるには、-eを使います。 % perl -e'print "Hello, World!\n"' Hello, world! % ちなみに、perlとコマンド名だけで起動すると、標準入力をスクリプトとして返します。 %

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.

    Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS(フィード)クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。 このフィードクローラは、次のような動作をします。 データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。 フィードの取得 フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。 読み出したフィードを取得します。 取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。 エントリ

  • HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記

    以前からCPANで公開していたモジュールがあるんですが、日語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。 ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。 「重要部分」とはいわゆる「文」のことですね。文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。 どういうものか。 例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。 ぱっと思いつくのは「特定のコメントタグ

    HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記
  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

  • Perlで予約語プログラミング

    記号もセミコロンも使わずにPerlプログラミング。ITpro Challenge終了後の飲み会での、takesakoさんによるプレゼンです。斜めから撮ったので、ちょっと見にくいかも>< 続きはppencodeでググると吉。

    Perlで予約語プログラミング
    negaton
    negaton 2007/09/10
  • Yet Another Hackadelic - 直積の導出と考えうる全ての値を網羅したハッシュの生成

    昨日から激しく悩んでいた内容で、id:kazuhookuさんとnishioさんに色々教わったので、その内容のまとめ。 やりたい事 my $entries = { A => [0..5], B => ["A".."D"], C => ["a".."c"] }; みたいな集合A, B, Cってのがあるとして、A, B, Cから一個ずつ値を抽出してくる組合せを列挙すると言うお話。 ちなみに場合の数として、6 * 4 * 3 = 72 通り存在するハズです。 List::Utilのreduceを使う id:kazuhookuさん案を適当に整形。 #!/usr/bin/perl use strict; use warnings; use Data::Dump qw(dump); use List::Util qw(reduce); my $entries = { A => [0..5], B =>

    Yet Another Hackadelic - 直積の導出と考えうる全ての値を網羅したハッシュの生成
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    negaton
    negaton 2007/05/10
    perl製拡張機能付きクローラ。
  • 404 Blog Not Found:perl+apache - LWPを責めないで

    2007年04月10日18:00 カテゴリLightweight LanguagesBlogosphere perl+apache - LWPを責めないで これはPerl Mongerとして一言言っておかねばなるまい。 Googleにもアクセス拒否され、スパム送信源と化した「libwww-perl」とは? - GIGAZINE スパム対策をして気がついたのですが、どうやらスパムトラックバックを送信してくるリモートホストIPアドレスなど)はバラバラであっても、ユーザーエージェント、いわゆるブラウザの名称部分に「libwww-perl/5.805」というように「libwww-perl」と入っているものが多く、結果として、Googleなどは検索結果ページに対してこのユーザーエージェント名の一部「libwww」が含まれているとアクセス拒否しているようです。LWPことlibwww-perlは、We

    404 Blog Not Found:perl+apache - LWPを責めないで
  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

  • WikiStartJa - Plagger - Trac

    Plagger: the UNIX pipe programming for Web 2.0 Plagger はプラガブルな RSS/Atom フィードアグリゲータで、Perl で記述されています。すべての機能は小さなプラグインとして実装されていて、ユーザはそれを組み合わせることによって自分好みのフィードアグリゲータをつくることができます。Ray Ozzie は RSS はインターネットのUNIX パイプになれる といいましたが、Plagger はそれを乗りこなす UNIX シェルのようなものともいえます。 Perl ソフトウェアに詳しい方には、 Plagger は blosxom や qpsmtpd の RSS アグリゲータ版と考えてもらうとわかりやすいかもしれません。 Shortcuts Plagger Blog (英語) ChangeLog Development Mailing L

  • YAPC::Asia 2007 Tokyo - April 4-5 2007 (Japanese)

    動画ファイルの公開を開始 by miyagawa YAPC::Asia 2007 のセッションの動画ファイルの公開を開始しました。すべてのセッションの動画は i-revo 特設サイト (WMV ストリーミング) または Google Video (Flash/DivX/MP4) にて閲覧できるようになっています(一部非公開のセッションを除く)。 また、YAPC::Asia 2007 サイト内の セッション詳細ページ に Google Video の Flash プレイヤーを埋め込んでありますので、タイムテーブル からみたいセッションを選んでブラウザ上で見ることも可能です。 Google Video からダウンロードできる MP4 (H264)ファイルの ビデオキャストフィード も用意しました。iPod や PSP などにダウンロード・同期してお楽しみいただけます。iTunes や Demo

    negaton
    negaton 2007/02/26
  • 1