タグ

2007年10月30日のブックマーク (9件)

  • いまさらながらAutoPagerizeでmixi日記のコメント欄が逃げる件 « ku

    いまさらながら、10/1にmixiのデザインが新しくなったときに、前よりぜんぜんXPathフレンドリーなHTMLになっていたのがうれしくてためしにSITEINFOを書いたけど、コメント欄がpageElementに入っていなかったのでコメントが書けなくなってAutoPagerizeを使われているひとに迷惑をかけた件について。まず迷惑をおかけしてしまってごめんなさい。そして直していただいたotusneさんありがとうございます。 このことについてまとめられているAutoPagerizeでmixi日記のコメント欄が逃げる件 - cameraLadyのこの件を通じて思ったことを読んで思ったことを。 この件を通じて思ったこと 個人的にはSITEINFOは気軽に書くことができて、気軽に使えるほうがよいと思う。 もし気軽にSITEINFOを書くことができないなら、たとえば一度書いてSITEINFOコミッタ

  • 404 Blog Not Found:perl - 勝手に添削 - 40行で作るPerl用テンプレートエンジン

    2007年10月30日20:00 カテゴリLightweight Languages perl - 勝手に添削 - 40行で作るPerl用テンプレートエンジン 久々の勝手に添削。今回はこちら。 40行で作るPerl用テンプレートエンジン 正規表現がらみなので、Perl以外でも有用。 添削箇所は、こちら。 40行で作るPerl用テンプレートエンジン sub convert { return unless defined(my $str = shift); $str =~ s{&amp;}{&amp;}gso; $str =~ s{<}{&lt;}gso; $str =~ s{>}{&gt;}gso; $str =~ s{\"}{&quot;}gso; $str; } これの最初のsubstitutionが&amp;ではなくて&ではないかというのはさておき、こういった場合、何度も正規表現をかけ

    404 Blog Not Found:perl - 勝手に添削 - 40行で作るPerl用テンプレートエンジン
  • Clark AFB/Japan 1952

    Photos from my late father taken at Clark AFB, Phillipines and Tokyo, Japan while stationed there in the early 1950's.

    Clark AFB/Japan 1952
  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介

    ブログやサイト内の文字列を扱うサービスの中で、HTML中における文を抽出するというのは重要な課題だ。ライブラリ化したものや、クローラとして提供されるものなど様々な形態が存在する。 そんな中、サイボウズの提供するサービス「パストラック」で利用されているその文抽出モジュールはオープンソースとして公開されている。 今回紹介するオープンソース・ソフトウェアはExtractcontent、Rubyによる文抽出モジュールだ。 Extractcontentは一つのRubyスクリプトからできている。読み込むだけで使えるので、Rails等に組み込むのも簡単だ。HTML全体を渡すと、タイトルと文を同時に取り出してくれる。 パラメータは細かく存在し、それを変更する事で性能を変更できる。が、まずデフォルトのままで大丈夫だろう。 ライブラリだけで文抽出ができるという手軽さが良い。ブログを使ったテキストサー

    MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介
  • 【ハウツー】話題の高機能CMS「MODx」 を試す! - 導入からテンプレート作成まで (1) PHP+MySQLの高機能CMS「MODx」とは? | ネット | マイコミジャーナル

    注目のCMS「MODx」とは? 「MODx」はPHPで実装されているWebベースサイトを管理することができるCMS (Content Management System)です。データベースにMySQLを利用しているため、オープンソース系のWebアプリケーション環境で標準的なLAMPで構成することができ、国内でもここ最近になって知名度を高めています。 他の多くのCMSと同様に、Webサイトの管理者専用のページが用意されており、管理者は管理ページを通してコンテンツやユーザーの管理を行うことができます。加えてMODxの管理画面はAjaxを用いているためページ遷移を発生させずに画面移動でき、快適な操作性を実現しています。 MODxを用いることで、用意されているテンプレートやモジュールでWebサイトを構築することができ、必要であればPHPを書いて独自のWebアプリケーションやサービスを構築することも

  • ウノウラボ Unoh Labs: auとSoftBankの絵文字一覧YAML

    auとSoftBankの絵文字については、下記のページに公式の情報が掲載されています。しかし、情報がPDFであったり、HTMLであったりと、プログラムから使うのが難しいという問題があります。 EZFactory 絵文字 EZWeb絵文字一覧【タイプD】(リンク先はPDF) ソフトバンク 絵文字一覧 そこでこのPDFHTMLYAMLにしてみました。 諸般の事情により公開を停止しました。代わりに、同様の情報の取得方法に関する記事へのリンクを紹介いたします。 Ruby: http://d.hatena.ne.jp/tokuhirom/20070706/1183707279 Ruby: http://moriq.tdiary.net/20070211.html#p01 Ruby: http://d.hatena.ne.jp/urekat/20070927/1190905959 Perl: ht

  • 食パンとかの“あれ”を作る会社に :: デイリーポータルZ

    今日の主役は右写真、“あれ”である。 皆さまも一度とならず何度もお世話になっていることだろう。 パンを買うと袋を留めるためについてくるあれだ。あれがないと僕らの暮らしぶりはどうだろう。パンはすぐにカピカピになってしまう。あれのおかげで僕らは今日もパンをおいしくべられる。 僕らの朝はあれがあることによって成り立っていると言っても過言ではない。 そんな大事なあれなのに、名前すら知られていないなんてちょっと寂しいじゃないか。 今日はあれを巡る冒険に出ることにしました。 (text by 梅田カズヒコ) アレの正式名称は… アレの名前はバッグ・クロージャーと呼ぶらしい。そんなかっこいい名前があるなんて知らなかった。ずいぶん慣れ親しんだ友人に別の名前があったと知っても腑に落ちないところがあるように、いきなり“あれ”をバッグ・クロージャーと呼ぶにはちょっと突然すぎて頭に入ってこない。 そこで、だ

  • 404 Blog Not Found:アマグラマーのすすめ - 目次

    2007年11月24日20:00 カテゴリアマグラマーのすすめ アマグラマーのすすめ - 目次 完成まで毎日更新予定 - なかなか毎日更新とは行かないのはスルーしていただく方向で。 はじめのはじめ はじめに プログラムって何さ? 世界は言葉で出来ている 下ごしらえ プログラムの言の葉 美徳その1:怠慢 美徳その2:短気 美徳その3:傲慢 「アマグラマーのすすめ」カテゴリの最新記事

    404 Blog Not Found:アマグラマーのすすめ - 目次