タグ

2007年11月17日のブックマーク (8件)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • PHP E_STRICTで表示されるエラーメッセージを調べてみた

    年内のPHP4サポート終了に向けて、PHP5への移行が進む昨今です。 PHP5で推奨されていないスクリプトをチェックするのがE_STRICTです。E_STRICTが有効なのは分かっていたのですが、実際にどんなスクリプトがE_STRICTに引っかかるのかが、あやふやでした。 そこでE_STRICTで出力されるメッセージをPHPのソースから抜き出してみました。どのようなスクリプトがE_STRICTに引っかかるのか(引っかからないか)のヒントになればと思います。 ちなみにE_STRICTの活用方法としてマニュアルには[-l]オプションによるチェックが書かれていますが、スクリプトを実行しないと発生しないE_STRICTもあるので、実際には実行して確認する方が良いです。 1. Accessing static property %s::$%s as non static インスタンス変数をクラス変数

    koyhoge
    koyhoge 2007/11/17
  • php_tokyocabinet-0.1.0 - 讃容日記

    php_tokyocabinet-0.1.0.tgz Tokyo CabinetPHPバインディングを作ってみました。 インストールは phpize; configure --enable-tokyocabinet; make; sudo make install と、いつもの手順ですが、configure内でpkg-configを使います。Tokyo Cabinetはバージョン1.0.2以降が必要です。 Mac OS XではTokyo Cabinet, pkg-configともにMacPortsでインストールできます。(databases/tokyocabinet, devel/pkgconfig) API解説 ハッシュデータベースを操作するTCHDBクラス、B+木データベースを操作するTCBDBクラス、B+木データベースの各レコードを順番に参照するためのTCBDBCURクラスがありま

    php_tokyocabinet-0.1.0 - 讃容日記
  • 動的スクリプトローディング(さんざん既出だと思うけど - IT戦記

    なんか、既出な予感もするんですけど 私製版を作ったので コード var load = function(src, check, next) { check = new Function('return !!(' + check + ')'); if (!check()) { var script = document.createElement('script') script.src = src; document.body.appendChild(script); setTimeout(function() { if (!check()) setTimeout(arguments.callee, 100); else next(); }, 100); } else next(); }; 考え方は、 このエントリ と同じです。 使い方 以下の場合 // 処理 1 // ← ここで jQu

    動的スクリプトローディング(さんざん既出だと思うけど - IT戦記
  • http://piece-framework.com/2007/11/piece_network_1.html

  • テクノロジーとデザインの境界線があいまいなもの (arclamp.jp アークランプ)

    Web2.0 Expoでベスト講演をあげるとすればチームラボの猪子さんによる「インターフェースデザインのイノベーション(テクノロジーとデザインの境界線があいまいなもの)」です。これはヤバイ。 以下、サマリ。 サーチやマッチングというテクノロジーがあるおかげで、Webにある情報はサイト内外の情報を動的に再編集して構成されるようになった。だから、そのリンク構造も動的。当然、サイトマップやきれいな階層構造なんて存在しない。 サイトの構造が動的なんだから、インターフェースも当然、動的だよね。逆にインターフェースが構造の動的さを引き出して魅力を出さなきゃいけない。 テクノロジー(構造)とインターフェースは切り離して考えることなんてできない。一体なんだよ。 いえーい!も、マイナビバイトも、SAGOOLも、Laboo!も、そうやって作った。 これって「インターフェースの革新の流」。すごい西洋的。iPa

    koyhoge
    koyhoge 2007/11/17
    このセッションは、Web2.0Expoで一番面白かった。
  • カラオケでも「みっくみくにしてやんよ〜♪」 - MSN産経ニュース

    カラオケの世界でも「みっくみくにしてやんよ〜♪」−。動画投稿サイト「ニコニコ動画(ニコ動)」で話題となった「初音ミク」をフィーチャーしたオリジナル楽曲「みくみくにしてあげる♪」が、エクシングの業務用通信カラオケ「JOYSOUND」で配信される可能性が出てきた。JOYSOUND.COMによると、曲名「みくみくにしてあげる」、歌手名「初音ミク」でエントリーされているという。 コンピューターで合成された「初音ミク」の声で歌われ、9月20日にニコ動に投稿された「みくみくにしてあげる♪」は、約2カ月で165万回以上再生された人気楽曲。コメント数は40万件を超え、「みっくみくにしてやんよ〜♪」という特徴的なフレーズが流れると、コメントの“弾幕”が画面を埋め尽くす。漫画や雑誌などで引用されたほか、「みっくみく」は現代用語の基礎知識2008にも収録された。 「初音ミク」は、クリプトン・フューチャー・メディ

    koyhoge
    koyhoge 2007/11/17
    カラオケはJASRAC登録曲じゃないとダメという話を聞いたのだけど、ニワンゴが登録処理をしたのかな。
  • MOONGIFT: » Hyper Estraier作者による新型DBM「Tokyo Cabinet」:オープンソースを毎日紹介

    枯れた技術は完成度が高いが、だからといって完璧な訳ではない。技術は常に刷新され、磨かれていくべきだ。そのため、他の実装が出てくるのは重要だ。 DBMと言えば、キーと値を持つごくシンプルなデータベースだ。これは昔から存在し、Berkeley DBやQDBMで完成度が高まっている。だが、さらにそれを乗り越えるソフトウェアが生み出されている。 今回書介するオープンソース・ソフトウェアはTokyo Cabinet、日発のDBM実装だ。 Tokyo CabinetはあのHyper Estraierの作者である平林幹雄氏(以下mikio氏)によるソフトウェアで、Hyper Estraierの内部で利用されているQDBMよりも高速に動作するらしい。前方一致や数値の範囲検索、さらにトランザクションも利用できる。 ハッシュは便利だが、実行されるごとになくなってしまうのが不便だ。これをTokyo Cabin

    MOONGIFT: » Hyper Estraier作者による新型DBM「Tokyo Cabinet」:オープンソースを毎日紹介
    koyhoge
    koyhoge 2007/11/17