タグ

patternに関するrhosoiのブックマーク (5)

  • Introducing PHP 5's Standard Library — SitePoint

    September 13, 2004Introducing PHP 5’s Standard Library Much of the buzz surrounding PHP5 has focused on its new object-oriented syntax and capabilities, and comparisons with Java. While all that was going on, the promisingly named “Standard PHP Library” (SPL) extension quietly made its way into the core PHP 5 distribution. Although work is still in progress, the Standard PHP Library’s current offe

    Introducing PHP 5's Standard Library — SitePoint
    rhosoi
    rhosoi 2007/08/07
    SPL / iterations ArrayReloaded (the array object) / admiring the tree / objects as arrays
  • zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW

    rhosoi
    rhosoi 2006/06/09
    「tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だã
  • 沖電気、金額や時間、重さなどの数値データを抽出するウェブ検索の新技術

    沖電気工業は4月11日、指定条件の範囲に含まれる数値データをテキスト情報から抽出できるウェブ検索技術を発表した。この技術を利用すると、「重さ1キロから2キロのノートパソコン」というキーワードで、「1.2kg」という記述を見つけられるという。 沖電気の開発した技術は、検索対象とするテキストの数字周辺に現れる単位文字列や単語の出現をもとに、金額や長さ、重さといった数値に関する記述を探し、数値の属性を判定する。現時のところ金額、時間、長さ、重さ、速度の5属性に対応しており、今後、電圧、電流、周波数、ビット、バイトなどに対応する予定だ。 属性の判定後、その属性を代表する単位に合わせて数字部分の値を換算し、数値情報として抽出する。たとえば、属性が「長さ」の場合、「インチ」や「尺」といった単位で記述された数値はすべて「m」に直す。 沖電気は、特定のキーワードを含むウェブページの更新情報とRSSフィード

    沖電気、金額や時間、重さなどの数値データを抽出するウェブ検索の新技術
    rhosoi
    rhosoi 2006/04/12
    これは・・・何て言うんだろ?
  • コニカミノルタのテクノロジー | コニカミノルタ

    オフィス ヘルスケア 電子部材 製造現場 創薬支援 商業・産業印刷 表示デバイス(ディスプレイ等) 自動車産業 業務効率化サービス

    コニカミノルタのテクノロジー | コニカミノルタ
  • 1