タグ

2007年6月8日のブックマーク (6件)

  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    kokepi
    kokepi 2007/06/08
  • Feedmedia: Dapper - あらゆるウェブサイトを構造化して再利用できるようにするサービス

    2007/03/27 Dapper - あらゆるウェブサイトを構造化して再利用できるようにするサービス Dapper: The Data Mapperというサービスがあります。 サイトで公開されているデモ映像を見る限り、Dapperはウェブページをスクレイピング(HTMLソースを取得して解析し、目的のデータを抽出すること)して構造化したデータを作成し、そのデータを誰でも自由に再利用できるようにするサービスのようです。 Dapperで作られたデータは“Dapp”と呼ばれ、誰でも利用できるようになっています。たとえばこのDappを見れば分かるように、出力フォーマットが15種類用意されています。XML, HTML, RSS, JSON, YAML, Google Map, Google Gadget, Netvibes Moduleなどなど。 また、ウェブページを閲覧中にDipperでスクレイピ

    kokepi
    kokepi 2007/06/08
  • セキュリティ管理の啓蒙、まず社長さんと役員から?

    特に、こうした「社長・役員クラスのセキュリティに対する意識の持ち方や対応は気をつけなければならない」と中野氏は警鐘を鳴らす。例えば、「情報セキュリティポリシー」や「PC・情報システムの取り扱い規定」「電子メール・インターネットの取り扱い規定」に関しては、規定を読んだあるいは講習を受けた一般社員・課長クラス・部長クラスの割合が50%強、もしくはそれに近い比率なのに対し、社長・役員クラスは30%前後にとどまっている。 また従業員規模で見ると、1000人以上の企業では、情報セキュリティポリシーに関して「規定を読んだ・講習を受けた」が60%近くあるが、999人以下の企業では50%弱、また「PC・情報システムの取り扱い規定」は、1000人以上が50%強に対して999人以下が40%に満たないなど、規模が小さくなるほど意識の弱さが出ている。 全体的には、情報セキュリティポリシーにしても、PC・情報システ

    セキュリティ管理の啓蒙、まず社長さんと役員から?
  • PHPパッチ、一部の脆弱性は未修正

    先日リリースされたPHP 5.2.3で対処されたはずの脆弱性が、実は修正されていないことが分かったと、セキュリティ研究者が指摘した。 PHPのアップデートで対処されたはずの脆弱性が、実は修正されていないことが分かったと、セキュリティ研究者が指摘した。 PHP開発チームは6月1日にアップデートバージョンの5.2.3をリリースし、複数の脆弱性に対処した。リリースノートによれば、この一環として「chunk_split()」の整数オーバーフローの脆弱性も修正されたはずだった。 しかしこれについて、PHPチームを脱退した研究者のステファン・エッサー氏が、自身の運営するPHPセキュリティブログで問題を指摘した。同氏によると「フィックスは壊れているばかりかまったく無意味」であり、PHP 5.2.3で整数オーバーフロー問題は未修正のまま、別の行に移されただけだという。 US-CERTも6月6日付で、PHP

    PHPパッチ、一部の脆弱性は未修正
  • ウェブサービスAPIにおける『成りすまし問題』に関する一考察

    先週の末に、はてなのウェブ・サービスAPIを使ったMash-upアプリをFlash上で作り始めていきなりつまずいたのが、Cross-Domainセキュリティ。satoshi.blogs.comから取得したswfファイル上のActionScriptからb.hatena.ne.jp下にあるRSSフィードだとかXML-RPCにアクセスができないのだ。 「確か方法があったはず」と調べてみると、はてな側がサーバーにcrossdomain.xmlというファイルを置いて明示的にCross-Domainアクセスを許可していなければならない、という。そこで見つけたのが、「Flashから各APIの操作、データのロードができるよう、サーバ上に「crossdomain.xml」というポリシーファイルの設置をお願いしたい。」というはてなアイデアへのリクエスト。2006年の2月にリクエストが出されているのだが、11月

  • 「81%がGoogle AdWords利用」「21%が1万以上のキーワードを管理] - WebTrends調査 ::SEM R (#SEMR)

    「81%がGoogle AdWords利用」「21%が1万以上のキーワードを管理] - WebTrends調査 広告主の60%がキーワード価格の高騰が問題と認識。45%はサーチマーケティングの効果測定について問題を抱えている。また、43%は複数の検索エンジンの管理と新たな効果的なキーワードの発見に問題を抱えている。キーワード価格の高騰に伴い、まー蹴ったーは比較的安価なキーワードを見つける必要がある (JupiterResearch, US SEM Executive Survey, 2007). 公開日時:2007年06月08日 09:47 米WebTrendsは2007年5月17日、米国のサーチマーケッターの検索連動型広告の利用に関する調査結果を発表した。 同調査は4月に開催されたSES New York 2007で実施し、132人のサーチマーケティング担当者から回答を得た。利用している

    「81%がGoogle AdWords利用」「21%が1万以上のキーワードを管理] - WebTrends調査 ::SEM R (#SEMR)
    kokepi
    kokepi 2007/06/08