タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

newsに関するt9aのブックマーク (2)

  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
    t9a
    t9a 2013/12/31
  • NGNのIPv6インターネット接続に新たな火種、ネイティブ方式ユーザーに追加料金の懸念

    2011年4月開始予定のNGNによるIPv6インターネット接続サービスを阻害しかねない大きな問題が浮上してきた。IPv6接続方式には「トンネル方式」と「ネイティブ方式」の2方式がある(関連記事1、関連記事2、関連記事3)。そのうちの「ネイティブ方式」のユーザーに対し、数百円程度の月額料金を新たに課金する方向で検討が進んでいることが、関係者への取材で明らかになった。 ネイティブ方式は、NGNが直接IPv6パケットを転送する方式。NGNから外部のインターネットに出る場合、3社のネイティブ接続事業者を経由する仕組みとなっている。ネイティブ接続事業者は、BBIX、日インターネットエクスチェンジ(JPIX)、インターネットマルチフィードの3社が選定されている。 ネイティブ方式を選択したインターネット接続事業者(ISP)のユーザー同士がNGN上で通信する場合、NGNの網内に閉じた形でIPv6パケット

    NGNのIPv6インターネット接続に新たな火種、ネイティブ方式ユーザーに追加料金の懸念
    t9a
    t9a 2010/08/17
  • 1