タグ

2013年7月2日のブックマーク (3件)

  • Ruby で Web ページの本文を抽出する方法 - present

    ExtractContent を使えばいい。 Webページの文抽出 (nakatani @ cybozu labs) ただ、上の記事の ExtractContent は Ruby1.9 以上では動かなかった。正規表現エンジンが変わったからね…。 無ければ自分で修正することを前提に、GitHub で探したら、案の定 1.9 対応版を発見した。 mono0x/extractcontent 試しにこれを使ってみよう。 Gemfile に gem "extractcontent", github: "mono0x/extractcontent" を追加し、bundle でインストール。 使い方は簡単で、文を抽出したい HTML を ExtractContent.analyse メソッドに渡すだけ。タイトルと文が返ってきた。 # coding: utf-8 require "open-uri"

    Ruby で Web ページの本文を抽出する方法 - present
    tanakaBox
    tanakaBox 2013/07/02
    元記事も。
  • Google App Engine互換のオープンソース実装「CapeDwarf」公開。GoogleとRed Hatが共同で - Publickey

    Google App Engine互換のオープンソース実装「CapeDwarf」公開。GoogleとRed Hatが共同で Google App Engineと互換性のあるミドルウェアをJBOSS Application Server上で実現するオープンソースのソフトウェア「CapeDwarf」が公開されました。 これまでGoogle App Engineに対応したアプリケーションはほかのプラットフォームでは実行できませんでしたが、CapeDwarfを利用することでオンプレミスやプライベートクラウドでもGoogle App Engineのアプリケーションを実行できるようになります。 App Engineの物のテストツールでテスト CapeDwarfの開発は、Google Cloud PlatformのチームとRed HatのJBOSSチームが協力して行いました。特にGoogleからはGo

    Google App Engine互換のオープンソース実装「CapeDwarf」公開。GoogleとRed Hatが共同で - Publickey
    tanakaBox
    tanakaBox 2013/07/02
    おぉ?
  • “第3のメモリー”の衝撃、ストレージとDBが一変する

    出典:日経コンピュータ 2012年12月20日号 pp.70-77 (記事は執筆時の情報に基づいており、現在では異なる場合があります) 2012年、DRAMでもフラッシュメモリーでもない“第3のメモリー”の量産出荷が始まった。DRAM並みに高速でありながら、フラッシュ同様に電源をオフにしてもデータが消えない「新世代不揮発性メモリー」だ。新メモリーによってコンピュータのアーキテクチャーは激変し、入出力(I/O)の大幅な高速化が実現すると共に、消費電力は激減する。 コンピュータには、高速だが電源をオフにするとデータが消える「主記憶装置(メインメモリー)」と、低速だがデータが消えない「外部記憶装置(ストレージ)」という2種類の記憶装置がある。 こんなコンピュータアーキテクチャーの常識が一変する可能性が出てきた。DRAM並みに高速でありながら不揮発性を備えた「新世代不揮発性メモリー」の量産出荷が始

    tanakaBox
    tanakaBox 2013/07/02
    楽しみだ。