タグ

2014年1月1日のブックマーク (2件)

  • @IT編集部のblog : Git!? そんなの学生しか使わんよ

    2009年06月09日21:53 カテゴリ西村こぼれ話 Git!? そんなの学生しか使わんよ こんにちは、@ITの西村です。JavaOneの展示会場に出展していた「Perforce」(パフォース)が目にとまりました。プロプライエタリなソースコード管理ツールです。名前は聞いたことがありましたが、実はどんなものかよく分かっていません。Perfoceのサイトによれば、世界中の4700組織で28万人の開発者が使っているデファクトスタンダードということです。ソフトウェア開発者だけでなく、AMDやNVIDIAといったチップメーカーも入っているようです。バイナリの管理もできからという話です。最近はGitやMercurial、あるいはSubversionが話題ですが、プロプライエタリのPerforceのほうがパフォーマンスや機能、スケーラビリティでは優れているのかもしれません。私は思わずブースに近づき、担

    @IT編集部のblog : Git!? そんなの学生しか使わんよ
    omega999
    omega999 2014/01/01
  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
    omega999
    omega999 2014/01/01