タグ

ソフトウェアに関するzionicのブックマーク (4)

  • 「バグの無いシステムは無い」が「開発者は成功してほしい」

    稿は取材に基づいて客観的事実を伝える報道記事ではなく,谷島個人の考えを書くコラムです。 妙な書き出しになったが,その理由は後で述べる。ITpro Watcher欄の寄稿者,小飼弾氏が書いた『(6000)人が作ったシステムは必ずどこか壊れている』という文章が5月14日付で公開された。冒頭に「ここで語っておきたいのは,ITproの報道姿勢だ」とあったのでITpro関係者として読んでみると,中身は筆者および拙稿に対する批判と苦言であった。ITproではない場所に書いた記事にも言及されているので,ITproというより筆者の「報道姿勢」が問われていることになる。 インターネットの面白い所は双方向のやり取りが簡単にできることだと思う。ご意見を寄せてくれた小飼氏にまずお礼を申し上げる。ご指名を受けた以上,すぐにお答えしないといけないと思ったものの,なかなか書けず,今日までかかってしまった。言い訳になる

    「バグの無いシステムは無い」が「開発者は成功してほしい」
    zionic
    zionic 2008/05/26
    あとで読まない
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • ITmedia Biz.ID:Webページのスクロールキャプチャを極める

    Webページの上から下まで、画面全体のスクリーンキャプチャを一発で撮る場合に便利なソフトを2ご紹介しよう。動的なページや会員制ページも簡単にキャプチャできるのだ。 Webページの画像をプレゼン資料や仕様書に貼り付ける際、スクリーンショットを撮る必要が生じる。この際、ニーズとして多いのが、Webページすべてを一発でキャプチャする機能だ。来ならスクロールしなければ見えない部分までを、1枚の画像として保存してくれる機能である。 こうした機能を持つソフトはいくつもあるが、IEコンポーネントを用いて動作するタイプと、それとは反対にブラウザの一部として動作するタイプの2種類に分けられる。前者は「url2bmp」が有名だが、ブラウザを用いずにスクリーンショットを取得するため、動的なページが取得できないのが難だ。同じ理由で、パスワードが必要な会員制サイトに対応できないことも多い。 そんなわけで、今回は

    ITmedia Biz.ID:Webページのスクロールキャプチャを極める
  • 1