2010年6月27日のブックマーク (2件)

  • WebサイトをePubファイル化·Repub MOONGIFT

    RepubはRuby製のオープンソース・ソフトウェア。iPadKindleの登場によって電子書籍市場がにわかに慌ただしくなっている。既存の書籍、雑誌、単行などを電子書籍化するのが一般的になっているが、ネット上にも既に膨大な文書データが存在する。 データを取得しているところ 例えばニュースサイトやメディアサイトを電子書籍化すれば、オフラインでも閲覧できるようになる。Webサイトを印刷したりPDFにするように、電子書籍にできたとすればコンテンツは無限とも言えるだろう。それを可能にするのがRepubだ。 RepubはRubygemsを使ってインストールするソフトウェアで、repubコマンドにURLを引数として渡せばデータを取得し、ePubファイルとして出力する。XPathを使って取得部分を操作したり、執筆者情報などを付与することも可能だ。スタイルシートの設定もできる。 できあがった電子書籍

    WebサイトをePubファイル化·Repub MOONGIFT
  • 第1回 機械学習 ことはじめ | gihyo.jp

    次のサービスや製品はどれも身近にありますが、これらに共通していることはなんでしょう。 Amazonの「この商品を買った人はこんな商品も買っています」 はてなブックマークの「関連エントリー」 Google 翻訳 Google 日本語入力 メールクライアントのスパムフィルタ デジタルカメラの自動顔認識 ニンテンドーDSの手書き文字認識 買い物履歴、ユーザが書いたコメントやタグ、Webに無数にあるページ、メール、画像や動画と対象はそれぞれ異なっていますが、どれも「データから有益な情報を取り出す」ということを行っています。 これらは「機械学習」という技術を使って実現されているのです。 機械学習の応用範囲 機械学習は冒頭で挙げた以外にも、様々な分野で使われています。 例えば、ノイズ除去や特徴の抽出を目的とした利用パターンがあります。音声認識や画像認識、文字認識(OCR)などはその代表格です。それらも

    第1回 機械学習 ことはじめ | gihyo.jp