torutoのブックマーク / 2010年10月11日

HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記

日本語ウェブコーパスを処理するためのプログラムを改修しているのですが，HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので，HTML 文書からテキストを抽出するウェブサービスを公開してみました． http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は，以下の 3 種類を用意しています．入力方法 URL を入力：指定した URL からテキストを抽出します．ファイルを入力：アップロードした HTML ファイルからテキストを抽出します． HTML を入力：フォームに入力した HTML からテキストを抽出します．テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さら

はてなブックマーク

タグ

2010年10月11日のブックマーク (2件)

HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記

Percolator: 大規模データ用の逐次更新処理システム

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス