タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

テキストに関するmziのブックマーク (1)

  • HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記

    語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら

    HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記
  • 1