タグ

2010年10月12日のブックマーク (2件)

  • 人は長いこと病んでいる人間には冷酷だ - 腐フェミニスト記-801 Feminist Diary-

    日記 人は長いこと病んでいる人間には冷酷だ。終わりに見える病には寛容だけれども。 長いこと病んでいる人と付き合うと、その病ゆえにその人といるときはさまざまな制約が付きまとう。病んでいる人のめんどうなことに付き合うのが嫌になる。「またかよ、」と白々とした気持ちになる。 その白々とした人々にまだすがりたいものは、もっともっと蝕まれることを欲するだろう。 病む人は助けを求めるが、助ける能力のある人までたどりつくことは稀だ。 病む人はさまよう。 病む人が蝕まれるのは、その責を自ら引き受けるには重過ぎるからだ。そのからだには耐え切れぬものだから。 だから、他人にも少しは引き受けて欲しいと考えたりする。 しかし、誰もその「責」を引き受けられる者はいない。病はその人のからだに深くい込んでいる。 すがられたくないのなら、突き放さないかぎり、病につけこまれるだろう。 時に病む人は同じ病に蝕まれる人に理解さ

  • HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記

    語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら

    HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記
    simsons
    simsons 2010/10/12
    テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さらに,平仮名の割合が極端に低い文や英