タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

LanguageProcessingとWebServiceに関するpokutunaのブックマーク (2)

  • 2ちゃんねるに寄せられた質問と回答から検索できるページを作った - デー

    2ちゃんねる Q&A 検索 - QARC 人類の知の資産であるところの2ちゃんねるの過去ログから、特に有用と思われる質問と回答のやりとりを高度な自然言語処理技術を用いて抽出・アーカイブし、それらを誰もが自由に検索できるページを作りました。 僕は、feezch.infoという2ちゃんねるのパートスレを次スレまで次々に自動追跡しながらひとつのストリームとしてフィードを吐くウェブサービスを運営しているのですが、フィードの利用者がとても少ないわりに、過去ログへのアクセスがものすごくあって、そのほとんどは質問スレの回答求めて訪れる方のようなので、それなら一発で回答にアクセスできるページを作れば非常に大きな社会貢献になるのではないか、feezch.infoのコードを使えば簡単に作れるし、ビッグデータや。そう考えてこのサービスを作ることにしました。 コレを使うと、たとえば、「skyrim 水銀のインゴッ

  • HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記

    語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら

    HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記
  • 1