[B! LanguageProcessing][WebService] pokutunaのブックマーク

pokutuna id:pokutuna

LanguageProcessingとWebServiceに関するpokutunaのブックマーク (2)

２ちゃんねるに寄せられた質問と回答から検索できるページを作った - デー
２ちゃんねる Q&A 検索 - QARC 人類の知の資産であるところの２ちゃんねるの過去ログから、特に有用と思われる質問と回答のやりとりを高度な自然言語処理技術を用いて抽出・アーカイブし、それらを誰もが自由に検索できるページを作りました。僕は、feezch.infoという２ちゃんねるのパートスレを次スレまで次々に自動追跡しながらひとつのストリームとしてフィードを吐くウェブサービスを運営しているのですが、フィードの利用者がとても少ないわりに、過去ログへのアクセスがものすごくあって、そのほとんどは質問スレの回答求めて訪れる方のようなので、それなら一発で回答にアクセスできるページを作れば非常に大きな社会貢献になるのではないか、feezch.infoのコードを使えば簡単に作れるし、ビッグデータや。そう考えてこのサービスを作ることにしました。コレを使うと、たとえば、「skyrim 水銀のインゴッ
pokutuna 2012/02/11
WebService

LanguageProcessing
リンク
HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記
日本語ウェブコーパスを処理するためのプログラムを改修しているのですが，HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので，HTML 文書からテキストを抽出するウェブサービスを公開してみました． http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は，以下の 3 種類を用意しています．入力方法 URL を入力：指定した URL からテキストを抽出します．ファイルを入力：アップロードした HTML ファイルからテキストを抽出します． HTML を入力：フォームに入力した HTML からテキストを抽出します．テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さら
pokutuna 2010/11/02
WebService

HTML

LanguageProcessing
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx