タグ

ブックマーク / nabokov.blog.jp (2)

  • nabokov7; rehash : livedoor クリップのデータセットを公開しました

    January 15, 200912:22 カテゴリ公開やら広報やら livedoor クリップのデータセットを公開しました はじめての試みなので,カジュアルな悪用を防止するための心理的なハードルとして,念のため,フォームから申し込んだ人にのみURLとパスワードを通知する,という形式をとっています。 特に個人/法人/学術機関等の区別はしていません。ライブドアからのお得なお知らせとかを配信する予定もありませんので,安心してお申し込みください。 内容はすべてサイト上に公開されているデータのみですが 研究者側の,データ収集のための余計な手間を軽減する。 クローリングによるサービス側の不要な負荷を回避する。 各研究者が同じデータに基づいて実験を行うことができるので,実験の再現/追試が可能になる。 というメリットがあると考えています。 データセットの仕様 3つ以上の公開クリップがついているページへの

    tsupo
    tsupo 2009/01/15
    3つ以上の公開クリップがついているページへのクリップで,3ヶ月以上前から存在する公開クリップ / スパマやR18の除外などはしない / 6ヶ月毎に新しいcsvファイルを書き出す (次回の書き出しは2009年6月を予定)
  • nabokov7; rehash : 第二回SBM研究会 & 研究用データの公開方法

    December 07, 200801:35 カテゴリ公開やら広報やら 第二回SBM研究会 & 研究用データの公開方法 「事業者から見たソーシャルブックマーク」というタイトルで、第二回SBM研究会で発表してきました。 「SBM研究を加速・拡大するために−SBM事業者には何ができるのか 」というパネルディスカッションの前置きとして発表したものですので、研究者の方々にむけて「事業者からはソーシャルブックマークがどう見えているのか」を解説するのが主な趣旨になっています。 1. CGMを構成するサービス/ツールには、情報を創出する、付加価値を与える、消費する、という3つのレイヤがあります。 2. ソーシャルブックマークサービス(以下、SBM) は、このうち主に「情報に付加価値を与える」役目を担います。「付加価値」とは第三者による客観的な評価や情報間の関連づけなどで、この結果「人のつながり」と「情報

    tsupo
    tsupo 2008/12/08
    新聞の文章データを使ってチューニングされた形態素解析エンジンでは、最近のブログで使われるような生々しい、崩れた日本語文 (絵文字が句読点の代わりだったりするし!) がうまく処理できない → この辺、(略)
  • 1