タグ

tagに関するatomoharuのブックマーク (5)

  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • タグとオントロジー

    タグとは何か del.icio.usのWhat are tags?から ブックマークなどを整理したり後で思い出すために、自分で自由に与える1語の説明 タグは階層がなく自由なので、あてがいぶちの分類に無理に合わせる苦労がなく、扱いやすい ほかの人のタグと合わせて、関心事項についての協調型レポジトリを構築できる 統制されない自由なキーワード 手軽に利用でき、新しい現象もすぐタグにできる 既存の統制語彙では新しい動きに対応できない 一方、多数のユーザが与えるキーワードには、同義語、多義語が必然的に含まれる 体系化のないフラットな空間 階層ではなく、キーワードの組み合わせで詳細概念を柔軟に表現 一方、階層を利用したグループ化や関連概念の検索はできない 統計的なグループや関連付けはある程度可能 タグのかたち 対象、ユーザ、キーワードの3大要素 タグは、タグを与える対象、タグを与えるユーザ、タグに用い

  • はてブのタギング2.0構想 - 萌え理論ブログ

    やりたいこと SBM…さしあたって現状のはてブに対する不満に、タグの管理編集機能が弱いことが挙げられます。放って置けばじわじわタグが増えて、そのうち手がつけられなくなります。編集画面は一応用意されていますが、100個以上のタグを修正する場合に、やはりストレスを感じてしまいます。そこでタギングの自動化について考えます。 具体的にどう自動化するのかというビジョンですが、タグの自然淘汰システムがあればいいなと思います*1。どういうことか。まず最初にはてブのアカウントで使えるタグ数を各ユーザが決めます。これがタグの生存空間になります。例えば100とします。そしてブクマして100を超えたときに、ブクマ数の少ないタグが他のタグに喰われます。*2 どのタグに喰われるかというのは、1.よりブクマ数の多いタグで、2.単語の部分一致など、スコアが近い文字列に喰われます。「エロゲー」が同じ「ゲー」を持つ「ゲーム

    はてブのタギング2.0構想 - 萌え理論ブログ
  • 分類することとメタデータをつけること: DESIGN IT! w/LOVE

    不確実な時代をクネクネ蛇行しながら道を切りひらく非線形型ブログ。人間の思考の形の変遷を探求することをライフワークに。 「コンテンツをその属性によってカテゴライズされているか?」 この文章って一見正しいように思われますが、厳密にいうと間違ってます。 分類する(カテゴライズする)というのは、こういうこと。 つまり、ある集合を、その種類によって分けるのが分類。 この例だと、色の種類で分けているだけですが、さらに人型の大きさが違えば、もう一段階分けることができるでしょう。 そうやって階層構造をつくれるのが分類。 一方で、属性っていうのはどちらかというとタグ付けやメタデータの付与という文脈に位置づけられるもの。むずかしい言葉で言うなら述語論理に基づくもの。ちなみに先ほどの分類は、集合論ですね。 前にも書いたけど、ようは数学的には異なる理論体系に属するので、かんたんには融合することができないわけです。

  • 2つの階層構造、2つの分類法(タクソノミーとオントロジー、あるいは、クラスとセット): DESIGN IT! w/LOVE

    不確実な時代をクネクネ蛇行しながら道を切りひらく非線形型ブログ。人間の思考の形の変遷を探求することをライフワークに。 s.h.さんの素晴らしいトラックバック「HIIにHCIのアプローチを取り入れる:『アンビエント・ファインダビリティ』を読んで思ったこと」を機にしたエントリー「HCIとHIIの階層構造、生命情報/社会情報/機械情報の階層構造」に対して、またしても、s.h.さんがとっても素敵な返信をくれました。 これはなかなかいいHHI(Hito Hito Interface)ができている w このエントリで、ユビキタスコンピューティングのアーキテクチャはフラクタルなMVCフレームワークになるという事を書こうと思う。 コンピュータシステムはデータの「入力」「処理」「出力」をするものなので、このフラクタルなMVCフレームワークはちょっと考えてみれば自明な事だと思う。 確かにコンピュータシステムは

  • 1