タグ

Wikipediaに関するaidiaryのブックマーク (18)

  • Wikipedia:List of academic studies about Wikipedia - Wikipedia

    Reviews[edit] Remy, Melanie (2002). Wikipedia: The Free Encyclopedia. Online Information Review 26(6):434. Emerald Levack, Kinley (2003). If Two Heads Are Better than One, Try 7,000 with Wikipedia. Econtent Magazine 26(4):12–13, April 2003. [1] Crawford, Walt; Wikipedia and Worth. Cites & Insights, Oct 2004[2]. Crawford, Walt; Wikipedia and Worth [Revisited]. Cites & Insights, Feb 2005[3]. Denning

    aidiary
    aidiary 2011/05/30
    Wikipediaに関する学術研究の文献リスト
  • 上位下位関係抽出ツール Version1.0: Hyponymy extraction tool

    上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次 上位下位関係抽出ツールとは 新着情報 注意事項 ダウンロード 動作環境 実行 機械学習用モデルファイル 実行結果 オプション引数 ディレクトリ構成 実行コマンド入力例 抽出上位下位関係数 参考文献 Copyright 上位下位関係抽出ツールとは 上位下位関係抽出ツールは,Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです. 上位下位関係とは,"XはYの一種(一つ)である"と言えるXとYの関係を言います. Xのことを下位語,Yのことを上位語と呼びます. 別の言い方をしますと,上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例)」の関係を持つ語の対となります. 抽出できる上位下位関係の

  • はてなキーワードの半数はWikipediaにない?(続報)

    http://anond.hatelabo.jp/20080718143701思い出したので、またウィキペディアとはてなキーワードの数を比べてみた。比較結果2008-07-18でのエントリ数2008-11-18でのエントリ数成長率Wikipedia8061348471375.08%はてなキーワード2150302247024.50%Wikipediaはてなダイアリーキーワード1135841191104.86%←共通部分Wikipedia - はてなダイアリーキーワード6925507280275.12%←Wikipedia独自の分はてなダイアリーキーワード - Wikipedia1014461056004.09%←はてな独自の分考察全体的に3ヶ月で5%程度の伸び。「はてなキーワード独自部分」の伸びが弱い。はてなキーワード 4.50%に対してウィキペディア5.08%と、エントリ総数の成長率

  • 手抜き固有表現抽出の試行 - ねがとんのねごと

    そのうち、ついったーの人工無能を作ろうと思っているので今回はその前段階。 ついったーのログを解析しようとすると、固有表現*1の扱いが結構面倒なことになりそうだなぁと思ったので、その扱いについて少し工夫出来ないか?と考えた。 固有表現抽出に関しては一般的には単語の前後のつながりなどを学習とかして統計的に処理・抽出するのが一般的なのかなぁと思う訳ですが、そもそも適当にbot作りたいだけなのにそんな小難しいことをやりたくない! そこで「Wikipediaの見出し語を辞書として使えば、とりあえず普通の辞書に載ってないような固有名詞が沢山使えるようになるんじゃないの?」と思ってとりあえずやってみた。*2 というのが今回のお話。 Wikipediaのデータの準備 まず下準備としてWikipediaのページ名一覧を取ってくる必要がある訳ですが、これは実はWikipedia側で用意してくれているので大変便

    手抜き固有表現抽出の試行 - ねがとんのねごと
    aidiary
    aidiary 2010/11/15
    Wikipediaの見出し語をMeCabの辞書に
  • Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

    タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++mapのような二分探索木を使ってもO(N

    Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
    aidiary
    aidiary 2010/05/25
    単語頻度のカウントの高速化
  • Wikipediaによるテキストマイニング入門 - nokunoの日記

    発表してきました。第4回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) ?WEB祭り? : ATNDDatamining04 textminingView more presentations from nokuno.処理に使ったコードはこちらにあります。 nokuno - Project Hosting on Google Code

  • blog@ongmap.com » Wikipedia API

    Make 12 monthly payments Pay 0% interest Start using the domain today. See details

    blog@ongmap.com » Wikipedia API
    aidiary
    aidiary 2009/09/08
    位置情報からWikipedia記事を検索
  • WP2TXT: Wikipedia to Text Converter

    WP2TXT: Wikipedia to Text Converter ソフトウェアは無保証です。ライセンスを確認の上、自己責任で使用してください。 ドキュメントは書きかけです。以下の仕様は今後変更する可能性があります。 1. はじめに WP2TXT は BZ2 圧縮された Wikipedia データダンプ XML ファイルからテキストデータを抽出し、コーパス言語学の研究などに 適した形式に整形します。通常のテキストフィルタと異なり、言語研究に主眼を置いて いるため「センテンス」の形式を備えた文字列のみを取り出します。 現在はWikipedia語版にのみ対応しています。 WP2TXT は Ruby 言語によって作成されており、 wxRuby ライブラリによる WindowsGUI インタフェイスを備えています。また Linux などではコマンドラインプログラム とし

  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
  • Wikipediaのリダイレクトを使って同義語とれるかな - のんびり読書日記

    wikipediaは同義語の単語(「ASIA」と「アジア」とか)は、代表的な単語にリダイレクトするようになっています。つまりリダイレクト関係にある単語は、大抵は同じ意味であることが期待されます。そこでこのリダイレクト関係を使って、同義語を抽出してみようと思います。 実際に作成したスクリプトは以下の通りです。 #!/usr/bin/perl # # wikipediaのリダイレクトを使って同義語を抽出 # # Usage: # % bzcat jawiki-latest-pages-articles.xml.bz2 | ./redirect_words.pl > result.tsv # # 参考ページ: # [を] Wikipediaのキーワードリンクを使って関連語データを作ってみた # http://chalow.net/2007-06-09-3.html # use strict; u

    Wikipediaのリダイレクトを使って同義語とれるかな - のんびり読書日記
  • Category tree - Wikipedia

    aidiary
    aidiary 2009/07/03
    英語版Wikipediaのカテゴリー構造を検索できる
  • Wikipediaデータ解析ツールWik-IE

    Wik-IEはWikipediaで公開されているデータファイルを解析するJavaで書かれたツールです。 記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなどの情報を抽出します。 バージョン2.0から実行できる機能や、実行方法が変わりました。 また分散処理版とスタンドアロン版の区別をなくしました。1つのjarファイルでどちらの用途にも利用できます。 Wik-IEとは 要件 機能 使い方 ライセンス Wik-IEとは Wikipediaではその全データが誰でもダウンロード可能な形で公開されています。 そのデータファイルを解析し、記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなど、様々な情報を抽出するツールがWik-IEです。 Wik-IEはApache Hadoopプラットフォーム上での動作し、分散処理により高速で処理ができます。スタンドアロンでの動作も可能です。 要件 Wi

  • BVOP™ Business Value-Oriented Principles©

    Why do organizations need to adopt the BVOP now? BVOP™ transforms the way organizations manage both their projects and people. BVOP™ is a superset for organizational, project, product, and people management. The BVOP can be applied to any Agile or Waterfall methodologies directly or modified depending on your needs. The goals of the BVOP are to increase productivity, reduce wastes, and improve peo

    BVOP™ Business Value-Oriented Principles©
    aidiary
    aidiary 2009/05/18
    Wikipediaに関する研究
  • セマンティックウェブとオントロジー研究会

    【終了しました】第46回SWO研究会 発表募集 ■日時:2018年11月25日(日) 14:00-18:00 ■会場:淡路夢舞台国際会議場(地図) ■参加費:無料 ■発表申込しめきり:2018年10月22日(月) ■原稿提出しめきり:2018年11月19日(月) ■発表・参加募集:http://www.sigswo.org/papers/46cfp ■プログラム:http://www.sigswo.org/papers/46program

    aidiary
    aidiary 2009/05/18
    Wikipedia間イニング
  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

    aidiary
    aidiary 2009/05/14
    Wikipediaの見出し語や記事のダウンロードサイト
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
    aidiary
    aidiary 2008/07/07
    Wikipediaデータを用いてシソーラスを構築
  • ジェフ・ホーキンス - Wikipedia

    ジェフ・ホーキンス(eTech 2007) ジェフ・ホーキンス(Jeff Hawkins, 1957年6月1日 - )は、パーム (Palm) とハンドスプリング (Handspring) の創始者である。ニューヨーク州ロングアイランド生まれ。 パームではPalmを、ハンドスプリングではTreoをそれぞれ考案した[1]。 その後は神経科学について従事するようになり、レッドウッド神経科学研究所[1]を設立。脳について独自の自己連想記憶(英語版)理論を唱え、『考える脳 考えるコンピューター』を著した。 電気工学の学士号をコーネル大学より取得。2003年には「ハンドヘルドコンピューティングという概念を打ち立て、初めて商業的に成功したその装置を作りあげた」ことにより、米国工学アカデミー(英語版)会員に選ばれた。 神経科学[編集] 『サイエンティフィック・アメリカン』の脳特集号を読んで以来、脳がどの

    ジェフ・ホーキンス - Wikipedia
  • Category:人工知能 - Wikipedia

    このカテゴリ下にあるページは、該当する適切なサブカテゴリに移動してください。 このカテゴリは大きくなり過ぎないように継続的なメンテナンスが求められています。このカテゴリの下位にある適切なカテゴリに項目を移動してください。

  • 1