[B! Wikipedia] aidiaryのブックマーク

Wikipedia:List of academic studies about Wikipedia - Wikipedia

Reviews[edit] Remy, Melanie (2002). Wikipedia: The Free Encyclopedia. Online Information Review 26(6):434. Emerald Levack, Kinley (2003). If Two Heads Are Better than One, Try 7,000 with Wikipedia. Econtent Magazine 26(4):12–13, April 2003. [1] Crawford, Walt; Wikipedia and Worth. Cites & Insights, Oct 2004[2]. Crawford, Walt; Wikipedia and Worth [Revisited]. Cites & Insights, Feb 2005[3]. Denning

aidiary 2011/05/30

Wikipediaに関する学術研究の文献リスト

Wikipedia

リンク

上位下位関係抽出ツール Version1.0: Hyponymy extraction tool

上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次上位下位関係抽出ツールとは新着情報注意事項ダウンロード動作環境実行機械学習用モデルファイル実行結果オプション引数ディレクトリ構成実行コマンド入力例抽出上位下位関係数参考文献 Copyright 上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです．上位下位関係とは，"XはYの一種(一つ)である"と言えるXとYの関係を言います． Xのことを下位語，Yのことを上位語と呼びます．別の言い方をしますと，上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例）」の関係を持つ語の対となります．抽出できる上位下位関係の

aidiary 2010/12/29

Wikipedia

リンク

はてなキーワードの半数はWikipediaにない？（続報）

http://anond.hatelabo.jp/20080718143701思い出したので、またウィキペディアとはてなキーワードの数を比べてみた。比較結果2008-07-18でのエントリ数2008-11-18でのエントリ数成長率Wikipedia8061348471375.08%はてなキーワード2150302247024.50%Wikipedia ∩ はてなダイアリーキーワード1135841191104.86%←共通部分Wikipedia - はてなダイアリーキーワード6925507280275.12%←Wikipedia独自の分はてなダイアリーキーワード - Wikipedia1014461056004.09%←はてな独自の分考察全体的に3ヶ月で5%程度の伸び。「はてなキーワード独自部分」の伸びが弱い。はてなキーワード 4.50%に対してウィキペディア5.08%と、エントリ総数の成長率

aidiary 2010/11/22

Wikipedia

リンク

手抜き固有表現抽出の試行 - ねがとんのねごと

そのうち、ついったーの人工無能を作ろうと思っているので今回はその前段階。ついったーのログを解析しようとすると、固有表現*1の扱いが結構面倒なことになりそうだなぁと思ったので、その扱いについて少し工夫出来ないか？と考えた。固有表現抽出に関しては一般的には単語の前後のつながりなどを学習とかして統計的に処理・抽出するのが一般的なのかなぁと思う訳ですが、そもそも適当にbot作りたいだけなのにそんな小難しいことをやりたくない！そこで「Wikipediaの見出し語を辞書として使えば、とりあえず普通の辞書に載ってないような固有名詞が沢山使えるようになるんじゃないの？」と思ってとりあえずやってみた。*2 というのが今回のお話。 Wikipediaのデータの準備まず下準備としてWikipediaのページ名一覧を取ってくる必要がある訳ですが、これは実はWikipedia側で用意してくれているので大変便

aidiary 2010/11/15

Wikipediaの見出し語をMeCabの辞書に

リンク

Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N

aidiary 2010/05/25

単語頻度のカウントの高速化

リンク

Wikipediaによるテキストマイニング入門 - nokunoの日記

発表してきました。第４回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#4) ?WEB祭り? : ATNDDatamining04 textminingView more presentations from nokuno.処理に使ったコードはこちらにあります。 nokuno - Project Hosting on Google Code

aidiary 2010/05/21

リンク

blog@ongmap.com » Wikipedia API

Make 12 monthly payments Pay 0% interest Start using the domain today. See details

aidiary 2009/09/08

位置情報からWikipedia記事を検索

Wikipedia

リンク

WP2TXT: Wikipedia to Text Converter

WP2TXT: Wikipedia to Text Converter 本ソフトウェアは無保証です。ライセンスを確認の上、自己責任で使用してください。本ドキュメントは書きかけです。以下の仕様は今後変更する可能性があります。 1. はじめに WP2TXT は BZ2 圧縮された Wikipedia データダンプ XML ファイルからテキストデータを抽出し、コーパス言語学の研究などに適した形式に整形します。通常のテキストフィルタと異なり、言語研究に主眼を置いているため「センテンス」の形式を備えた文字列のみを取り出します。現在はWikipedia 日本語版にのみ対応しています。 WP2TXT は Ruby 言語によって作成されており、 wxRuby ライブラリによる Windows 用 GUI インタフェイスを備えています。また Linux などではコマンドラインプログラムとし

aidiary 2009/07/06

Wikipedia

リンク

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

aidiary 2009/07/06

Wikipedia

リンク

Wikipediaのリダイレクトを使って同義語とれるかな - のんびり読書日記

wikipediaは同義語の単語(「ASIA」と「アジア」とか)は、代表的な単語にリダイレクトするようになっています。つまりリダイレクト関係にある単語は、大抵は同じ意味であることが期待されます。そこでこのリダイレクト関係を使って、同義語を抽出してみようと思います。実際に作成したスクリプトは以下の通りです。 #!/usr/bin/perl # # wikipediaのリダイレクトを使って同義語を抽出 # # Usage: # % bzcat jawiki-latest-pages-articles.xml.bz2 | ./redirect_words.pl > result.tsv # # 参考ページ: # [を] Wikipediaのキーワードリンクを使って関連語データを作ってみた # http://chalow.net/2007-06-09-3.html # use strict; u

aidiary 2009/07/05

Wikipedia

リンク

Category tree - Wikipedia

aidiary 2009/07/03

英語版Wikipediaのカテゴリー構造を検索できる

Wikipedia

リンク

Wikipediaデータ解析ツールWik-IE

Wik-IEはWikipediaで公開されているデータファイルを解析するJavaで書かれたツールです。記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなどの情報を抽出します。バージョン2.0から実行できる機能や、実行方法が変わりました。また分散処理版とスタンドアロン版の区別をなくしました。1つのjarファイルでどちらの用途にも利用できます。 Wik-IEとは要件機能使い方ライセンス Wik-IEとは Wikipediaではその全データが誰でもダウンロード可能な形で公開されています。そのデータファイルを解析し、記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなど、様々な情報を抽出するツールがWik-IEです。 Wik-IEはApache Hadoopプラットフォーム上での動作し、分散処理により高速で処理ができます。スタンドアロンでの動作も可能です。要件 Wi

aidiary 2009/06/30

Wikipedia

リンク

BVOP™ Business Value-Oriented Principles©

Why do organizations need to adopt the BVOP now? BVOP™ transf orms the way organizations manage both their projects and people. BVOP™ is a superset for organizational, project, product, and people management. The BVOP can be applied to any Agile or Waterfall methodologies directly or modified depending on your needs. The goals of the BVOP are to increase productivity, reduce wastes, and improve peo

aidiary 2009/05/18

Wikipediaに関する研究

リンク

セマンティックウェブとオントロジー研究会

【終了しました】第46回SWO研究会発表募集 ■日時：2018年11月25日(日) 14:00-18:00 ■会場：淡路夢舞台国際会議場（地図） ■参加費：無料 ■発表申込しめきり：2018年10月22日(月) ■原稿提出しめきり：2018年11月19日(月) ■発表・参加募集：http://www.sigswo.org/papers/46cfp ■プログラム：http://www.sigswo.org/papers/46program

aidiary 2009/05/18

Wikipedia間イニング

リンク

Wikipedia:データベースダウンロード - Wikipedia

ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています（Wikipedia:著作権と利用規約を参照）。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。より詳しい解説はmeta:Data dumps（英語）を参照してください。全プロジェクトのダンプ：du

aidiary 2009/05/14

Wikipediaの見出し語や記事のダウンロードサイト

Wikipedia

リンク

Wikipediaのキーワードリンクを使って関連語データを作ってみた

Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ（関連キーワード集）を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。日本のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。（スクリプトはこの記事の末尾に載せておく） (1) 各キーワードページに含まれているキーワード（リンク）を取り出す。例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。またキーワードAが他のキーワードのページ（例えばX）に含まれていたら、それも蓄積。その場合

aidiary 2008/07/07

Wikipediaデータを用いてシソーラスを構築

リンク

ジェフ・ホーキンス - Wikipedia

ジェフ・ホーキンス（eTech 2007）ジェフ・ホーキンス（Jeff Hawkins, 1957年6月1日 - ）は、パーム (Palm) とハンドスプリング (Handspring) の創始者である。ニューヨーク州ロングアイランド生まれ。パームではPalmを、ハンドスプリングではTreoをそれぞれ考案した[1]。その後は神経科学について従事するようになり、レッドウッド神経科学研究所[1]を設立。脳について独自の自己連想記憶（英語版）理論を唱え、『考える脳考えるコンピューター』を著した。電気工学の学士号をコーネル大学より取得。2003年には「ハンドヘルドコンピューティングという概念を打ち立て、初めて商業的に成功したその装置を作りあげた」ことにより、米国工学アカデミー（英語版）会員に選ばれた。神経科学[編集] 『サイエンティフィック・アメリカン』の脳特集号を読んで以来、脳がどの