芋づる式に検索できる、スタイリッシュなWikipediaビューアー「Wikiweb」2012.07.13 本日はみんな大好きWikipediaの情報をDiscovrっぽく楽しむことが出来るiPhone、iPad用のアプリ、「Wikiweb」を紹介したいと思います。キーワードをたどって色々な知識に触れてみましょー!広大な知識の海にレッツダイブ。 WikiwebとはWikipediaの情報を芋づる式に調べることができるビューアーです。スタイリッシュ見た目と愛嬌のある動きが楽しいオサレアプリとなっています。動きの楽しさは写真では絶対に伝わらないと思うので、できれば以下の動画を見てみてください。見れば一発で魅力をわかってもらえると思います。 使い方使い方をざっとご説明。まずは画面中央の「Tap to Search」か左上の虫眼鏡をタップ。 調べたいキーワードを入力して候補から選択します。 すると画
というわけで毎年恒例二泊三日の開発合宿を@inut,@syou6162,@twittoru,@wakuteka,@yag_aysとやってきた. 開発合宿してきます - 糞ネット弁慶 現実逃避のために開発合宿してきた - 糞ネット弁慶 合宿そのもの 卓球して 酒飲んで 温泉に入って アノテーションして 漫画を読んで という感じだった. 寝て起きたら@twittoruがコード修正しててくれたり,相手のマシンにsshしてscreen -xやってペアプロやってる人がいたりして良かった.わっせわっせと集まって色々喋りながらそれぞれのテーマに取り組むと「それ***でできるよ」とか「それ今やりました」みたいなやり取りが生まれ続けるので効率というか相互作用が良い. 二日目は丸一日文字列がアニメタイトルかそうでないかだけを判別し続けた.人力アノテーションとかそもそもやったことが無く,NLP業界の人だと「アノ
Wikipedia英語版の本文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。 背景 英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA(Corpus of Contemporary American English)のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。 で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語と
以前書いたけどいつもjavaのXMLライブラリの使い方とか忘れるので備忘録用に上げておく import java.io.File; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.store.Directory; import org.apa
この記事は、Ariel Advent Calendar 2011 の17日目の記事です。 Semantic Wikipediaとは Wikipediaに蓄積された多量の情報は、MediaWikiのWiki記法を用いて記述され ています。この記法は、人間が記述するのには適していますが、例えば機械に 意味を理解させるのには向いていません。実は、この問題は、もっと昔から、 さらに広い範囲で顕在化していました。つまりHTMLの問題です。 HTMLは、人間が記述したり、機械に読み取らせて、"機械的"に画面を構成する のには適していますが、その意味を機械に理解させるのには向いていません。 そこで考えられたのがSemantic Webというアイデアで、我々の意味理解の基盤 である論理言語を、メタ言語としてWebの世界に導入して、人間と機械とで"意 味"を共有しようという大きな目標が掲げられました。 この
突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語
「wikipediaは6回リンクを辿ればどのページでもいけるらしいwww」ということで話題になったのを受けて、その最短経路を探索するためのウェブサービス「うぃきったー」というのが登場しました。 うぃきったー http://wikitter.info/ 使い方は簡単、「スタート」に開始ページ名、「ゴール」に終了ページ名を入れて「探索開始」ボタンを押すだけ。例えば「フェイト・テスタロッサ」から「東尋坊」に、6回以内のリンクで行けるかどうかを見てみましょう。 『フェイト・テスタロッサ』→『声優』→『1990年代』→『男はつらいよ』→『東尋坊』という信じがたい経路で見事にたどり着きました。探索時間は82.88884ミリ秒。結果はそのままさくっとTwitterでつぶやくことも可能です。 また、「過去の結果」ページには以下のようにして様々な経路が記録されており、「これはすごい!」と思った場合には「スゴ
人工知能学会研究会資料 SIG-SWO-A901-04 04-01 Wikipedia カテゴリネットワークからの意外性のある関係性の抽出 A study for extracting serendipitious relations from Wikipedia category networks 野田陽平 1* 清田陽司 2 中川裕志 2 Yohei Noda1 , Yoji Kiyota2 , Hiroshi Nakagawa2 1 東京大学大学院学際情報学府 1 Graduate School of Interdisciplinary Information Studies, University of Tokyo 2 東京大学情報基盤センター 2 Information Technology Center, University of Tokyo 概要 本研究は,Wikiped
wikipediaは6回リンクを辿ればどのページでもいけるらしいwww Tweet カテゴリ☆☆☆☆ 1:以下、名無しにかわりましてVIPがお送りします:2011/08/24(水) 19:56:59.47ID:fGOf/vHu0 絶対うそだろwwwwwwwwwwwwwwwwww 2:以下、名無しにかわりましてVIPがお送りします:2011/08/24(水) 19:57:49.62ID:gsQnOI/n0 ガンダムからは6回リンクを辿っても胡麻に行けない 34:以下、名無しにかわりましてVIPがお送りします:2011/08/24(水) 20:22:29.18ID:eedl+ifE0 >>2 ガンダム→ナパーム弾→パーム油→揚げる→ごま油→ゴマ(胡麻) 105:以下、名無しにかわりましてVIPがお送りします:2011/08/24(水) 20:53:42.50ID:mhoZV/Sb0 >>34天
Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日本のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合
This article is about the internet bot. For the search engine, see WebCrawler. "Web spider" redirects here. Not to be confused with Spider web. "Spiderbot" redirects here. For the video game, see Arac (video game). Architecture of a Web crawler A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and
English · Ænglisc · Bahasa Indonesia · Bahasa Melayu · Basa Bali · Bân-lâm-gú · Banjar · català · español · Esperanto · euskara · français · galego · italiano · Jawa · lietuvių · Mirandés · occitan · português · română · Soomaaliga · suomi · Türkçe · vèneto · Zazaki · Ελληνικά · беларуская (тарашкевіца) · български · македонски · հայերեն · अंगिका · नेपाल भाषा · नेपाली · मराठी · हिन्दी · বাংলা · ਪੰ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く