タグ

Wikipediaとwikipediaに関するincepのブックマーク (24)

  • Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles

    Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles Japanese Page Overview “The Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles” aims mainly at supporting research and development relevant to high-performance multilingual machine translation, information extraction, and other language processing technologies. The National Institute of Information and Communications Tech

  • Japanese Wiki Corpus

    © A. C. Yu  —  Generated from the Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles which is translated by the National Institute of Information and Communications Technology (NICT) from Japanese sentences on Wikipedia, used under CC BY-SA.

    Japanese Wiki Corpus
  • 森羅 SHINRA – Wikipedia 構造化プロジェクト

    「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 新着情報 森羅プロジェクトのデータを公開します。(2024/3/13) 目次 Wikipediaの構造化 & RbCC 3種類のタスク 実施タスクリスト データ・資料ダウンロード 関連研究 コンタクト Wikipediaの構造化 & RbCC クラウドソースによって構築・更新が行われているWikipediaには、他の百科事典にはない、圧倒的な量の項目が収録されています。しかしながら、これらの項目は、あくまで人が閲覧するための構造しか持っておらず、機械可読な形で表現されているとは言えません。「森羅プロジェクト」ではこのようなWikipedia項目を、機械可読な

  • 長・短期記憶 - Wikipedia

    長・短期記憶 (LSTM) セルはデータを連続的に処理し、長時間にたってその隠れ状態を保持することができる。 長・短期記憶(ちょう・たんききおく、英: Long short-term memory、略称: LSTM)は、深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャである[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」(すなわち、チューリングマシンが計算可能なことを何でも計算できる)にするフィードバック結合を有する[2]。LSTMは(画像といった)単一のデータ点だけでなく、(音声あるいは動画といった)全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識[3]や音声認識[4][5]といった課題に適用可能である。ブルームバーグ ビジネスウィーク誌は「これらの

    長・短期記憶 - Wikipedia
  • Reentrancy (computing) - Wikipedia

    Reentrancy is a programming concept where a function or subroutine can be interrupted and then resumed before it finishes executing. This means that the function can be called again before it completes its previous execution. Reentrant code is designed to be safe and predictable when multiple instances of the same function are called simultaneously or in quick succession. A computer program or sub

    incep
    incep 2015/02/12
    "In computing, a computer program or subroutine is called reentrant if it can be interrupted in the middle of its execution and then safely called again ("re-entered") before its previous invocations complete execution."
  • GitHub - yohasebe/wp2txt: A command-line toolkit to extract text content and category data from Wikipedia dump files

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - yohasebe/wp2txt: A command-line toolkit to extract text content and category data from Wikipedia dump files
    incep
    incep 2014/04/26
    Wikipediaダンプをテキストに変換
  • Database dump progress

    If you are reading this on Wikimedia servers, please note that we have rate limited downloaders and we are capping the number of per-ip connections to 2. This will help to ensure that everyone can access the files with reasonable download times. Clients that try to evade these limits may be blocked. Our mirror sites do not have this cap. Data downloads The Wikimedia Foundation is requesting help t

  • 日本語Wikipediaエントリの係り受けデータベース

    目次 日Wikipediaエントリの係り受けデータベースとは 新着情報 ダウンロード 利用方法 利用条件 リンク 公開しているその他のオープンソースツール・言語資源 高度言語情報融合フォーラム(ALAGIN)言語資源サイト 日Wikipediaエントリの係り受けデータベースとは データベースは、日語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日語係り受けデータベース (Version 1.0)では、これらのエント

  • 日本語Wikipediaオントロジー プロジェクト日本語トップページ - OSDN

    Wikipedia は語彙網羅性および即時更新性に優れており,半構造情報資源であることからフリーテキストと比べてオントロジーとのギャップが小さいです.そのため,Wikipedia からのオントロジー学習研究が近年,盛んに行われています.しかしながら,Wikipedia はユーザ参加型という性質上,厳密な体系化が行われていないため,Wikipediaからのオントロジー学習には,多くの課題が存在しています.以上より,プロジェクトでは,日Wikipedia における様々なリソース(カテゴリツリー,一覧記事,リダイレクトリンク,Infobox, Infoboxテンプレート)から,大規模かつ汎用的なオントロジーを学習する手法を提案します. ダウンロード 最新リリース 日Wikipediaオントロジー 2013-11-7 (日付: 2013-11-11) 日Wikipediaオントロジー

    日本語Wikipediaオントロジー プロジェクト日本語トップページ - OSDN
  • Index of /jawiki/

    ../ 20240701/ 20-Aug-2024 09:30 - 20240720/ 01-Sep-2024 09:28 - 20240801/ 20-Sep-2024 09:29 - 20240820/ 01-Oct-2024 09:26 - 20240901/ 20-Oct-2024 09:29 - 20240920/ 23-Sep-2024 23:29 - 20241001/ 06-Oct-2024 01:52 - 20241020/ 23-Oct-2024 15:34 - latest/ 23-Oct-2024 15:34 -

  • 開発メモ: WikipediaのN-gram頻度DBを作る

    Wikipedia英語版の文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。 背景 英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA(Corpus of Contemporary American English)のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。 で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語

  • 転置インデックス - Wikipedia

    転置インデックス(てんちインデックス、Inverted index)とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。 情報処理テクノロジにおける転置インデックスとは、単語や数字といった内容から、それが含まれているデータベースやドキュメント群へのマッピングを保持するという、インデックス型データ構造である。ドキュメント群へのマッピングの場合、検索エンジンが実現される。転置インデックスファイルは、インデックスというよりはデータベースと呼んだほうがふさわしい場合もある。また、検索キーが単語(文字列)であり、連想配列の値が位置情報である場合、ハッシュテーブルの形態を取ることもある。 転置インデックスには大きく分けて2通りの手法がある。レコード単位転置インデックス(record level inverted in

  • SolrにWikipediaのデータを入れて遊ぶ

    概要 全文検索エンジンのSolrを使って、Wikipedia(日語版)の記事を検索する機能をさらっと作ってみる。面倒なことはすっ飛ばして、できるだけ少ない手数を選択。あと、ソースコードはJava。 注意事項として、Solrはけっこうメモリう。特にoptimize時とか、大掛かりなソート時とか。 メモリが少ないマシンでは使うと不自由するので避けた方が良いかもしれない。とりあえず手元の4G積んだマシンでは快適に動いている。 @CretedDate 2011/09/04 @Env Solr3.5.0 / lucene-gosen1.2.1 @UpdateDate 2012/02/21 Solr3.5.0に変更したりクエリの誤りを直したり Solrの導入 まずSolrをダウンロードして解凍する。 ここからダウンロード http://lucene.apache.org/solr/#getstar

  • gensimに日本語Wikipediaを取り込むためのスクリプト

  • Wikimedia Foundation

    Imagine a world in which every single human being can freely share in the sum of all knowledge.उस दुनिया की कल्पना करें जिसमें हर एक इंसान स्वतंत्र रूप से सभी ज्ञान के योग में साझा कर सकता है।Imaginez le monde dans lequel chaque être humain peut partager librement la somme de toutes les connaissances.تخيل عالما يستطيع فيه كل أنسان ان يشارك بحريه في مجموع المعرفةImagine el mundo en el que cada ser

    Wikimedia Foundation
    incep
    incep 2012/01/18
    wikipediaが・・・
  • カントールの対角線論法 - Wikipedia

    カントールの対角線論法(カントールのたいかくせんろんぽう、英: Cantor's diagonal argument)は、数学における証明テクニック(背理法)の一つ。1891年にゲオルク・カントールによって非可算濃度を持つ集合の存在を示した論文[1]の中で用いられたのが最初だとされている。 その後対角線論法は、数学基礎論や計算機科学において写像やアルゴリズム等が存在しないことを示す為の代表的な手法の一つとなり、例えばゲーデルの不完全性定理、停止性問題の決定不能性、時間階層定理といった重要な定理の証明で使われている。 対角線論法[編集] 集合による表現[編集] 対角線論法とは、以下の補題を使って定理を証明する背理法のことである。 を集合とし、をのべき集合とする。さらにをからへの写像とする。の部分集合をにより定義すると、となるは存在しない。 上の補題は以下のように示せる。となるが存在すると仮定

  • Serendipity - Wikipedia

    "Happy accident" redirects here. For other uses, see Happy Accidents. Alexander Fleming's discovery of penicillin is an oft-cited example of serendipity.[1] Serendipity is an unplanned fortunate discovery.[2] Serendipity is a common occurrence throughout the history of product invention and scientific discovery.[3] Etymology[edit] The first noted use of "serendipity" was by Horace Walpole on 28 Ja

    Serendipity - Wikipedia
    incep
    incep 2009/03/21
    A finding that occurs unintendedly.
  • パンの会 - Wikipedia

    パンの会の様子。木下杢太郎からの聞き取りにより木村荘八が描いたもの[1] パンの会(ぱんのかい)は明治時代末期の青年文芸・美術家の懇談会。 「パン」はギリシア神話に登場する牧神で、享楽の神でもある。1894年にベルリンで結成された芸術運動「パンの会」に因むものだという。 20代の芸術家たちが中心となり、浪漫派の新芸術を語り合う目的で出発し、東京をパリに、大川(隅田川)をパリのセーヌ川に見立て、月に数回、隅田河畔の西洋料理店(大川近くの小伝馬町や小網町、あるいは深川などの料理店)に集まり、青春放埓の宴を続けた。パンの会は反自然主義、耽美的傾向の新しい芸術運動の場となり、1908年末から1913年頃まで続いた。 『スバル』系の詩人、北原白秋、木下杢太郎、長田秀雄、吉井勇らと、美術同人誌『方寸』に集まっていた画家、石井柏亭(主宰)、山鼎、森田恒友、倉田白羊らが、文学と美術との交流を図って意気投

    パンの会 - Wikipedia
    incep
    incep 2009/03/18
    酒を飲みながら芸術談義などする会
  • Calculus - Wikibooks, open books for an open world

    This wikibook aims to be a high quality calculus textbook through which users can master the discipline. Standard topics such as limits, differentiation and integration are covered, as well as several others. Please contribute wherever you feel the need. You can simply help by rating individual sections of the book that you feel were inappropriately rated! Introduction Contributing Resources

  • Numerical analysis - Wikipedia

    Babylonian clay tablet YBC 7289 (c. 1800–1600 BCE) with annotations. The approximation of the square root of 2 is four sexagesimal figures, which is about six decimal figures. 1 + 24/60 + 51/602 + 10/603 = 1.41421296...[1] Numerical analysis is the study of algorithms that use numerical approximation (as opposed to symbolic manipulations) for the problems of mathematical analysis (as distinguished

    Numerical analysis - Wikipedia