[B! NLP][wikipedia] incepのブックマーク

GitHub - yohasebe/wp2txt: A command-line toolkit to extract text content and category data from Wikipedia dump files

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

incep 2014/04/26

Wikipediaダンプをテキストに変換

リンク

日本語Wikipediaエントリの係り受けデータベース

目次日本語Wikipediaエントリの係り受けデータベースとは新着情報ダウンロード利用方法利用条件リンク公開しているその他のオープンソースツール・言語資源高度言語情報融合フォーラム（ALAGIN）言語資源サイト日本語Wikipediaエントリの係り受けデータベースとは本データベースは、日本語の大量（約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日）のWeb文書から、Wikipediaの記事のタイトル（エントリ）の内、二文節以上のもの（例：「三保の松原」「風と共に去りぬ」）に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム（ALAGIN）で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエント

incep 2013/02/02

リンク

日本語Wikipediaオントロジープロジェクト日本語トップページ - OSDN

Wikipedia は語彙網羅性および即時更新性に優れており，半構造情報資源であることからフリーテキストと比べてオントロジーとのギャップが小さいです．そのため，Wikipedia からのオントロジー学習研究が近年，盛んに行われています．しかしながら，Wikipedia はユーザ参加型という性質上，厳密な体系化が行われていないため，Wikipediaからのオントロジー学習には，多くの課題が存在しています．以上より，本プロジェクトでは，日本語Wikipedia における様々なリソース（カテゴリツリー，一覧記事，リダイレクトリンク，Infobox, Infoboxテンプレート）から，大規模かつ汎用的なオントロジーを学習する手法を提案します．ダウンロード最新リリース日本語Wikipediaオントロジー 2013-11-7 (日付: 2013-11-11) 日本語Wikipediaオントロジー

incep 2013/02/02

リンク

Index of /jawiki/

../ 20240401/ 20-May-2024 09:28 - 20240420/ 20-Jun-2024 09:27 - 20240501/ 01-Jul-2024 09:29 - 20240601/ 20-Jul-2024 09:31 - 20240620/ 01-Aug-2024 09:28 - 20240701/ 05-Jul-2024 15:01 - 20240720/ 23-Jul-2024 12:05 - 20240801/ 17-Aug-2024 12:35 - latest/ 17-Aug-2024 12:35 -

incep 2013/02/01

リンク

開発メモ: WikipediaのN-gram頻度DBを作る

Wikipedia 英語版の本文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。背景英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA（Corpus of Contemporary American English）のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語と