You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
目次 日本語Wikipediaエントリの係り受けデータベースとは 新着情報 ダウンロード 利用方法 利用条件 リンク 公開しているその他のオープンソースツール・言語資源 高度言語情報融合フォーラム(ALAGIN)言語資源サイト 日本語Wikipediaエントリの係り受けデータベースとは 本データベースは、日本語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエント
Wikipedia は語彙網羅性および即時更新性に優れており,半構造情報資源であることからフリーテキストと比べてオントロジーとのギャップが小さいです.そのため,Wikipedia からのオントロジー学習研究が近年,盛んに行われています.しかしながら,Wikipedia はユーザ参加型という性質上,厳密な体系化が行われていないため,Wikipediaからのオントロジー学習には,多くの課題が存在しています.以上より,本プロジェクトでは,日本語Wikipedia における様々なリソース(カテゴリツリー,一覧記事,リダイレクトリンク,Infobox, Infoboxテンプレート)から,大規模かつ汎用的なオントロジーを学習する手法を提案します. ダウンロード 最新リリース 日本語Wikipediaオントロジー 2013-11-7 (日付: 2013-11-11) 日本語Wikipediaオントロジー
../ 20240401/ 20-May-2024 09:28 - 20240420/ 20-Jun-2024 09:27 - 20240501/ 01-Jul-2024 09:29 - 20240601/ 20-Jul-2024 09:31 - 20240620/ 01-Aug-2024 09:28 - 20240701/ 05-Jul-2024 15:01 - 20240720/ 23-Jul-2024 12:05 - 20240801/ 17-Aug-2024 12:35 - latest/ 17-Aug-2024 12:35 -
Wikipedia英語版の本文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。 背景 英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA(Corpus of Contemporary American English)のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。 で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語と
2 Approaches: Symbolic, statistical, neural networks
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く