エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
高性能計算環境を用いた Web からの大規模格フレーム構築 河原 大輔 黒橋 禎夫 東京大学 大学院情報理工学系研究科 〒 113-8656 東京都文京区本郷 7-3-1 {kawahara,kuro}@kc.t.u-tokyo.ac.jp あらまし 本稿
記事へのコメント1件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
高性能計算環境を用いた Web からの大規模格フレーム構築 河原 大輔 黒橋 禎夫 東京大学 大学院情報理工学系研究科 〒 113-8656 東京都文京区本郷 7-3-1 {kawahara,kuro}@kc.t.u-tokyo.ac.jp あらまし 本稿
高性能計算環境を用いた Web からの大規模格フレーム構築 河原 大輔 黒橋 禎夫 東京大学 大学院情報理工... 高性能計算環境を用いた Web からの大規模格フレーム構築 河原 大輔 黒橋 禎夫 東京大学 大学院情報理工学系研究科 〒 113-8656 東京都文京区本郷 7-3-1 {kawahara,kuro}@kc.t.u-tokyo.ac.jp あらまし 本稿では、高性能計算環境を利用して、Web から大規模テキストコーパスを抽出し 、格フレームを構築す る方法について述べる。格フレームは人間のもっている常識的な知識のうちもっとも基本的なものであり、 これを自動構築するには大規模かつ偏りのないテキストが必要となる。そこで、Web から日本語文を抽出 することによって大規模コーパスを作成し 、それを用いて格フレームを構築するということを行う。約 4 億 Web ページから約 5 億文からなるテキストコーパスを作成し 、さらにこのコーパスから約 9 万用言から なる格フレームを構築した。これらの