タグ

N-gramに関するskozawaのブックマーク (2)

  • YANS2014 N-Gram Weighting Model

    情報距離に基づく 単語 N-gram の 大域的重み付け手法 白川真澄, 原隆浩, 西尾章治郎 大阪大学 大学院情報科学研究科 NLP若手の会 (YANS) 第9回シンポジウム@マホロバマインズ三浦,2014年9月22日(月) 研究の三つの貢献 IDFと情報距離 (Information Distance) の関係性の解明 情報距離に基づく単語N-gramの大域的重み付け手法の提案 拡張接尾辞配列とウェーブレット木による効率的な計算方法の実装 2 研究背景 3 語の重み付け (Term Weighting) 4 TF-IDF 局所的重み 大域的重み 対象の語が今注目している 文書でどの程度重要か 対象の語が一般的に どの程度重要か 語の重みは出現する 文書によって変動 語の重みは出現する 文書によらず固定 語の重み付け手法 5 TF-IDF �� ��, �� = ����(��, �

  • 言語モデル配布ページ

    このページでは、ウェブデータ、現代日語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。 コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロード コーパス ここでは、N-gramを作成するために利用したコーパスについて説明します。 ウェブコーパス: ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。 現代日語書き言葉コーパス: 現代日語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。 コーパスの統計情報 各コーパスに関する文数、単語数、文字数について次の

  • 1