タグ

ブックマーク / kotoba.nuee.nagoya-u.ac.jp (3)

  • 帯2:日本語テキストの難易度推定

    難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用いています。 プログラムは、まず、それぞれの難易度に対する尤度を、連続する2文字の生起確率(文字bigram)に基づいて計算します。 得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。 実際の難易度の計算は、もう少し複雑です。 あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。 理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。 そこで、これら13個の値に対して、スムージングを適用します。 スムージングによって得られた結果を、青線(4次多項式)および赤線(2次多項式)で示しています。 スムージングを適用した結果に対しても、最大の尤度をとる難易度を求めます。 こうして、難易

    帯2:日本語テキストの難易度推定
  • 帯:日本語テキストの難易度推定

    難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用いています。 >>使用した教科書リストを見る(エクセルファイル) プログラムは、まず、それぞれの難易度に対する尤度を、文字の生起確率(文字のunigram)に基づいて計算します。 得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。 実際の難易度の計算は、もう少し複雑です。 あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。 理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。 そこで、これら13個の値に対して、スムージングを適用します。 スムージングによって得られた結果を、青線(3次多項式)および赤線(2次多項式)で示しています。 スムージングを適用した結果に対しても、最大

    kakei
    kakei 2012/12/11
  • 日本語テキストの難易度を測る

    チャートの表示: 表示する      表示しない カタカナを考慮: カタカナを無視する カタカナを考慮する  貢献度の表示:  表示しない     文字単位       文字クラス単位 ことば不思議箱 - 佐藤研究室 - (c) Satoshi Sato and his laboratory at Nagoya University, 2007-2008.

    kakei
    kakei 2012/07/12
  • 1