タグ

webとことばに関するnavecinのブックマーク (2)

  • 帯:日本語テキストの難易度推定

    難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用いています。 >>使用した教科書リストを見る(エクセルファイル) プログラムは、まず、それぞれの難易度に対する尤度を、文字の生起確率(文字のunigram)に基づいて計算します。 得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。 実際の難易度の計算は、もう少し複雑です。 あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。 理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。 そこで、これら13個の値に対して、スムージングを適用します。 スムージングによって得られた結果を、青線(3次多項式)および赤線(2次多項式)で示しています。 スムージングを適用した結果に対しても、最大

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

  • 1