本日、はてなダイアリー本文中のキーワード抽出方法を変更しました。これにより、キーワード抽出精度が向上しました。 はてなダイアリーはこれまで、ある正規表現で本文内のキーワードを抽出し、はてなキーワードへのリンクを生成していました。下記の例では「はてなダイアリー」「ブログ」「コンピュータ」「インターネット」のキーワードに対して自動的にリンクを生成しています。 このとき、単語の境界判定の誤りなどから、意図しないキーワードへリンクする場合がありました。これまで、こうしたキーワードはリンクスコアを下げることによって対応しており、はてなダイアリーの「キーワードの自動リンク設定」内の「スコアの閾値」を上げることで大部分を回避できました。 今回、キーワード抽出アルゴリズムを、形態素解析エンジン「MeCab」を使った方法に変更しました。これにより、単語の境界判定の精度が向上し、スコアの閾値を0に設定している
![本文中のキーワード抽出精度が向上しました - はてなダイアリー日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/853abad2977191fdf924424ec07712971e1530bc/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fh%2Fhatenadiary%2F20110411%2F20110411162409.png)