タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

nlpとhatenaに関するhiromarkのブックマーク (2)

  • はてなブックマークのトピックページの裏側 - Hatena Developer Blog

    こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ

    はてなブックマークのトピックページの裏側 - Hatena Developer Blog
  • 本文中のキーワード抽出精度が向上しました - はてなダイアリー日記

    日、はてなダイアリー文中のキーワード抽出方法を変更しました。これにより、キーワード抽出精度が向上しました。 はてなダイアリーはこれまで、ある正規表現で文内のキーワードを抽出し、はてなキーワードへのリンクを生成していました。下記の例では「はてなダイアリー」「ブログ」「コンピュータ」「インターネット」のキーワードに対して自動的にリンクを生成しています。 このとき、単語の境界判定の誤りなどから、意図しないキーワードへリンクする場合がありました。これまで、こうしたキーワードはリンクスコアを下げることによって対応しており、はてなダイアリーの「キーワードの自動リンク設定」内の「スコアの閾値」を上げることで大部分を回避できました。 今回、キーワード抽出アルゴリズムを、形態素解析エンジン「MeCab」を使った方法に変更しました。これにより、単語の境界判定の精度が向上し、スコアの閾値を0に設定している

    本文中のキーワード抽出精度が向上しました - はてなダイアリー日記
  • 1