タグ

2009年11月24日のブックマーク (2件)

  • 「川崎市」と「川崎さん」の区別が容易に--富士通、固有名詞の高精度抽出技術を開発

    富士通研究所は11月24日、文章中の人名や組織名、地名などの固有名詞を高精度に抽出する技術を開発したと発表した。これにより、新聞記事から約97%の精度で人名を正しく抽出する。従来の抽出手法と比較して抽出ミスを60%近く減少できるという。 新聞の編集やウェブサイトの更新など大量の文書データを扱う業務では、キーワード検索やそれを用いた文書作成が業務の中で大きな割合を占める。しかし「川崎さん」や「川崎市」の「川崎」のような単語は、「人名」か「地名」かの区別がつきづらく、目的のキーワードとは無関係な結果が数多く表示されてしまっていた。 そのため必要な情報を見つけるのに手間がかかっていたほか、人名や地名などの辞書データを人手で作成しなければならず、辞書の自動生成が大きな課題となっていた。 今回開発された技術は、精度の高い固有名詞を抽出するため、固有名詞辞書の自動生成手法と生成した辞書を用いる抽出を実

    「川崎市」と「川崎さん」の区別が容易に--富士通、固有名詞の高精度抽出技術を開発
    makimoto
    makimoto 2009/11/24
  • WebDB Forum 2009 で発表させていただきました|社内NEET宣言

    社内NEET宣言文学部出身なのにIT企業で研究開発をすることになった社員のブログです。エンジニア/ニートWebDB Forum 2009 で発表させていただきましたレポート・実験 どうもこんにちは。 サイバーエージェントの大平ことjust-do-neet(社内ニート歴約1年)です。 日(11/19)、WebDB Forum 2009というイベントにて 弊社のラボ組織「インキュベーションラボラトリー」の取り組み内容について 技術報告セッションでお話をさせていただきました。 [参考]プレスリリース:サイバーエージェントの研究開発組織「インキュベーションラボラトリー」が「Ameba」を中心としたCGMデータ解析の研究成果を発表 以下がそちらの発表資料になります。 Amebaのデータを主に使用しての、 トレンドワードの解析、 タレントブログの訪問者属性の解析、 spamフィルタリングシステムの開

    makimoto
    makimoto 2009/11/24