2009年4月7日のブックマーク (2件)

  • [ThinkIT] 第1回:NASAにも導入されたAlfrescoとは? (1/3)

    皆さんはECMという言葉をご存じでしょうか。ECMとは「Enterprise Content Management(企業向けコンテンツ管理システム)」の略で、そのまま解釈すれば「企業内のコンテンツの管理精度を向上させる仕組み」ということになります。 ではここでいう「コンテンツ」とは何でしょうか。ECMの世界でコンテンツというと「非定型のデータのすべて」という定義が一般的です。基幹システムのデータベースに格納されているような定型的なデータではなく、WordやExcelなどのフォーマットで企業内に蓄積されている情報のすべてがECMの対象となり得ます。 ECMはもともとPCで作成されるデータ・文書の管理精度を向上させるためのシステムという位置づけにあり、以前は「文書管理システム」や「電子的文書管理システム(Electric Document Management System)」と呼ばれていまし

    tarbonet
    tarbonet 2009/04/07
  • Aho Corasick 法 - naoyaのはてなダイアリー

    適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。 この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析Wikipediaはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法 任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

    Aho Corasick 法 - naoyaのはてなダイアリー