タグ

2012年7月11日のブックマーク (2件)

  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

    形態素解析 - Wikipedia
    tkmkz
    tkmkz 2012/07/11
    分かち書きの無い日本語は大変。
  • Manual:page テーブル - MediaWiki

    page テーブルは「ウィキの中核」とみなすことができます。 このテーブルには、ある一つのMediaWiki内にある各ページに対応したエントリーがあります。エントリーはタイトルによって識別され、そのほかにもいくつかの不可欠なメタデータも含まれています。 それは MediaWiki 1.5 のリビジョン r6710 で初めて導入されました。 ページの内容そのものは text テーブルに保存されます。 記事の内容を取り出す際、MediaWikiはpageテーブルの page_title をまず検索します。 そして revision テーブルの rev_id から page_latest と一致する値を検索し、rev_text_id を得ます。 得られた rev_text_id を text テーブルの old_id から検索し、ページ内容を取り出します。 ページが削除されると、各リビジョンは

    tkmkz
    tkmkz 2012/07/11
    ページIDなどに関する仕様。「Wikipedia:ページの改名」にこのページへのリンクあり?