タグ

ブックマーク / qiita.com/Hironsan (2)

  • 【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita

    はじめに 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。 今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項 理論的な話は一切出てきません。理論を知りたい方は他を当たってください。 対象読者 固有表現抽出を少しは知っている方 固有表現抽出器を作ってみたい方 Pythonコードを読める方 固有表現抽出とは? ここでは、固有表現抽出の概要と方法について説明します。 概要 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。 上記の文に含まれる固有表現を抽出すると人名と

    【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
    rokujyouhitoma
    rokujyouhitoma 2017/04/17
    NLPの下ごしらえ。
  • 1