ブックマーク / qiita.com/Hironsan (3)

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita

    はじめに 最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。 この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。 文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence Classification(2014/08) 評判分析や質問タイプの分類などの文分類を行うCNNを提案している論文。 具体的には文を単語ベクトルの列として表し、それに対してCNNを用いて特徴抽出・分類を行っている。論文では事前学習済みの単語ベクトル(Goo

    自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita
    prototechno
    prototechno 2017/02/08
    #CNN
  • 画像の水増し方法をTensorFlowのコードから学ぶ - Qiita

    はじめに Deep Learningで画像を精度よく分類するにはとにかく枚数が必要です。しかし、大量の画像をすべて手作業で用意・タグ付けするのは困難です。そこで、タグ付けされた画像を加工することで画像の枚数を増やす(水増しする)ことが行われます。 今回は、水増しするためにどのようなことをするのかをTensorFlowのコードから学びたいと思います。 具体的にはCIFAR-10のコードから学んでいきます。 cifar10/cifar10_input.py 実際のコードでは以下のように複数の処理を組み合わせて画像の水増しを行っていました。 # Image processing for training the network. Note the many random # distortions applied to the image. # Randomly crop a [height,

    画像の水増し方法をTensorFlowのコードから学ぶ - Qiita
    prototechno
    prototechno 2017/01/27
    #foundIT
  • 1