タグ

自然言語処理に関するdai0916のブックマーク (4)

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • Facebook、テキスト内容を理解するディープラーニングエンジン「DeepText」

    Facebookは、従来の自然言語処理ではなく、ディープラーニングのアプローチでテキストの内容を理解する人工知能エンジン「DeepText」を発表した。将来的にはニュースフィード上の表示優先順位やヘイトスピーチの迅速な駆除に活用したいとしている。 米Facebookは6月1日(現地時間)、テキストの内容を“人間に近い正確さで”理解するディープランニングエンジン「DeepText」を発表した。 20カ国以上の言語に対応し、既にFacebookメッセンジャーなどでテスト中という。 Facebookはニュースフィード上で、ユーザーにとって関心の高い投稿を優先的に表示するようにアルゴリズムで調整している。DeepTextは将来的にはこうした調整に貢献する。 また、著名人の投稿には瞬間的に膨大な数のコメントが多様な言語で寄せられるが、こうしたコメントから意味のあるコメントを瞬時に抽出して表示すること

    Facebook、テキスト内容を理解するディープラーニングエンジン「DeepText」
  • 自然言語処理と深層学習の最先端

    第4回 JustTechTalk の発表資料

    自然言語処理と深層学習の最先端
  • 1