タグ

自然言語処理に関するicicaのブックマーク (3)

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 素人の言語処理100本ノック:まとめ - Qiita

    言語処理100ノック 2015の挑戦記録のまとめです。 これは言語処理100ノック 2020の挑戦記録ではありません。古い2015年版が対象です。ご注意ください 挑戦した環境 Ubuntu 16.04 LTS + Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。 (問題00と問題01だけはPython 2.7です。) 第1章: 準備運動 テキストや文字列を扱う題材に取り組みながら,プログラミング言語のやや高度なトピックを復習します. 投稿へのリンク 主に学んだこと、コメントで教えていただいたことなど

    素人の言語処理100本ノック:まとめ - Qiita
  • 言語処理100本ノック with Python(第1章) - Qiita

    はじめに 自然言語処理と Python のトレーニングのため,東北大学の乾・岡崎研究室 Web ページにて公開されている言語処理100ノックに挑戦していきます.その中で実装したコードや,抑えておくべきテクニック等々をメモしていく予定です.コードについてはGitHubでも公開しています. 教科書は『Python入門 2&3対応(細田謙二ら著,秀和システム)』を使用しています. スタートアップに際して参考にさせていただいた記事をご紹介いたします.参考にしすぎてる感も否めないので,不快に感じられたらご連絡ください. http://qiita.com/tanaka0325/items/08831b96b684d7ecb2f7 ズブの素人なので記法が統一されてなかったり,Python 2/3 関係が混在していたりと大変お見苦しいのですが,ご指摘いただければ幸いです.実行環境自体は Python 2

    言語処理100本ノック with Python(第1章) - Qiita
  • 1