ブックマーク / yukinoi.hatenablog.com (1)

  • 自然言語処理の前処理・素性いろいろ - Debug me

    ちゃお・・・† 舞い降り・・・† 先日、前処理大全というを読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

    自然言語処理の前処理・素性いろいろ - Debug me
    kNeder
    kNeder 2018/06/06
    “ 前処理大全と言う本を読んで影響を受けたので、今回は自然言語処理の前処理とついで素性の作り方をPythonコードと同様に列挙したいと思います。必然的に全部やる必要はないので使用してください。 前処理大全[データ
  • 1