タグ

pythonに関するhurikakeのブックマーク (3)

  • 自然言語処理の前処理・素性いろいろ - Debug me

    ちゃお・・・† 舞い降り・・・† 先日、前処理大全というを読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

    自然言語処理の前処理・素性いろいろ - Debug me
    hurikake
    hurikake 2018/05/29
    “極大部分文字列”
  • pythonによる画像処理入門 - webエンジニアの日常

    はじめに 今回はpythonによる画像処理のお話です。 普段仕事ではRubyメインなのですが、最近趣味pythonを勉強しはじめ、画像を加工するのが意外と簡単だと分かったので、簡単な画像処理について書いてみました。 pythonについてはまだまだ勉強中なので、python的にはこうは書かない、これだと処理が遅い、コードが汚いなどなどありましたら、コメントで教えていただけると幸いです。 また、以下のコードではpythonのライブラリ、numpy, pillowを使用しています。 著者の環境ではwindows10上でAnaconda3を使用しているため別途インストールは不要でしたが、実行する際は必要に応じてインストールをお願いします。 画像処理の概要 画像の加工は単純に各ピクセルの色を画像の端から端まで順番に変更することで実現しています。 そこで、まずは画像ファイルを読み込み、操作しやすいよ

    pythonによる画像処理入門 - webエンジニアの日常
  • tweepy を使って、Python から Twitter API で遊んでみる - Qiita

    keywords =[u'消費税', u'財政'] query = ' OR '.join(keywords) for tweet in tweepy.Cursor(api.search, q=query, count=100).items(): print(tweet.created_at,tweet.user.screen_name, tweet.text) ( 実行結果 ) 実行結果の中身を、U数字 ではなく、漢字かな表示させるには、どうしたらよいだろうか。。 ※以下のウェブサイトを参考にしたら、少しうまくいった ( リンク )カビパン男と私 「Python と文字コード」 まずは、twitte API から返されるオブジェクトの型を確認 unicode 型だったので、以下で日語表示で出力 1件のツイート投稿しか表示できていないが、日語表示にはなった さきほどのウェブサイトに以下

    tweepy を使って、Python から Twitter API で遊んでみる - Qiita
  • 1