はじめに この記事では弊社で開発したTwitterのTweetsを取得して自動でクレンジング(テキストからURLを削除・リツイートの除外など)を行うパッケージを紹介します。 先日弊社ではPythonのパッケージの作成にチャレンジして、pip installできるようにするための公開方法の手順を紹介しました。(参考:【PyPI】自作のPythonパッケージを公開する) 今回はその際に作成したTwitterのAPIを使ってTweetsを取得するライブラリを実際に使用してみたいと思います。 「Tweetl」の主な機能 ユーザーIDと任意のキーワードでツイートを取得 テキストのクレンジング(前処理) ハッシュタグ、URL、画像、絵文字、メンション、RTを削除 文字の統一(大文字から小文字、半角から全角) 重複ツイートの削除(RTの可能性があるため) インストールとAPIキーの設定 PyPIに公開済