最近Redshiftを業務で使う機会があったので、概要や使い方などをまとめてみようかと思います。 今回はRedshiftの立ち上げからはじめ、青空文庫さんが公開してくださっている、形態素解析データをRedshiftにいれて解析してみます。 解析といっても、一番多く幸せそうなワードを使っている文庫はどれかを調べるだけ。 一番多く幸せそうなワードを使っていた文庫を、「もっとも幸福な青空文庫」と判定します。 また、今回使用する、6.1GB、8770万行のデータをデフォルト設定でどのくらいでさばけるかなども試してみたいと思います。 今回やること 今回は以下の様なことをします。 ・Redshiftとは何かをまとめ ・青空文庫のデータセットをダウンロードして、S3にアップ ・PostgreSQLが扱えるDBクライアントを用意する ・Redshiftを立ち上げる ・Redshiftにクライアントから接続
![Redshiftを使って、もっとも幸福な青空文庫を判定してみる - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/991b99ee74c161c30aee83932b3c8323dbeba712/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9UmVkc2hpZnQlRTMlODIlOTIlRTQlQkQlQkYlRTMlODElQTMlRTMlODElQTYlRTMlODAlODElRTMlODIlODIlRTMlODElQTMlRTMlODElQTglRTMlODIlODIlRTUlQjklQjglRTclQTYlOEYlRTMlODElQUElRTklOUQlOTIlRTclQTklQkElRTYlOTYlODclRTUlQkElQUIlRTMlODIlOTIlRTUlODglQTQlRTUlQUUlOUElRTMlODElOTclRTMlODElQTYlRTMlODElQkYlRTMlODIlOEImdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWNiOTM0NTYyMzVjYmZhZGMxNzlmYmE4MWQ1YmQ2NzQ2%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwMktCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1kYzI4NTEzNGU0NGJmNmM3ZTNmZDY2MjExYjcxNTYyOA%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D555986e875267c260c0089cbd4f68e4a)