初めに 方針 ・pandasは、CSVや、Mysql、SQLiteなど様々なデータベースから、取り扱いやすい自身のDataFrameに変換することができる。 ・pandasのDataFrameはscikit-learnとの連携も容易である。 ・自然言語処理を日本語で行う場合、適切に前処理を行わなければ、良い結果をだすことはできない。 今回は自然言語処理における前処理の種類とその威力を参考にさせていただき、 具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。 ※引用文は記載が無い場合、上記の記事からのものです。 準備と想定 sqlite3からpandasのデータフレームへ変換しています。 import pandas as pd import sqlite3 con = sqlite3.connect("db/development.sqlite
![Python3×日本語:自然言語処理の前処理まとめ - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/fdb62a0411480ff09bc93a85fd77404d8cd5c3ea/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9UHl0aG9uMyVDMyU5NyVFNiU5NyVBNSVFNiU5QyVBQyVFOCVBQSU5RSVFRiVCQyU5QSVFOCU4NyVBQSVFNyU4NCVCNiVFOCVBOCU4MCVFOCVBQSU5RSVFNSU4NyVBNiVFNyU5MCU4NiVFMyU4MSVBRSVFNSU4OSU4RCVFNSU4NyVBNiVFNyU5MCU4NiVFMyU4MSVCRSVFMyU4MSVBOCVFMyU4MiU4MSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MWJlNjNiYWJhZDMwMDFhODA1MmEzOTFkMzU4NTc3YWY%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwY2hhbWFvJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1kZmFkNjBjMmEzODNjN2Y4YzA2YmU0NjIyOTg4YWE3YQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D79e539d6eb35363cceb054b1083e6a38)