スクレイピングはlxmlが便利。 MeCabはWindows用のバイナリが用意されてるけど、それだとpythonから使うためのmecab-pythonがインストールできないらしく、MeCabのソースコードを弄って自分でビルドしなくちゃいけないらしい。 ということでいくつかの記事を読んで試したけど結局うまく行かず心が折れてしまった。 一方、Ubuntu(実際使ったのはLinuxMint)ならソースコードを弄る必要はなかった。 参考サイト Ubuntu 13.10でRubyからMeCabを使えるようにしたメモ - Qiita python3対応 Mecabの紹介 - Python, web, Algorithm 技術的なメモ PHP - 2chスレをスクレイピングする方法 - Qiita さて、2chスレのURLを与えて、その中のIDと単語をカウントしてみた。 ただしURLや顔文字が分解されて