エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Pythonで2chのスレをスクレイピングしてMeCabで形態素解析してみる - matsulibの日記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Pythonで2chのスレをスクレイピングしてMeCabで形態素解析してみる - matsulibの日記
スクレイピングはlxmlが便利。 MeCabはWindows用のバイナリが用意されてるけど、それだとpythonから使う... スクレイピングはlxmlが便利。 MeCabはWindows用のバイナリが用意されてるけど、それだとpythonから使うためのmecab-pythonがインストールできないらしく、MeCabのソースコードを弄って自分でビルドしなくちゃいけないらしい。 ということでいくつかの記事を読んで試したけど結局うまく行かず心が折れてしまった。 一方、Ubuntu(実際使ったのはLinuxMint)ならソースコードを弄る必要はなかった。 参考サイト Ubuntu 13.10でRubyからMeCabを使えるようにしたメモ - Qiita python3対応 Mecabの紹介 - Python, web, Algorithm 技術的なメモ PHP - 2chスレをスクレイピングする方法 - Qiita さて、2chスレのURLを与えて、その中のIDと単語をカウントしてみた。 ただしURLや顔文字が分解されて