エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Webページのコンテンツからカテゴリを自動類推 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Webページのコンテンツからカテゴリを自動類推 - Qiita
from bs4 import BeautifulSoup from google.cloud import language_v1 from googletrans import Transl... from bs4 import BeautifulSoup from google.cloud import language_v1 from googletrans import Translator import requests import json import os Webページのコンテンツを取得 BeautifulSoupを使い、一般的に重要度順になると思われるTitle、Description、H1~H3、pタグ内のテキストの順で取得。 あまりにテキストが多いサイトは無駄に処理時間を要したりユニットを消費するので2,000文字ぐらいでカットする。 (だいたい2,000文字ぐらいで精度の上限に達しました) def get_web_contents(url, limit=2000): response = requests.get(url) soup = BeautifulSo