Webページのコンテンツからカテゴリを自動類推 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/symmr

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Webページのコンテンツからカテゴリを自動類推 - Qiita

from bs4 import BeautifulSoup from google.cloud import language_v1 from googletrans import Transl... from bs4 import BeautifulSoup from google.cloud import language_v1 from googletrans import Translator import requests import json import os Webページのコンテンツを取得 BeautifulSoupを使い、一般的に重要度順になると思われるTitle、Description、H1～H3、pタグ内のテキストの順で取得。あまりにテキストが多いサイトは無駄に処理時間を要したりユニットを消費するので2,000文字ぐらいでカットする。（だいたい2,000文字ぐらいで精度の上限に達しました） def get_web_contents(url, limit=2000): response = requests.get(url) soup = BeautifulSo

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx