コアとしては、GPL 3ライセンスではhtml2text、trafilatura、それ以外のライセンスでは、BeautifulSoup4、unstructured(lxml)、Readability.jsが挙げられます。 ラッパーを含みで一つずつ動かしてみたいと思います。 試してみた 準備 pip install llama-index html2text trafilatura langchain unstructured requests pip install git+https://github.com/alan-turing-institute/ReadabiliPy.git@master#egg=readabilipy readabilipyは、pip install readabilipyで入るバージョン0.2.0がWindowsの文字コードに対応できていなかったので、git