1. Unstructured「Unstructured」は、MLサービス用の自然言語データの前処理ツールです。HTML、PDF、Wordなどの自然言語データをMLサービス用に変換することができます。 以下のような処理を行います。 ・ドキュメントを要素に分割。 ・ドキュメントから不要なテキストを削除。 ・データラベル付けなどの下流タスク用の書式調整。 対応ドキュメントは、次のとおりです。 ・txt ・docx ・pptx ・jpg ・png ・eml ・html ・pdf 2. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) Colabで新規ノートブックを開く。 (2) パッケージのインストール。 # パッケージのインストール !pip install unstructured !apt-get install -y libmagic-dev(3) 左端