タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Unstructuredに関するtlo_olyのブックマーク (1)

  • MLサービス用の自然言語データの前処理ツール Unstructured を試す|npaka

    1. Unstructured「Unstructured」は、MLサービス用の自然言語データの前処理ツールです。HTMLPDF、Wordなどの自然言語データをMLサービス用に変換することができます。 以下のような処理を行います。 ・ドキュメントを要素に分割。 ・ドキュメントから不要なテキストを削除。 ・データラベル付けなどの下流タスク用の書式調整。 対応ドキュメントは、次のとおりです。 ・txt ・docx ・pptx ・jpg ・png ・eml ・htmlpdf 2. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) Colabで新規ノートブックを開く。 (2) パッケージのインストール。 # パッケージのインストール !pip install unstructured !apt-get install -y libmagic-dev(3) 左端

    MLサービス用の自然言語データの前処理ツール Unstructured を試す|npaka
  • 1