タグ

ブックマーク / note.com/kan_hatakeyama (2)

  • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

    pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
    hiroomi
    hiroomi 2024/02/24
  • 英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama

    はじめに英語の論文をGPT4に執筆させた際の手順を記します。 普段からChatGPTを使っている人にとっては、当たり前のやり取りしかしていないのですが、意外と使えていない方がnon-AI分野では多いので、丁寧にプロンプトを示していきます。 (ワークショップで解説する必要が出てきたので、そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが、日語の下書きを英訳するのは得意で、少なくとも筆者が満足する品質のテキストが得られます。 GPTを使って執筆をするメリットDeepLGoogle翻訳と違い、英文のスタイル(e.g., 論文調)を明示的に指示できるので、翻訳のクオリティが高い 日語ネイティブにとっては、日語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので、校正の手間も減る。※ 基的に翻訳タスクしか行っていないので、GPTが過去の類似文章

    英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama
    hiroomi
    hiroomi 2024/01/06
  • 1