タグ

ブックマーク / jobs.layerx.co.jp (5)

  • 2024-06-27 機械学習勉強会

    CADDiのアノテーション組織についてのブログ機械学習エンジニア、プロダクトマネージャー、オペレーションマネージャー、アノテーターが協働でアノテーションサイクルを回している模様アノテーションルールデータ分析観点:機械学習エンジニアドメイン観点:プロダクトマネージャーPdMがアノテーションの優先順位やモデルの目標精度を設計したりする他、イレギュラーパターンへの対応やルールの微修正を行ったりする。 業務サイクルアノテーションルール・定義の見直しを、作業を進めながら頻繁に行っている分かりみが深い我々がとりあつかう図面というのは、兎にも角にも自由な書き方がなされています。どれだけ製造業に詳しい人であっても、すべての表記パターンを前もって洗い出すことができないほどです。 以下のようなことに真面目に取り組んでいて参考になりました。アノテーターの質問にスピーディーに解消しなければ作業が停滞するルール改善

    2024-06-27 機械学習勉強会
  • 2024-06-20 機械学習勉強会

    気候関連財務情報開示タスクフォース (TCFD)という気候変動に関する11の推奨開 示項目を設定し、気候関連の推奨項目を開示しているかの規範となるものがある。これが当に開示されているかは大量の資料を分析する必要があり、大きな負担。→ LLMで自動分類TCFD推奨開示項目の11項目が開示されているかの判断基準を決めるために27項目のTCFD推奨開示項目クライテリアを作成githubにて使用しているクライテリアだけ公開されてる:https://github.com/cierpa/tcfd_criteria実験の流れ

    2024-06-20 機械学習勉強会
  • 2023-09-28 ML勉強会

    大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、多くの既存タスクの最先端を改善し、新たな能力を示している。このタスクは、多くの文書処理ワークフローの中核であり、事前に定義されたターゲットスキーマが与えられたビジュアルリッチドキュメント(VRD)からキーエンティティを抽出するものである。このタスクにLLMを採用する主な障害は、高品質の抽出に不可欠なレイアウト符号化がLLMにないことと、答えが幻覚でないことを保証する接地メカニズムがないことである。稿では、任意のLLMを文書情報抽出に適応させる手法である、言語モデルに基づく文書情報抽出とローカライゼーション(LMDX)を紹介する。LMDXは、学習データの有無に関わらず、単数、繰り返し、階層の実体を抽出することができ、また、グラウンディングを保証し、文書内の実体を局所化することができる。特に、LMDXをPaLM 2-S LL

    2023-09-28 ML勉強会
  • 日本語情報抽出タスクのための LayoutLM モデルの評価

    概要Wikipedia 記事を用いてLayoutLM の事前学習を行い,2 種類の情報抽出タスクのための Fine-tuning を行ったベースラインのBERT との性能比較を行った結果,一方のタスクにおいてレイアウト情報が性能向上に寄与することが確認できた 評価タスク属性値抽出タスクカテゴリ別に分類されたWikipedia 記事から各カテゴリ毎に定義された属性に基づいて,その特徴を表す属性値を抽出契約書からの情報抽出企業間の契約書中に記載されている契約締結日,契約開始・終了日,契約締結社名等の 7 種類の情報を抽出 データセット事前学習データセット2019 年版 Wikipedia の全記事データ(約 110 万記事分)Fine-tuning データセット属性値抽出タスク2019 年版 Wikipedia 記事の一部と,対応する属性値のアノテーション契約書からの情報抽出タスクPyMuPD

    日本語情報抽出タスクのための LayoutLM モデルの評価
  • 2023-06-22 ML勉強会

    Unifying Vision, Text, and Layout for Universal Document Processing (CVPR2023) 既存研究では、テキスト、画像、およびレイアウトの複数のモダリティを一貫した表現で統一的に処理することができなかった。どのようなアプローチでそれを解決しようとしたかUDOPは、テキストコンテンツとドキュメントイメージの空間的相関を利用して、画像、テキスト、およびレイアウトのモダリティを統一された表現でモデル化することで、この問題を解決しようとしました。UDOPは、新しいVision-Text-Layout Transformerを使用し、事前学習とマルチドメインのタスクをプロンプトベースのシーケンス生成スキームに統一します。結果、何が達成できたのかUDOPは、大規模な未ラベルの文書コーパスとさまざまなラベル付きデータを使用して事前学習さ

    2023-06-22 ML勉強会
  • 1