タグ

ブックマーク / tech.layerx.co.jp (9)

  • LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ

    機械学習エンジニアの吉田です。今回は、LLM (Large Language Models) を活用して、機械学習モデルに必要なデータのアノテーション作業を効率化する取り組みについて紹介します。 なお、アノテーションにおけるLLMの利用に関しては、クラウドベンダー各社及び社内の法務確認のうえ進めています。この記事で登場するLLMがアノテーション用途で使えることを保証するわけではないのでご留意ください。 背景 LayerXで提供しているバクラクでは、帳票をアップロードするだけで支払金額や支払期日などを自動で読み取るOCRの機械学習モデルを開発しています。 このモデルのデータセットを作成するために、内製のアノテーション基盤を使って日々手作業でアノテーションを行っています。帳票の種類が多く、解釈が複数ある場合もあるため、アノテーション作業は簡単ではありません。モデルの推論結果やユーザーの入力値を

    LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ
    esuji5
    esuji5 2024/08/14
  • 〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ

    この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり

    〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ
    esuji5
    esuji5 2023/11/09
  • バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ

    機械学習エンジニアの吉田です。 夏ですね。7月はLayerXエンジニアブログを活発にしよう月間 です。 昨年バクラクOCRの機械学習モデルの検証から番投入までの取り組みについて記事を書きました。 tech.layerx.co.jp その後、運用する中で新たな課題が生まれたり、負債を解消するために当初の開発環境を見直しアップデートしてきました。 今回は機械学習周辺の技術スタックに焦点を当ててその変遷について紹介したいと思います。 MLチームでは各サービスからのリクエストを処理するAPIやデータ基盤、社内のアノテーションツールなどの開発も行っており、これらは主にGo, TypeScriptで開発されていますが今回は対象外としています。 技術スタックの変遷 番リリース時と現在の主な技術スタックの比較です。 リリース時 現在 言語 Python Python パッケージ管理 pip Poetr

    バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ
    esuji5
    esuji5 2023/07/29
  • 開発チームのマネージャーとして意識しているチームのCapability - LayerX エンジニアブログ

    こんにちは。バクラク申請・経費精算チームでエンジニアリングマネージャーをしているsh_komineです。 7月はLayerXエンジニアブログを活発にしよう月間 ということで、今日は最近自分が「開発チームのマネージャーとして意識しているチームのCapability 」について話をしようと思います。LayerXのテックブログでは数少ないマネジメント系の話です。 私自身、エンジニアリングマネージャー歴自体は1年ほどなので、まだまだ足りない面もあると思いますが、誰かの参考になればと思います。 開発チームとCapabilityの定義 開発チームの単位もいろいろとありますが、基的にはチームとして意思決定し、開発活動を続ける最小単位のチームを想定しています。開発エンジニアにプロダクトマネージャー、チームによってはデザイナーやQAなども含みます。自分の場合は職能横断型のプロダクト・顧客に向き合うチームを

    開発チームのマネージャーとして意識しているチームのCapability - LayerX エンジニアブログ
    esuji5
    esuji5 2023/07/20
  • バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ

    お世話になっております。LayerXの高際 @shun_tak と申します。現在は、データ分析組織の立ち上げに注力しています。 記事では、バクラク事業におけるデータ組織とデータ基盤をテーマに取り扱います。データ分析における認知負荷や属人性を解消するための取り組みや、良質なデータを提供するためのデータ基盤の構築について、具体的な技術スタックを交えて解説し、最後に現在の課題と今後の展望について説明します。 また、この記事は 7月はLayerXエンジニアブログを活発にしよう月間 の2日目の記事になります。 1. データ組織について 1.1. チーム設立の背景 1.1.1. 多少間違ったクエリでも正しい意思決定ができれば、それはとても良いこと (余談コラム) 1.2. チーム構成 1.3. 業務内容 2. データ基盤について 2.1. データ基盤の構成 2.1.1. データソース 2.1.2.

    バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ
    esuji5
    esuji5 2023/07/04
  • LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ

    先日福島から大規模言語モデルに触れた記事が出ました。 comemo.nikkei.com この記事の前後から様々な取り組みを続けてきたのですが、この度より会社として気で大規模言語モデルに取り組もうということでLayerX LLM Labsの立ち上げを決定しました。私も最近多くの時間をLLMに充てています。小規模なチームになりますが、一緒に挑戦いただけるエンジニアPMの方も募集中です。 prtimes.jp 記事ではそのLLM Labsの立ち上げ背景について触れていきたいと考えています。 大規模言語モデルという新しいインターフェイス ChatGPTブーム以降急激に認知が広がった大規模言語モデルですが、直近ではこの機械学習モデルを取り込んだサービスも増えつつあります。膨大なテキストデータを学習することで、与えられた文に続く自然な文を予測するというシンプルな仕組みですが、そこからは考えられ

    LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ
    esuji5
    esuji5 2023/04/04
  • Document AI を使った請求書読み取り機能の検証 | yu-ya4 - LayerX エンジニアブログ

    LayerX で機械学習エンジニアとして働いている松村 @yu-ya4 です。現在はAI-OCRチームにて、バクラクシリーズのOCR機能の開発を主に行なっています。この記事は LayerX Tech Advent Calendar 2022 の18日目の記事です。 OCR機能とは、アップロードされた請求書や領収書などの帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する機能のことです。以下は請求書OCR機能のデモ動画です。 www.youtube.com このブログは、このようなOCR機能を誰でも簡単に実現してしまおうとしている Document AI というサービスを触って検証した際のメモ書きとなります。API を扱う Client ライブラリもいくつかの言語で公開されており、今回は Python を使いました。もしかしたら私の仕事がなくなるかもしれませ

    Document AI を使った請求書読み取り機能の検証 | yu-ya4 - LayerX エンジニアブログ
    esuji5
    esuji5 2022/12/19
  • OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ

    こんにちは!LayerXバクラク事業部 OCRチーム ソフトウェアエンジニアの秋野(@akino_1027)です。 この記事では、バクラクシリーズの機能であるOCRのテスト基盤について紹介していきます。 ※記事は LayerX Tech Advent Calendar 2022 11日目の記事となります。 背景 バクラクでは手入力ゼロを目指すべく、 OCR機能(文書の読み取り機能)を提供しています。 以下、OCRで書類が読み取られる様子 www.youtube.com OCR機能は「手入力不要」という価値に直結するため、OCR精度を常に高い水準で保っておく必要があります。 安心してコード変更を取り込めるように 今まで読み取れてたのに読み取れなくなった書類はないか 新たに読み取れるようになった書類はどれか を確認する仕組みが必要でした。 OCRテスト基盤の開発 そこでOCR精度を担保するた

    OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ
    esuji5
    esuji5 2022/12/11
  • 読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ

    どうも!バクラクでOCRの開発を担当する高際 @shun_tak です! バクラクでは「圧倒的に使いやすいプロダクトを届け、ワクワクする働き方を。」というプロダクトビジョンを掲げて開発しています。 バクラクビジョン note.com そんなバクラクでは文書のデータ化を支援するため、文書の読み取り機能=OCR機能を提供しています。これにより、多様なレイアウト・大量の文書も瞬時にデータ化することができます。 以下、瞬時に読み取られる様子 youtu.be OCRで読み取ってデータ入力されるだけでも使いやすいプロダクトになっているかなと思いますが、この記事ではさらに一歩踏み込んで、「圧倒的に」使いやすくするための工夫の一端をお見せしたいと思います。 前提:請求書OCRで解きたい問題 請求書OCRは、経理に届く支払請求書を読み取ってデータ化します。データ化したい項目は、「いつまでに、だれに、いくら

    読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ
    esuji5
    esuji5 2022/07/13
  • 1