paul_oguriのブックマーク - はてなブックマーク

Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

はじめにこんにちは。バクラク事業部機械学習チームの機械学習エンジニアの上川(@kamikawa)です。バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

paul_oguri 2024/07/01

リンク

AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ

LayerX バクラク事業部機械学習チームの機械学習エンジニア兼マネージャーの松村（@yu-ya4）です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。この記事はLayerXテックアドカレ2023の16日目の記事のはずです。前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する』が公開予定ですされました。昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。そのような時代です

paul_oguri 2023/11/26

ocr
ai

リンク

バクラクのデータセットを用いたLayoutLMv3による事前学習 - LayerX エンジニアブログ

機械学習エンジニアの吉田です。本記事では、LayoutLMv3*1というモデルをバクラクで取り扱っている帳票で事前学習を行い、それをファインチューニングして項目推定タスクに取り組んでいる話をご紹介します。背景 LayerXで提供しているバクラクでは帳票をアップロードするだけで支払金額や支払期日などを自動で読み取り補完してくれるOCR機能があります。このOCR機能には大きく2つの処理があります。帳票に書かれている文字列を認識し検出すること検出された文字列から支払金額や支払期日などの項目を推定すること 2つ目の項目推定において現在はRoBERTa*2というモデルを使っています。RoBERTaでも精度高く推定することができるのですが、複雑なレイアウトの場合に誤って推定してしまうケースがどうしても発生してしまいます。RoBERTaはOCRで検出したテキストだけを使ったモデルであるためこのよう

paul_oguri 2023/10/02

リンク

GraphQL で REST API を作る - 技術的な挑戦と、それを支える文化の話 - LayerX エンジニアブログ

バクラク事業部の Product Enabling Team でソフトウェアエンジニアをしている @izumin5210 です。この記事は LayerXアドベントカレンダー(概念) の54日目の記事です。バクラクのリソースを提供する REST API を開発するにあたり、その基盤を GraphQL をベースに実装する、ということをしました。なかなかにチャレンジングな選定であり、これを入社してすぐ作っているという背景も含めておもしろい話だと思うので、技術的な話と文化的な話をあわせて紹介させてください。「GraphQL で REST API を作る」とは？まず「GraphQL で REST API を作る」というのが見慣れない文字列なのではないでしょうか？前提を揃えるために目指す形を明確にしておくと、だいたい以下のようなものです。外から見た API は REST に従っており、H

paul_oguri 2023/09/29

REST
GraphQL

リンク

バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ

機械学習エンジニアの吉田です。夏ですね。7月はLayerXエンジニアブログを活発にしよう月間です。昨年バクラクOCRの機械学習モデルの検証から本番投入までの取り組みについて記事を書きました。 tech.layerx.co.jp その後、運用する中で新たな課題が生まれたり、負債を解消するために当初の開発環境を見直しアップデートしてきました。今回は機械学習周辺の技術スタックに焦点を当ててその変遷について紹介したいと思います。 MLチームでは各サービスからのリクエストを処理するAPIやデータ基盤、社内のアノテーションツールなどの開発も行っており、これらは主にGo, TypeScriptで開発されていますが今回は対象外としています。技術スタックの変遷本番リリース時と現在の主な技術スタックの比較です。リリース時現在言語 Python Python パッケージ管理 pip Poetr

paul_oguri 2023/07/28

リンク

Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

paul_oguri 2023/07/27

リンク

何問わかるかな？AWS FireLens（Fluent Bit利用版）クイズ！！！ - LayerX エンジニアブログ

こんにちは。バクラク事業部Platform Engineering部DevOpsチームの@civitaspoです。 7月はLayerXエンジニアブログを活発にしよう月間ということで、この記事ではAWS FireLensに関する情報をクイズ形式でお届けします。みなさんはAWS FireLensを使っていますか？弊社ではAmazon ECS上にアプリケーションをホスティングしており、AWS FireLensを利用してログ収集・ログ送信を行っています。AWS FireLensは非常に便利です。一方、AWS FireLensは奥が深い挙動をすることもあります。この記事ではそんなAWS FireLensを深く理解するための情報をクイズ形式でお届けしてみることにしました。僕が知る限りの情報を詰め込んでみたのでAWS FireLensを深く理解したい方に届けばいいなと思います。 AWS FireLe

paul_oguri 2023/07/25

リンク

入社してから事業部執行役員(VPoE)になるまでの3ヶ月間に考え、実施したこと - LayerX エンジニアブログ

バクラク事業部執行役員VPoEの @makoga (小賀昌法)です。 7月はLayerX エンジニアブログを活発にする期間で、昨日は多田さんの『バクラク事業部による AWS コスト管理の課題に対して行った3つの取り組み』でした。コスト管理に課題を感じている人はぜひ読んでみてください。私は4/1に入社し、6/28に実施した株主総会でバクラク事業部執行役員VPoEに選任されました。入社の動機やこれまでの経験にご興味がある方は入社エントリを読んでいただけると嬉しいです。このエントリでは入社してからの3ヶ月間で考え、実施したことを紹介したいと思います。入社当時の考えとフォーカスポイントの見極め実施したこと現状の理解を深める改善サイクルの推進、プラクティスの発見と共有現在の考えと今後の展望カジュアル面談をオープンしてます。お気軽にどうぞ！入社当時の考えとフォーカスポイントの見極め

paul_oguri 2023/07/11

リンク

アノテーションなのに手入力ゼロ！？バクラクのOCRを支えるアノテーション基盤（アプリケーション編） - LayerX エンジニアブログ

こんにちは、全ての経済活動をデジタル化したいTomoakiです。今回はバクラクで内製しているアノテーション基盤を紹介します。バクラクのOCR バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザーが書類の内容を手入力する手間を省いています。例えばこちらの領収書、日付、金額、支払先を自動で読み取ってユーザーにサジェストをしています。チームでランチに行った時のレシートなぜアノテーション基盤が必要なのかバクラクのOCRでは自前で機械学習モデルを作成しているため、学習用・検証用のデータセットが必要になります。 OCRの処理の概要 OCRに必要なこれらのデータセットはどのようにして作るのが良いでしょうか。お客様が最終的に入力した値を正解ラベルとするのはどうでしょうか？例えば冒頭のレシートの場合、私は7010円として経費精算を申請した

paul_oguri 2023/05/31

リンク

Document AI を使った請求書読み取り機能の検証 | yu-ya4 - LayerX エンジニアブログ

LayerX で機械学習エンジニアとして働いている松村 @yu-ya4 です。現在はAI-OCRチームにて、バクラクシリーズのOCR機能の開発を主に行なっています。この記事は LayerX Tech Advent Calendar 2022 の18日目の記事です。 OCR機能とは、アップロードされた請求書や領収書などの帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する機能のことです。以下は請求書OCR機能のデモ動画です。 www.youtube.com このブログは、このようなOCR機能を誰でも簡単に実現してしまおうとしている Document AI というサービスを触って検証した際のメモ書きとなります。API を扱う Client ライブラリもいくつかの言語で公開されており、今回は Python を使いました。もしかしたら私の仕事がなくなるかもしれませ

paul_oguri 2022/12/19

gcp

リンク

バクラクOCRにおける機械学習モデルの検証から本番投入までの取り組み - LayerX エンジニアブログ

機械学習エンジニアの吉田です。今年の3月にLayerXに入社し主に機械学習を活用したOCRの開発をしています。それまでルールベースで実装されていた工程を一部機械学習ベースの実装に置き換えつつあり実際に本番でも稼働しています。この記事ではどのように検証や開発を進めてきたのかご紹介します。背景 LayerXで提供しているバクラクでは帳票をアップロードするだけで支払金額や支払期日などを自動で読み取り補完してくれるOCR機能があります。このOCRは主にルールベースで実装されていましたが、リリースから継続的に改善が行われていたことでかなり精度高く読み取ることができるようになっていました。しかし導入企業様が増えるにつれて次第に精度の改善が困難になり、一箇所修正するとこれまで読み取れていたものが読み取れなくなるなどコードの修正も困難になってきている状況でした。一方でリリースから1年以上経過し集められ

paul_oguri 2022/12/07

自然言語処理

リンク

LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ

LayerXで機械学習エンジニアを担当している @yoppiblog です。今回はOCRチームで検証したLayoutLMについて簡単に紹介します。 LayoutLMとは LayoutLMとは昨今注目されているマルチモーダルなDocument Understanding領域の1実装です。様々な文書（LayerXだとバクラクではお客様の多種多様な請求書といった帳票を扱っています）から情報を抽出（支払金額、支払期日や取引先名など）するために考案されたものになります。 BERT（LayoutLMv3はRoBERTa）ベースのencoder層を用いレイアウト情報や、文書そのものを画像特徴量としてembedding層で扱っているところが既存のモデルより、より文書解析に特化している点です。 v1〜v3まで提唱されており、v3が一番精度が高いモデルです。もともと、LayoutLMv2では多言語対応され

paul_oguri 2022/11/25

BERT

リンク

プロダクトマーケットマッピングを用いた開発ロードマップ作り~地図とコンパスを作ろう~ - LayerX エンジニアブログ

※ こちらは「LayerX Advent Calendar 」49日目の記事です。こんにちは。SaaS事業部PdM エンジニアの花村(@naomasabit)です。先日TECH PLAYさんのPdMイベントで登壇させていただきました。そこで話したLayerXインボイスのプロダクトマネジメントで行っている方法論をご紹介しようと思います。 techplay.jp イベントで使用したスライドはこちらです。ダイジェストの説明をこの後の章でしていきますが、詳細が気になる方は眺めながら読んでみてください。 speakerdeck.com 地図とコンパスを作ろう地図の作り方 1. ユーザーの要望を集める 2. 集めた要望から機能要件を抽出し、3. 抽出した機能要件を求めている企業の属性を抽出する 4. 機能と企業の属性（市場）をマッピングするコンパスの作り方最後にエアプは悪全職種募集中参考書

paul_oguri 2021/12/08

リンク

配信メールのテンプレート管理をSendGirdからgo:embedを用いた方法に変更した話 - LayerX エンジニアブログ

みなさまこんにちはMDM事業部で金融DXに日々精進している @MasashiSalvadorです。今回はメールのテンプレート管理法を変更しDX(Developer eXperience)を改善した話をします。何をやったのか？顧客へ自動配信するメールのテンプレートの管理をSendGridから自社のGithubリポジトリに移行した。移行に際し Go 1.16から導入された go:embed (https://pkg.go.dev/embed) 機能を用いた。お客様にサービスを利用していただくために、メールの配信機能をどんなサービスでも実装するかと思います。MDM事業部の開発しているサービス（公開されているものだと、プロ投資家の方々に不動産案件情報を定期的にお届けするあさどれ不動産、別のサービスも絶賛開発中です）では仮登録完了をお知らせするメール、登録完了をお知らせするメール、ワンタ