ブックマーク / tech.layerx.co.jp (77)

  • バクラクのデータセットを用いた項目領域推定とレイアウト情報の重要性 - LayerX エンジニアブログ

    こんにちは。機械学習エンジニアの上川です。記事では、バクラクのデータを用いて書類上の項目領域を推定する物体検出モデルを構築し、項目領域の推定におけるレイアウト情報の重要性について考察を行ったので、その紹介をします。 AI-OCRにおけるレイアウト情報の重要性 弊社のバクラクにはAI-OCRという機能があり、請求書や領収書などの書類から支払い金額や書類日付、取引先名などの項目内容をサジェストすることによって、お客様が手入力する手間を省いています。 この過程では、書類上のどこにどのような項目が存在するのかを推定することが必要です。 そのため、書類から項目の領域を推定する際に、単に文字を認識するだけでなく、書類のレイアウトを理解することがAI-OCRにおいて非常に重要です。 支払い金額、書類日付、取引先名などの項目が、様々なレイアウトの書類においてどこに配置されうるのかという傾向を正確に把握す

    バクラクのデータセットを用いた項目領域推定とレイアウト情報の重要性 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/08/22
  • LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ

    機械学習エンジニアの吉田です。今回は、LLM (Large Language Models) を活用して、機械学習モデルに必要なデータのアノテーション作業を効率化する取り組みについて紹介します。 なお、アノテーションにおけるLLMの利用に関しては、クラウドベンダー各社及び社内の法務確認のうえ進めています。この記事で登場するLLMがアノテーション用途で使えることを保証するわけではないのでご留意ください。 背景 LayerXで提供しているバクラクでは、帳票をアップロードするだけで支払金額や支払期日などを自動で読み取るOCRの機械学習モデルを開発しています。 このモデルのデータセットを作成するために、内製のアノテーション基盤を使って日々手作業でアノテーションを行っています。帳票の種類が多く、解釈が複数ある場合もあるため、アノテーション作業は簡単ではありません。モデルの推論結果やユーザーの入力値を

    LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/08/14
  • 金融庁のサイバーセキュリティに関するガイドラインを読んだ話 - LayerX エンジニアブログ

    LayerX Fintech事業部*1で、セキュリティ、インフラ、情シス、ヘルプデスク、ガバナンス・コンプラエンジニアリングなど色々やってる @ken5scal です。 今日はFintech事業部らしく、金融庁が意見募集をしていた「金融分野におけるサイバーセキュリティに関するガイドライン」(案)*2について感想を記載します。 具体的には、よかったな〜とおもうところ、きになったところ、最後にルールメイキングやっていこうぜ!という内容です。 もちろん良い子のFintechのみんなは提出したよね? www.fsa.go.jp 邦におけるサイバーセキュリティの確保について「サイバーセキュリティ法」を軸として各種施策が定められています。 その中で当社Fintech事業部が取り組むような証券サービスは「重要社会基盤事業者(重要インフラ事業者)」に位置づけられています。これは証券サービスが「他に代

    金融庁のサイバーセキュリティに関するガイドラインを読んだ話 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/08/03
  • Don’t Use Passwords in Your Snowflake Account - LayerX エンジニアブログ

    こんにちは。バクラク事業部 機械学習・データ部 データグループの@civitaspoです。最近、仕事で使用するPCを新調したのですが、Nixとhome-managerを使って環境構築していたおかげで、爆速で環境移管が完了しました。MacOSのセットアップをする場合は、nix-darwinというnix moduleを使うのですが、MacOSのdefaultsコマンドを使用して変更するパラメータ(たとえばInitialKeyRepeatやKeyRepeatなど)も宣言的に書けるので便利です。PAMの設定を変更してsudo実行時にTouch IDを使えるようにする設定もあったりします。非常に便利なので是非試してみてください! さて、記事のタイトルである「Don’t Use Passwords in Your Snowflake Account」は、先月開催されたSnowflake Data C

    Don’t Use Passwords in Your Snowflake Account - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/05
  • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

    こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

    LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/04
  • 開発者が安心して実行可能なSQL実行基盤の導入と運用 #ベッテク月間 - LayerX エンジニアブログ

    こんにちは!バクラク事業部 Platform Engineering 部 DevOps チームの id:sadayoshi_tadaです。 7月はエンジニアブログがたくさん出る #ベッテク月間です。今後も記事が出ますので、どんな記事がでるのかこちらのカレンダーからよければチェックしてみてください!7/2にSRE Lounge#17にて開発者が安心して実行可能なSQL実行基盤の取り組みという発表させていただきました。この記事では当該発表で時間の関係で触れきれなかった内容や補足を行っていきます。 従来のデータベースのデータ変更における課題 課題に対する解決策の検討 Bytebaseの利用にかかるコスト Bytebaseの導入及びデータ変更のフロー整備 データ変更のフロー整備 Bytebase導入後の変化 データ変更オペレーション上の課題 まとめ 最後に 従来のデータベースのデータ変更における課

    開発者が安心して実行可能なSQL実行基盤の導入と運用 #ベッテク月間 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/04
  • 生産性とガバナンスを両立したグループ管理のため、SmartHR上の属性情報を元に擬似的なABACシステムを構築した話 #ベッテク月間 - LayerX エンジニアブログ

    すべての経済活動を、デジタル化するために、すべての業務活動を、デジタル化したいコーポレートエンジニアリング室の @yuya-takeyama です。 7月はBet Technology Monthということでブログがたくさん出てくる月です。 そして7月といえば、第二四半期の始まりですね。 今月から転職や異動によって新しい環境で働き始める方も多いのではないでしょうか。 LayerXでは毎月のように入社・異動があるため、その度にやらないといけないことがあります。 それは、各種グループのメンバーの更新です。 LayerXにおけるグループメンバーの管理 LayerXではID基盤としてMicrosoft Entra IDを利用しています。 また、SCIMプロトコルを利用した自動プロビジョニングにより、そこから各種SaaS (Google Workspace, Slack, Notion, AWS,

    生産性とガバナンスを両立したグループ管理のため、SmartHR上の属性情報を元に擬似的なABACシステムを構築した話 #ベッテク月間 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/03
  • バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ

    こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁に聞かれることがあります。 「いやいや課題が山のようにあるんです」という話をいつもしているので、今回は我々が作っているAI-OCRがどれだけ複雑で難しい問題を扱っているか、という部分についてお話しさせていただければなと思います。 少し、経理ドメインの話が多く恐縮ですが、お付き合いいただけると嬉しいです。 AI-OCRについて AI-OCRが扱う問題の複雑さ ドメインへの深い理解が必要 同じ書類であってもコンテキストによって抽出したい値が異なる まとめ 最後に AI-OCRについて まず、そもそも弊社のバクラクで提供しているAI-OC

    バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/02
  • 機械学習とビジネスゴールのはざまで - LayerX エンジニアブログ

    機械学習をプロダクトに取り入れて磨き上げているいるみなさん。機械学習モデルのオフライン評価とビジネス上のKPIとを近づける難しさを感じてませんか? はじめに 深澤 (@qluto) です。 LayerXという会社で、経理業務をはじめとした業務支援を行うバクラクシリーズの開発に携わっています。私はその中でも、非定型の書類から的確に情報を読み取るAI-OCR機能の開発を担当しています。 私は、機械学習を根幹に据えつつ、ビジネス上や直接的なユーザーの課題解決のために複合的な問題に対処してきたソフトウェアエンジニアです。 今回は、機械学習とビジネスゴールの狭間で生じがちな問題を俯瞰し、バクラクのAI-OCR機能において直面した問題とその解決方法についてご紹介します。 機械学習とビジネスゴールとの間にギャップが生まれてしまうのはどういう時か? まずは、機械学習とビジネスゴールとの結び付けが難しくなり

    機械学習とビジネスゴールのはざまで - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/01
  • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

    はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

    Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
    toshikish
    toshikish 2024/07/01
  • 現地参加して良かった!Snowflake Data Cloud Summit 2024! - LayerX エンジニアブログ

    こんにちは。バクラク事業部 機械学習・データ部 データグループの@civitaspoです。2024年6月3日から6日にかけてサンフランシスコで開催されたSnowflake Data Cloud Summit 2024に現地参加してきました。記事では、その様子や感想をレポートしようと思います。 Snowflake Data Cloud Summit 2024 とは? Snowflake Data Cloud Summit 2024(以下、Summit)は2024年6月3日から6日にかけてサンフランシスコのモスコーニ・センターで開催された、Snowflake社が年次で主催する最大のユーザーカンファレンスです。Snowflakeの最新技術やデータクラウドの未来を語る基調講演に始まり、450を超えるセッションやハンズオンが行われました。参加者は全体で約1万5000人にのぼり、日からは250人が

    現地参加して良かった!Snowflake Data Cloud Summit 2024! - LayerX エンジニアブログ
    toshikish
    toshikish 2024/06/13
  • 1on1 で「センスが無い」を言語化した話 - LayerX エンジニアブログ

    LayerX Fintech事業部 (※) の piroshi です。 ※ 三井物産デジタル・アセットマネジメント (MDM) に出向しています。 今回は、上長の ken5 さんとの 1on1 の中で「センス」について言語化した話を紹介させていただこうと思います。 現職で実装する機会が増え、力不足から「自分にセンスが無い」と感じた時、それを曖昧な状態にせず、要素に分解して改善に繋げようとしているお話の共有です。 問題の具体例 Fintech という領域ではセキュアな業務環境が求められます。その一環として、ECS を使ったセキュリティ施策の検証を進めています。 しかし私がこれまで Docker や ECS を扱った開発経験がほとんどないため、検証を進めるスピードは遅く、手探りの状態が続いていました。 1on1 での気づきと学び 長らく詰まっていた問題を ken5 さんに相談したところ、彼は

    1on1 で「センスが無い」を言語化した話 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/05/31
  • 最小権限の原則に一歩近づく - Entra ID の "Just-in-time application access with PIM for Groups" 機能の紹介 - LayerX エンジニアブログ

    LayerX Fintech事業部(※)の piroshi です。 ※三井物産デジタル・アセットマネジメント (MDM)に出向しています。 沖縄からリモートワークで働いており、蒸し暑い日が続いています。クーラーをつけないと寝苦しくなってきました。 ところでみなさん、特権 (ちから) が欲しいですか?ここでの権限はシステム上の各種権限です。私は小心者で、大きすぎる力は持ちたくない派です。特権をもっていると「オレは今、セキュリティリスクの塊だ...」と気になってしまい、輪をかけて夜も眠れません。 さて、Microsoft の IdP サービスである Entra ID には Privileged Identity Management (PIM) という特権管理機能があります。PIM により「必要最低限の権限」を「必要な期間」に限定して付与することが可能です。ユーザは特権へのエスカレーションを自

    最小権限の原則に一歩近づく - Entra ID の "Just-in-time application access with PIM for Groups" 機能の紹介 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/05/03
  • プレスリリース駆動開発のすゝめ - LayerX エンジニアブログ

    機械学習・データ部 / データチームの @irotoris です。こんにちは。 データチームでは社内で使うデータプラットフォームやデータマートの開発をしています。今日は弊チームの開発スタイルの中から「プレスリリース駆動開発」を紹介します。 データチームの開発スタイル データチームの開発は1週間のタイムボックスで、月曜日にバックログやプロジェクトから今週取り組むタスクを計画し、金曜にスプリントレビューを行っています。デイリーでは夕会を行っています。ベロシティの計測などは今のところできていませんが、いわゆるスクラムっぽい開発です。 その月曜朝の計画会で、まずプレスリリースを書いています。 プレスリリースとはなにか? 来プレスリリースは新商品や新サービス、経営・人事などの企業情報を、ニュースとしてメディアに掲載する文書ですが、ここではデータチームが開発・提供する機能や改善をユーザーに伝えるため

    プレスリリース駆動開発のすゝめ - LayerX エンジニアブログ
    toshikish
    toshikish 2024/05/01
  • AWS知見共有会でTerraformのCI/CDパイプラインのセキュリティ等について発表してきました + GitHub新機能Push rulesについて - LayerX エンジニアブログ

    先日2024/04/16にタイミーさんのオフィスで開催された、AWS知見共有会というイベントで発表してきました。この会のテーマは「運用のスケーラビリティとセキュリティ」ということで、私は「コンパウンドスタートアップのためのスケーラブルでセキュアなInfrastructure as Codeパイプラインを考える」というタイトルで発表してきています。 イベントの動画もあります。 私の発表は 1:43 ぐらいからです。 この発表については資料と動画を見ていただければ!という感じで特に付け加えることもなかったのですが、イベントの開催後にGitHubから発表された新機能Push rulesがとても便利で、新たなベストプラクティスとなるインパクトがあると思ったので、この記事で紹介します。 Push rulesとは つい昨日発表された機能で、現在はpublic betaという状態です。なので、仕様変更と

    AWS知見共有会でTerraformのCI/CDパイプラインのセキュリティ等について発表してきました + GitHub新機能Push rulesについて - LayerX エンジニアブログ
    toshikish
    toshikish 2024/04/19
  • NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ

    機械学習エンジニアの吉田です。今回は機械学習モデルの推論サーバとして NVIDIA Triton Inference Server の性能を検証した話です。 (追記) 続編も書きました tech.layerx.co.jp 背景 バクラクでは請求書OCRをはじめとした機械学習モデルを開発していますが、これらの機械学習モデルは基的にリアルタイムで推論結果を返す必要があります。 請求書OCRを例にとると、お客様が請求書をアップロードした際にその内容を解析し、請求書の金額や日付などを抽出します。 このような推論用のAPIサーバはNginx, Gunicorn/Uvicorn, FastAPIで実装し、PyTorchモデルをGPUで推論する構成となっており、SageMaker Endpointを使ってサービングしています。 バクラクの推論APIはこのような構成でリリース以降特に問題なく稼働してきて

    NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/04/01
  • ログ一元管理の本質とSIEMの限界 - データ基盤への道 - LayerX エンジニアブログ

    三井物産デジタル・アセットマネジメントで、ガバナンス・コンプラエンジニアリングをしている 鈴木 (@ken5scal )です。 いきなりですが、ログ管理はどの職種どの場面でも重要です。セキュリティにおいても、古生代よりサーバー、ネットワーク機器、アプリケーションなどから出力されるログを一元的に収集し、監視や分析を行うことで、セキュリティインシデントの早期発見や対応、コンプライアンス要件の達成が可能になります。 このようなログ一元管理を実現する代表的なソリューションは、そう、皆様よくご存知のSIEM。我らが「Security Information and Event Management」であります。 私はSIEMを、新卒で入社した大手企業でSOC(Security Operation Center)として触れ、その後ユーザー企業でもOSSやAWS GuardDuty(?)などの形で利用す

    ログ一元管理の本質とSIEMの限界 - データ基盤への道 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/03/29
  • ChatGPT入門 (社内勉強会の資料を公開) - LayerX エンジニアブログ

    こんにちは!たかぎわ @shun_tak と申します!バクラク事業で機械学習・データ領域のマネジメントを担当しています! 先日社内でChatGPT入門の勉強会を実施して、参加者からは好評だったので、資料をこちらで共有させてください!わりと社内資料そのままコピペです。 背景 羅針盤15を体現した例 早速やってみよう! ChatGPTを触り倒す Step1 : ChatGPTを開く (0min) Step2 : まずは挨拶してみよう! (5min) Step3 : Google検索の代わりに使ってみよう! (5min) 他のトピックも聞いてみよう! Step4 : ペルソナ設定済みのGPTを使ってみよう! (10min) まずはConsensusというGPTを使ってみましょう! ChatGPT Teamに加入していると、社内の人が作ったGPTにアクセスできます! わいまつさんが作った企業リサー

    ChatGPT入門 (社内勉強会の資料を公開) - LayerX エンジニアブログ
    toshikish
    toshikish 2024/03/14
  • 今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ

    皆さんこんにちは。CTOの松です。LLM使ってますか?ChatGPT毎日触ってますか? LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。 ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今 とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての

    今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/03/12
  • グループ企業間で使うSlack Botと脅威ベースのリスク評価 - Entra ID編 - LayerX エンジニアブログ

    ドーモ、読者のミナ=サン、@ken5scalです。 今回はLayerXと、Fintech事業部のメンバーが出向する三井物産デジタル・アセットマネジメント(以降、MDM)をまたがる業務システムと、それに伴うリスク評価および発見的統制についてお話したいと思います。 これにより、コンパウンドスタートアップなグループ会社をまたがって必要とされる業務のデジタル化、 そしてその初期からの安全への取り組みについて紹介していきます。 業務 先述した通り、MDMはグループ会社です。 そこにはLayerXの代表取締役社長の一人(@y_matsuwitter)も非常勤取締役として出向しています。 私自信もLayerX CTO室のマネージャーを兼任しながら出向しています。 さて、私はともかく(?)、@y_matsuwitterさんは面接・登壇・取締役会など重要なスケジュールでドチャクソ忙しいです。 LayerXと

    グループ企業間で使うSlack Botと脅威ベースのリスク評価 - Entra ID編 - LayerX エンジニアブログ
    toshikish
    toshikish 2024/03/01