ブックマーク / buildersbox.corp-sansan.com (122)

  • TerraformによるAirbyteを利用したデータ基盤へのデータ連携とCI/CD - Sansan Tech Blog

    こんにちは!「Sansan Summer Internship 2023」でインターンをしていた野首侑作です(X, Facebook)。R&D Architectグループに1ヶ月強コミットしていました。今回のインターンで使った技術はこれまで全く触ったことがありませんしたが、チームメンバーのサポートもあり番環境でも動かせるコードを書くことができました。 今回学んだことの整理と、Sansanのインターンで学べることの多さを共有したいという意味を込めて、社内ブログでアウトプットしようと思った次第です。 目次 目次 はじめに ローカルでAirbyteの立ち上げ 1. DockerによるAirbyte serverの起動 2. Sourceの登録 3. Destinationの登録 4. Connectionの登録 5. 接続確認 TerraformによるIaC IaCとは Terraformとは

    TerraformによるAirbyteを利用したデータ基盤へのデータ連携とCI/CD - Sansan Tech Blog
    yug1224
    yug1224 2023/09/26
  • 【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織を開催しました。 - Sansan Tech Blog

    こんにちは、Sansan Tech Blog 編集部です。 7/20 (木) にイベント「【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織」を開催しました。今回は、その登壇内容を簡単にご紹介します。 sansan.connpass.com レポートではイベント全体を簡単にまとめていますが、アーカイブ動画も公開していますので、実際の様子やAsk the speakersの模様は映像でもお楽しみいただけます。 www.youtube.com 発表1:『名刺データ化システムの前処理サービスをリプレイスしてモダナイズした』 技術部 Digitization部 Infrastructureグループ 福田 隆誠 speakerdeck.com 福田が約1年半前に携わったプロジェクトで、名刺をデータ化する際に画像の補正処理を行うシステムのリプレイスについて発表。補正

    【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織を開催しました。 - Sansan Tech Blog
    yug1224
    yug1224 2023/08/18
  • TypeScriptプロジェクトにスキーマ駆動開発を持ち込み、より型安全な世界へ - Sansan Tech Blog

    Bill One Entry*1グループの秋山です。 題に入る前にお知らせです。9/12 (火) にTypeScriptを活用した型安全なチーム開発をテーマとしたイベントを開催します。 ぜひ、お気軽にご参加ください! sansan.connpass.com 1. はじめに 1-1. スキーマ駆動開発とは 1-2. Testing Trophyとの関係性 2. 構成 2-1. 最初の構成と課題 2-2. 最終的な構成 3. バックエンド 3-1. スキーマから型ファイルを作る 3-2. APIハンドラに型を与える 3-3. バリデーターを追加する 3-4. huskyでスキーマ変更を検知する 4. フロントエンド 4-1. スキーマからAPIクライアントを作る 5. パターンマッチングを持ち込む 6. まとめ 1. はじめに 1-1. スキーマ駆動開発とは 詳しい解説は他の記事に譲り、一言

    TypeScriptプロジェクトにスキーマ駆動開発を持ち込み、より型安全な世界へ - Sansan Tech Blog
    yug1224
    yug1224 2023/08/15
  • 2023年 研究開発部 新卒技術研修 ~ 実践編 ~ - Sansan Tech Blog

    こんにちは、研究開発部 Architectグループの藤岡です。 4/26(水)〜 4/28(金)で研究開発部内の技術研修を行ったので、その内容を公開します。 目次 目次 研修の目的 研修の概要 実践編の概要 アプリケーションを作成 バッチを作成 gokartとは パイプラインを実装 APIを作成 FastAPI とは APIを実装 ディレクトリ構成 実行 Webアプリを作成 Streamlitとは Webアプリを実装 Docker化 デプロイ ECRにイメージをプッシュ アプリケーション基盤 Circuitについて アプリのマニフェストを作成 研修終了後 終わりに 研修の目的 この研修の主な目的は、新卒社員がスムーズに業務に入れるようにすることです。 研究開発部にはさまざまなバックグラウンドを持つ研究員が入社するため、チーム開発の経験がない方もいます。 そのため、Gitの操作やプルリクエス

    2023年 研究開発部 新卒技術研修 ~ 実践編 ~ - Sansan Tech Blog
    yug1224
    yug1224 2023/06/08
  • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

    はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

    自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
    yug1224
    yug1224 2023/03/06
  • 分析の再現性を担保する工夫 - Sansan Tech Blog

    はじめに 技術部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。 www.nippyo.co.jp 手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック」を書かれています。私たちが『経済セミナー』にて「実証研究マネジメントのためのツールキット」の連載時に、手島教授を始めとした研究者の皆さんに草稿を確認いただいたのですが、このトピックはその際に出た議論をまとめられたものです。 そこでは手島教授が体験した、採択された研究論文の再現性チェックのプロセスが事細かに書かれており、興味深いです。現在 AEA P&P のために replication code を準備している私たちにとっても、大変参考になっています。 その中で論文の筆者として行うべきこととして、以下の4点が挙げ

    分析の再現性を担保する工夫 - Sansan Tech Blog
    yug1224
    yug1224 2023/02/28
  • BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

    こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ

    BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
    yug1224
    yug1224 2023/02/23
  • Sansan Data Hub・Bill Oneアーキテクト対談:事業を支えるシステムの設計方針を公開【前編】 - Sansan Tech Blog

    社内に蓄積された顧客データを整理・統合し、マーケティングに最適なデータに進化させる顧客データ統合サービス「Sansan Data Hub」。そして、あらゆる請求書をオンラインで受け取り、請求書受領から月次決算を加速するインボイス管理サービス「Bill One」。いずれも急成長を遂げており、Sansan株式会社の事業の柱になっているサービスです。 これらのサービスは、データの処理効率やシステムの信頼性などを向上させるために、さまざまなアーキテクチャの工夫が行われています。今回は「Sansan Data Hub」と「Bill One」それぞれの開発の中核を担う千田智己と加藤耕太にインタビューし、前後編の2回に分けて記事化。前編では、両サービスのアーキテクチャ設計の工夫や思想について語ってもらいました。 【Sansan Data Hub】アーキテクチャ解説 ――「Sansan Data Hub」

    Sansan Data Hub・Bill Oneアーキテクト対談:事業を支えるシステムの設計方針を公開【前編】 - Sansan Tech Blog
    yug1224
    yug1224 2023/02/16
  • 研究開発部の名刺メーカー技術開発メンバーで京都合宿に行ってきました - Sansan Tech Blog

    こんにちは、研究開発部の糟谷勇児です。 以前やっていたニューラルネット老人のブログは、CUDA沼にはまり、失踪してしまいましたので、久しぶりのブログとなります。 Sansanでは名刺メーカーという名刺作成業務をDXするサービスを展開しています。 sansan-meishi-maker.com 今回はその技術開発の一環で、Sansanの京都のラボSIL(Sansan Innovation Lab)にてチームで合宿をしてきました。 私も以前から開発合宿をするのが好きでKY研究所という名前で開発合宿サークルをしていましたが、Sansan株式会社には合宿が好きな人が多く、いろいろな開発チームや経営陣が合宿をしています。 私が考える開発合宿のメリットは ・やるぞっていう感じになりトリガーが入る ・限られた時間と他に邪魔されない環境で、できるところまでやり切る という二点かなと思っています。 京都には

    研究開発部の名刺メーカー技術開発メンバーで京都合宿に行ってきました - Sansan Tech Blog
    yug1224
    yug1224 2023/02/16
  • 社内ライブラリを Swift Package Manager に対応させた話 その2 ~OpenCV に依存したライブラリ編~ - Sansan Tech Blog

    はじめに こんにちは、 Mobile Application Group で iOS アプリエンジニアをやっている多鹿です。 前回は Sansan / Eight の iOS アプリにて共通で使っている社内ライブラリを Swift Package Manager (以降 SwiftPM) に対応させた話の「その1」を公開しました。 buildersbox.corp-sansan.com 今回はもう一つの社内ライブラリを SwiftPM に対応させた話になります。 はじめに SwiftPM 対応した社内ライブラリについて 対象リポジトリのディレクトリ構成 対応手順と注意点 1. ライブラリが依存する OpenCV の xcframework 化 OpenCV の xcframework 生成スクリプトを利用する ① Python スクリプトを動かすのに必要な依存ツールのインストール ② Op

    社内ライブラリを Swift Package Manager に対応させた話 その2 ~OpenCV に依存したライブラリ編~ - Sansan Tech Blog
    yug1224
    yug1224 2023/02/14
  • 学びを仕事に繋げる / 外貨を稼ぐ / 継続的に成長する - Sansan Tech Blog

    「公立はこだて未来大学」にお招きいただき、学生さん向けに講義をさせていただきました。 講義で用いたスライドは公開済みで、既にTwitterやはてブでも反響をいただいております。 スライド内には埋め込み動画やリンク等、Speaker Deckでは再現されないものもあるので、講義資料をあらためて「記事形式で」全ページ公開したいと思います。 講義のテーマ/構成について 講義のタイトルは「学びを仕事に繋げる」としていますが、 「海外進出」(外貨を稼ぐという選択肢を持つ) 「成長サイクル」(継続的に成長する) と併せた 3立て 1 にしています。 講義のテーマは非常に悩んだのですが、私の経験から学生さん向けに話せるもっとも価値のある内容はなんだろう?どうやったら90分飽きずに聞いてもらえるだろう?と考えた結果このようになりました。 2 学生さん向けの講演ではありますが、現場でバリバリ活躍されている

    学びを仕事に繋げる / 外貨を稼ぐ / 継続的に成長する - Sansan Tech Blog
    yug1224
    yug1224 2023/01/24
  • エンジニアの方に向けた会社紹介資料を公開しました - Sansan Tech Blog

    こんにちは。Sansan Tech Blog 編集部です。 今回はエンジニアの方向けに作られた会社紹介資料「Introduction to Sansan for Engineers / エンジニア向け会社紹介」を取り上げます。 資料は11月に作成され、12月にアップデートされました。 speakerdeck.com 別途公開している「会社紹介資料」とは、以下の追加点やちがいがあります。 技術部の組織の詳細 技術部のカルチャー 技術スタック 選考やオンボーディングについての詳細 技術部のVI(ビジュアル・アイデンティティ)を使用 記事ではその中から、技術部のカルチャー、選考フローとオンボーディングについて紹介します。 技術部のカルチャー Sansanでは以下のMissionとVisionを掲げています。*1 Mission 出会いからイノベーションを生み出す Vision ビジ

    エンジニアの方に向けた会社紹介資料を公開しました - Sansan Tech Blog
    yug1224
    yug1224 2022/12/27
  • 【Tech 道場 開催レポート】拡大する開発組織におけるマネジメント - Sansan Tech Blog

    こんにちは、技術部 VPoE室 Brand Strategyグループの馬場です。 普段はアシスタントとして、ブログの運営やエンジニア向けイベントのサポートをしています。 今年の9月から再始動したTech 道場の運営にも携わっており、今回は第4回のレポートをお届けします。 buildersbox.corp-sansan.com また、記事はSansan Advent Calendar 2022 の24日目の記事になります。 adventar.org メンバーが急増したエンジニアリング組織におけるマネジメント 今回は、Bill One Unit プロダクト開発責任者である大西をゲストに呼び、ローンチから2年弱で急成長を遂げたインボイス管理サービス「Bill One」のエンジニアリング組織におけるマネジメント手法について話してもらいました。 今回は、立ち上げの時期を乗り越え、「Bill O

    【Tech 道場 開催レポート】拡大する開発組織におけるマネジメント - Sansan Tech Blog
    yug1224
    yug1224 2022/12/24
  • 【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog

    研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配信システムがどのように実現されているか、またその中で研究開発部のどのような技術が利用されているかについて紹介したいと思います。 ニュースの種類 現在、SansanやEightでは以下のようなニュースを配信しています。 人事異動情報 社内の共通人脈の通知 企業の最新ニュース 同業他社の最新動向 ニュースフィード 企業の最新ニュース ニュース配信のための自然言語処理技術 質の高いビジネスニュースを配信するために、以下のような研究開発部の自然言語処理技術が利用されています。 固有表現抽出 ジャンル判定 プ

    【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog
    yug1224
    yug1224 2022/12/23
  • セブ島のグローバル開発拠点 - Sansan Tech Blog

    海外開発拠点設立準備室の 藤倉 です。 現在、Sansan 初の海外開発拠点として、フィリピンのセブ市でオフィスの設立準備を進めています。先日、プレスリリースでも発表しました。この記事では、なぜ海外拠点なのか、なぜセブなのか、なぜ今なのか、現在の状況はどうなっているのか、などなど書いてみたいと思います。 jp.corp-sansan.com フィリピンのセブ市 セブ市はフィリピンのセブ州の州都です。日では、ビーチリゾートとして有名なセブですが、セブ市にはビーチはありません(たぶん)。セブ市を中心としたセブ都市圏 ※(メトロ・セブ)で見れば、マニラに次ぐ第二の都市圏です。人口は 200 万人以上います。 ※ 都市圏というのは、政府によって正式に認められた都市の範囲です。メトロ・マニラやメトロ・セブがあります。 有名なビーチリゾートはセブ島のすぐ横にあるマクタン島というところに密集しています

    セブ島のグローバル開発拠点 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/30
  • 【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換 - Sansan Tech Blog

    研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思います。 buildersbox.corp-sansan.com 今回のテーマ 上に載せた記事内で、スマキャプでは以下の機械学習モデルの推論処理をオンデバイスで行っている、と書きました。 名刺検出(名刺の矩形を検出) 名刺切り出し(セグメンテーション) それぞれのモデルはTensorFlowで学習しています。 さらにiOSでは、モデルをCore MLに変換することで、大幅なパフォーマンス向上に成功しています 1。 矩形検出は300%高速化(18 fps → 55 fps) セグメンテーションも推論時間は0.01〜0.02[s]

    【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/26
  • 勉強会の出欠確認 Bot を全社展開した話 - Sansan Tech Blog

    こんにちは、技術部 Data Hub Engineering グループの秋田です。 最近運動不足で体がなまっているのがちょっとした悩みです。ずっと放置していたリングフィットアドベンチャーを今更ながらやろうと思いつつ記事を書いているので、記事が載る頃にはムキムキになっていると思います。 弊社には Geek Seek Workshop という社内勉強会補助制度があり、毎日活発に勉強会が行われています。自分も週2~3回勉強会に参加しているのですが、メンバーに出欠確認を送信して、参加者を集計して、参加者全員の名前を記入し実施の申請をして...といった作業を毎度毎度やるのが正直面倒でした。 毎回参加者を募るのが少し面倒...出欠確認を自動化したいな…と思っていたところ、Digitization部データ化グループの池田が出欠確認 Bot を作っているのを発見しました。Bot を見てめちゃくちゃ便利だ

    勉強会の出欠確認 Bot を全社展開した話 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/25
  • 【R&D DevOps通信】アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計 - Sansan Tech Blog

    こんにちは。研究開発部Architectグループ、ML Platformチームの神林です。ML Platformチームは主に研究開発部の成果を最大化するための基盤開発を行っているチームです。この記事では、Kubernetes(EKS)を導入することになった経緯や、周辺技術の選定、運用する上で必要な設計について書いていきます。 導入の経緯 研究開発部では、プロダクトのコアな技術を開発している特性上、プロダクト組織からの要求等で、絶え間なく新しい機能を提供していく必要があります。私達Architectグループのエンジニアは、新しい機能提供のためのインフラ構築を行っていますが、毎回0からアーキテクチャ設計を行っていたため、構築するためにそれなりに大きな工数をかけていました。また、デプロイ方法もCodeBuild、CodePipelineGitHub Actions等様々なサービスを使っており、

    【R&D DevOps通信】アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/17
  • 【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog

    研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した名刺に特化した文字認識エンジン「NineOCR」についてご紹介します。 Sansanの名刺データ化フロー NineOCRについては日プレスリリースが出た通り、データ化範囲が名刺記載の「全項目」 1 となり、いずれの項目でも高い読み取り精度を実現しています。 独自開発の背景 名刺のデータ化では、Emailアドレスや電話番号などを1文字間違えただけでも大問題です。 Sansanでは従来より、オペレーションセンターでの人力処理とコンピュータによる処理をうまく組み合わせて、高精度を維持しつつ、コスト削減やスケーラビリティの両立を実現してきました。

    【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/17
  • 【Sansanエンジニア インタビューシリーズ】第2回 Bill One アシスタント グループ マネジャー経堂編 - Sansan Tech Blog

    Sansanエンジニア インタビューシリーズとして前回はBill Oneの開発責任者である大西をピックアップしましたが、今回は大西が Bill One Engineering Unit Smart 受領グループ アシスタント グループ マネジャーの経堂にインタビューしました。 記事で使用している画像は撮影時のみマスクを外したものです。大西: 経堂さん、入社から現在に至るまでの自己紹介をお願いします。 経堂: パッケージソフトウェアのWebエンジニアを経て、2017年末にSansan株式会社に入社しました。SansanプロダクトのWebアプリケーションエンジニアに1年従事し、その後、新規事業開発室に異動してBill Oneの立ち上げに携わり、現在はアシスタントグループマネジャーとしてチーム・組織マネジメントの一端を担っています。 キャリアの迷い 大西: Bill Oneへの異動を希望した理

    【Sansanエンジニア インタビューシリーズ】第2回 Bill One アシスタント グループ マネジャー経堂編 - Sansan Tech Blog
    yug1224
    yug1224 2022/11/10