ブックマーク / buildersbox.corp-sansan.com (115)

  • re:invent 2023参加報告: Amazon Aurora Limitless Database - Sansan Tech Blog

    Sansan Engineering Unit Infrastructure グループの落合と申します。 こちらのSansan Tech Blogは初投稿となります。 コロナ禍以降、カンファレンスはオンラインで見られるのが普通になり海外イベントに現地参加することはもうなくなるのだろうな、とばかり思っていましたが、意外にも今年のAWS re:Invent 2023に参加する機会をいただきました。 今回はre:Inventでの発表の中で一番気になった、Amazon Aurora Limitless Databaseの紹介をします。 Keynoteでの発表 re:Invent2023最初のKeynoteであるMonday Night Live with Peter DeSantisの中で、最初に発表になった新サービスがAmazon Aurora Limitless Databaseです。 re:

    re:invent 2023参加報告: Amazon Aurora Limitless Database - Sansan Tech Blog
    yug1224
    yug1224 2024/01/17
  • インフラエンジニアがre:Invent 2023に参加して面白かったセッション4選 - Sansan Tech Blog

    Sansan Engineering Unit Infrastucture グループの藤田です。 先日開催された AWS re:invent 2023 に参加してきました。今回はその中で聴講したセッションの中から特に印象に残ったものを紹介します。 セッション Dr. Werner Vogels Keynote youtu.be AWS の CTO である Werner Vogels による基調講演です。前半のコストについての言及がとても刺さりました。THE FRUGAL ARCHITECT という考え方が提唱されており、これは自分が普段業務で意識していたことが言語化されているようでとても共感できました (意識できてないことも多々ありますが)。ちなみに Matrix 関連の小ネタは当日雰囲気で笑ってましたが、何言ってるかわかっておらず改めて Youtube で見直しました。 Achievin

    インフラエンジニアがre:Invent 2023に参加して面白かったセッション4選 - Sansan Tech Blog
    yug1224
    yug1224 2023/12/28
  • イベント週1開催をとにかくみんなで頑張った話 - Sansan Tech Blog

    こんにちは、人事部 HRコミュニケーション室の馬場 (@tokyo_887) です。記事は技術広報 Advent Calendar 2023 22日目の記事です。 qiita.com Sansanにジョインしてからこの12月で丸3年が経ち、現在はSansan Tech Blogや技術イベントの運営サポートに携わっています。 こちらの記事では、2023年6月からの半年間で向き合ってきた技術イベントについてお話しします。 イベント定期開催の決定 6月に入るタイミングで、当社のエンジニア組織である技術部の方針としてイベントを定期開催することになりました。 技術部メンバーのアウトプットの場、そして日々の取り組みや知見の言語化を通して知識を補完できる場を創出することを目的としています。 また、情報発信を通して、Sansanという会社にさまざまなプロダクトがあることや、多様なキャリアを積んだメ

    イベント週1開催をとにかくみんなで頑張った話 - Sansan Tech Blog
    yug1224
    yug1224 2023/12/23
  • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

    こんにちは。研究開発部 Architectグループの中村です。 記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

    全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
    yug1224
    yug1224 2023/12/19
  • 入社して1年半の間に先輩が5人育休に入った話 - Sansan Tech Blog

    自己紹介 こんにちは。名刺メーカーDevグループの伊藤惇です。 私は2022年4月にSansanに新卒として入社して、現在に至るまで名刺データの作成および印刷発注をするサービスの開発に携わっています。 名刺メーカーDevグループでは、偶然タイミングが重なったこともあり、私が入社してからこれまでの間に5人が育児休暇を取得しました。 そうした中で感じた育休に対する考え方の変化を振り返りたいと思います。 なお、記事はSansan Advent Calendar 2023の14日目の記事です。 名刺メーカー育休スケジュール 名刺メーカーDevグループの規模感 チームの人数やプロダクトのフェーズによっても育休のインパクトが変わってくるので、私が所属する名刺メーカーDevグループの規模感について補足しておきます。 チーム人数 後述するAさん、Bさん、Cさんの育休取得時は約15人ほどのチームでした。そ

    入社して1年半の間に先輩が5人育休に入った話 - Sansan Tech Blog
    yug1224
    yug1224 2023/12/15
  • 全社横断データ基盤における部分的セルフサービス化への取り組み - Sansan Tech Blog

    研究開発部 Architect Groupの大澤秀一です。ブログ寄稿は約2年ぶりです。半年ぐらい前からランニングを始めて、先日フルマラソン完走してきました。おかげで足はボロボロです(笑)。 さて、私たちはBigQueryを中心とした、全社横断データ基盤(以下、データ基盤)の構築とデータ基盤をもとに社内のデータ利活用を推進しています。データ利活用の推進についてチームメンバーが最近登壇した資料をご参照ください。 speakerdeck.com speakerdeck.com データ基盤を拡大していくにあたって、社内の利用者から自部門のデータをアップロードしてデータ基盤上でアドホックに分析したいという要望がありました。また、利用者自身が自由にテーブルとビューを作りたいという声があがりました。 今回は、そうしたことができる環境を構築したので仕組みについてご紹介します。 なお、記事はSansan

    全社横断データ基盤における部分的セルフサービス化への取り組み - Sansan Tech Blog
    yug1224
    yug1224 2023/12/10
  • GPTsによる執筆支援Botとtextlintによる校正Botをつくってみた - Sansan Tech Blog

    記事は、Sansan Advent Calendar 2023の1日目の記事です。 こんにちは。 技術部研究開発部の高橋寛治です。 毎年恒例のアドベントカレンダーの時期がやってきました。 今回は、技術ブログの執筆を技術で支援するツールを用意したため、その内容を紹介したいと思います。 なお、記事はそのツールを用いて書かれたものです。 技術ブログを書きやすくしたい 技術に関する知見を共有することは、知見を元にした新しい技術を生むことや、類似の事象の早期解決につながることなど、様々な利点があると私は考えています。 ある知見が新しい知見を呼び、新しい知見が更なる新しい知見を呼ぶ、というように循環するものだと思います。 技術ブログを書きやすくするために、執筆支援を行うことにしました。 今回は、2種類の執筆支援に取り組みます。 一つは草稿作成に向けた技術ネタと草案の作成支援、もう一つは草稿の校正

    GPTsによる執筆支援Botとtextlintによる校正Botをつくってみた - Sansan Tech Blog
    yug1224
    yug1224 2023/12/03
  • 自宅ルータの脆弱性検知システムのIPv6対応と性能改善 - Sansan Tech Blog

    2023年8月から9月にかけてSansanでの就業型インターンシップに参加した櫛引淳之介(ブログ)です。 普段はIPv6インターネットにおけるIoT機器のセキュリティをテーマに大学院で研究を行っています。 今回のインターンシップでは、情報セキュリティ部CSIRTグループの一員として、自宅ルータ脆弱性検知システムの改修に取り組みました。 背景:自宅ルータの不備によるPCの外部公開とその対策 課題と対策の詳細 検知システムのIPv6対応 AWS LambdaからAWS Fargateへの移行 nmapのオプション変更によるスキャン漏れの軽減 -Pn: pingスキャンを行わない -p: 外部から通信を受けたポートをピンポイントでスキャンする PCの状態変化による検知漏れの防止 学んだこと 終わりに 背景:自宅ルータの不備によるPCの外部公開とその対策 Sansanではリモートワークを取り入れて

    自宅ルータの脆弱性検知システムのIPv6対応と性能改善 - Sansan Tech Blog
    yug1224
    yug1224 2023/11/28
  • Reviewdog x RuboCop を使って、ローカル環境で Lint をかける機構を自作した - Sansan Tech Blog

    こんにちは、技術部 Eight Engineering Unitエンジニアをやっている茂木です。 普段はSansan株式会社で正社員としてフルコミットしつつ、情報系の大学に通っています。 今回は Reviewdog x RuboCop を使って、ローカル環境で Lint をかける機構を Eight に導入した話をしていきます。 目次 背景 要件方針 実装 導入後の効果 まとめ 背景 Eight では、コードの品質を保ち、バグや不具合を未然に防ぐために静的解析ツール RuboCop を導入しています。Pull Request が作成されると、GitHub Actions を用いた CI が自動的に実行され、RuboCop による静的解析が行われます。違反があった箇所にはコメントが付けられ、開発者はそれをもとに修正を行うことができます。 ただし、開発の初期には RuboCop が導入され

    Reviewdog x RuboCop を使って、ローカル環境で Lint をかける機構を自作した - Sansan Tech Blog
    yug1224
    yug1224 2023/11/28
  • 実務に必要な統計学はすべてゲームのガチャが教えてくれる 第五回 サンプルサイズ計算はゲームのガチャが教えてくれる - Sansan Tech Blog

    こんにちは、Sansan研究開発部の糟谷勇児です。 今回も実務に必要な統計学をガチャで考える話をやっていこうと思います。 過去回はこちら。第一回、第二回、第三回、第四回 私はガチャが好きですが無課金勢ですので、1か月の間ずっと石(ゲーム内の通貨、これがあるとガチャを引ける)をためてガチャを引くのですが、もちろんそうそう当たるわけではありません。 そんなわけで今回もガチャで統計学を考える話をやっていこうと思います。 今回は特にお金のことも交えて考えていきましょう。 前回のおさらいとサンプルと金と さて、前回は統計的検定を用いると、もともと5%の成功確率が10%にアップしたことを自信をもって言えるためには200回ほどの実験を行うとよいという話でした。また、同じように5%が7%の確率にアップした場合は400回ほどの実験で効果を自信を持って言えるという話をしてきました。 自信をもって言えると表現し

    実務に必要な統計学はすべてゲームのガチャが教えてくれる 第五回 サンプルサイズ計算はゲームのガチャが教えてくれる - Sansan Tech Blog
    yug1224
    yug1224 2023/11/12
  • Eight の Node.js を 16 から 20 にアップデートしました - Sansan Tech Blog

    こんにちは。 Eight でエンジニアをしている鳥山(@pvcresin)です。 今回は、Eight で使用している Node.js をアップデートした際の手順や、ハマったところについてお話ししたいと思います。 目次 背景 手順 ハマったところ まとめ 背景 Eight では Web フロントエンドの開発やビルドに Node.js を使っています。 使用していた Node.js 16 のサポートが 2023-09-11 に終了するということで、アップデート対応をそれまでに行う必要がありました。 当初、Node.js 16 は 来年(2024 年)の 4 月までサポートされる予定でしたが、内部の OpenSSL 1.1.1 のサポート終了日と合わせるため、後からサポート期間が 7 ヶ月短縮されたという経緯があります 😵 また、リリーススケジュールでは、その約 1 ヶ月後の 2023-10-

    Eight の Node.js を 16 から 20 にアップデートしました - Sansan Tech Blog
    yug1224
    yug1224 2023/10/30
  • 2023年 研究開発部 新卒技術研修 ~ テストコード編 ~ - Sansan Tech Blog

    こんにちは、研究開発部 Data Analysisグループの笛木です。 4/26(水)〜 4/28(金)で研究開発部内の技術研修を行いました。 こちらのブログの続きでテストコードについての研修資料を一部公開します。研修では新卒2年目の私が1年間で部内のコードなどから学んだ情報を共有しました。至らない部分もあるかもしれませんが、ご参考になれば幸いです。 こちらの研修で使用したGitHubのコードリンクは以下です。適宜、ご参照ください。 github.com 目次 目次 はじめに この研修の目的 研修スコープ外 テストコードについて テストコードの便利な点 テストコードの悪い例 テストコードに関するFAQ pytestによるテストコードの書き方 ファイル名 ディレクトリ 基編 Parametrize Fixture 異常系 Mock indirect conftest 知っておくと活用する場

    2023年 研究開発部 新卒技術研修 ~ テストコード編 ~ - Sansan Tech Blog
    yug1224
    yug1224 2023/10/26
  • 自宅ルータの脆弱性検知システムの開発 - Sansan Tech Blog

    Sansan 技術部 情報セキュリティ部 CSIRT グループの川口です。 2023年4月からセキュリティエンジニアで新卒として、Sansan に入社しました。 現在は ログ基盤(SIEM)のログの取り込み部分の機能修正、問い合わせ対応、インシデント対応などの業務に取り組んでいます。 今回は内定者インターンシップで開発した、自宅ルータの脆弱性検知システムについて紹介します。 目次は以下の通りとなります。 開発に至った経緯 作成したシステム 技術的な話 EDR ポートスキャン チケットシステムへの起票 SOAR まとめと今後の課題 開発に至った経緯 新型コロナウイルスの流行に伴い、リモートワークという言葉をよく耳にするようになったと思います。 弊社でも緊急事態宣言下においては、原則リモートワークとなり、現在はオンライン・オフラインを併用した働き方をしています。 ここで問題となってくるのが自

    自宅ルータの脆弱性検知システムの開発 - Sansan Tech Blog
    yug1224
    yug1224 2023/10/06
  • TerraformによるAirbyteを利用したデータ基盤へのデータ連携とCI/CD - Sansan Tech Blog

    こんにちは!「Sansan Summer Internship 2023」でインターンをしていた野首侑作です(X, Facebook)。R&D Architectグループに1ヶ月強コミットしていました。今回のインターンで使った技術はこれまで全く触ったことがありませんしたが、チームメンバーのサポートもあり番環境でも動かせるコードを書くことができました。 今回学んだことの整理と、Sansanのインターンで学べることの多さを共有したいという意味を込めて、社内ブログでアウトプットしようと思った次第です。 目次 目次 はじめに ローカルでAirbyteの立ち上げ 1. DockerによるAirbyte serverの起動 2. Sourceの登録 3. Destinationの登録 4. Connectionの登録 5. 接続確認 TerraformによるIaC IaCとは Terraformとは

    TerraformによるAirbyteを利用したデータ基盤へのデータ連携とCI/CD - Sansan Tech Blog
    yug1224
    yug1224 2023/09/26
  • 【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織を開催しました。 - Sansan Tech Blog

    こんにちは、Sansan Tech Blog 編集部です。 7/20 (木) にイベント「【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織」を開催しました。今回は、その登壇内容を簡単にご紹介します。 sansan.connpass.com レポートではイベント全体を簡単にまとめていますが、アーカイブ動画も公開していますので、実際の様子やAsk the speakersの模様は映像でもお楽しみいただけます。 www.youtube.com 発表1:『名刺データ化システムの前処理サービスをリプレイスしてモダナイズした』 技術部 Digitization部 Infrastructureグループ 福田 隆誠 speakerdeck.com 福田が約1年半前に携わったプロジェクトで、名刺をデータ化する際に画像の補正処理を行うシステムのリプレイスについて発表。補正

    【Sansan Tech Meetup】インフラエンジニアが考えるプロダクトと組織を開催しました。 - Sansan Tech Blog
    yug1224
    yug1224 2023/08/18
  • TypeScriptプロジェクトにスキーマ駆動開発を持ち込み、より型安全な世界へ - Sansan Tech Blog

    Bill One Entry*1グループの秋山です。 題に入る前にお知らせです。9/12 (火) にTypeScriptを活用した型安全なチーム開発をテーマとしたイベントを開催します。 ぜひ、お気軽にご参加ください! sansan.connpass.com 1. はじめに 1-1. スキーマ駆動開発とは 1-2. Testing Trophyとの関係性 2. 構成 2-1. 最初の構成と課題 2-2. 最終的な構成 3. バックエンド 3-1. スキーマから型ファイルを作る 3-2. APIハンドラに型を与える 3-3. バリデーターを追加する 3-4. huskyでスキーマ変更を検知する 4. フロントエンド 4-1. スキーマからAPIクライアントを作る 5. パターンマッチングを持ち込む 6. まとめ 1. はじめに 1-1. スキーマ駆動開発とは 詳しい解説は他の記事に譲り、一言

    TypeScriptプロジェクトにスキーマ駆動開発を持ち込み、より型安全な世界へ - Sansan Tech Blog
    yug1224
    yug1224 2023/08/15
  • 2023年 研究開発部 新卒技術研修 ~ 実践編 ~ - Sansan Tech Blog

    こんにちは、研究開発部 Architectグループの藤岡です。 4/26(水)〜 4/28(金)で研究開発部内の技術研修を行ったので、その内容を公開します。 目次 目次 研修の目的 研修の概要 実践編の概要 アプリケーションを作成 バッチを作成 gokartとは パイプラインを実装 APIを作成 FastAPI とは APIを実装 ディレクトリ構成 実行 Webアプリを作成 Streamlitとは Webアプリを実装 Docker化 デプロイ ECRにイメージをプッシュ アプリケーション基盤 Circuitについて アプリのマニフェストを作成 研修終了後 終わりに 研修の目的 この研修の主な目的は、新卒社員がスムーズに業務に入れるようにすることです。 研究開発部にはさまざまなバックグラウンドを持つ研究員が入社するため、チーム開発の経験がない方もいます。 そのため、Gitの操作やプルリクエス

    2023年 研究開発部 新卒技術研修 ~ 実践編 ~ - Sansan Tech Blog
    yug1224
    yug1224 2023/06/08
  • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

    はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

    自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
    yug1224
    yug1224 2023/03/06
  • 分析の再現性を担保する工夫 - Sansan Tech Blog

    はじめに 技術部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。 www.nippyo.co.jp 手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック」を書かれています。私たちが『経済セミナー』にて「実証研究マネジメントのためのツールキット」の連載時に、手島教授を始めとした研究者の皆さんに草稿を確認いただいたのですが、このトピックはその際に出た議論をまとめられたものです。 そこでは手島教授が体験した、採択された研究論文の再現性チェックのプロセスが事細かに書かれており、興味深いです。現在 AEA P&P のために replication code を準備している私たちにとっても、大変参考になっています。 その中で論文の筆者として行うべきこととして、以下の4点が挙げ

    分析の再現性を担保する工夫 - Sansan Tech Blog
    yug1224
    yug1224 2023/02/28
  • BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

    こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ

    BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
    yug1224
    yug1224 2023/02/23