タグ

ブックマーク / buildersbox.corp-sansan.com (25)

  • フロントエンドの本番ビルドに SWC を導入して、ビルド時間とメモリ使用量を同時に削減する - Sansan Tech Blog

    こんにちは。 Eight でエンジニアをしている鳥山(@pvcresin)です。 今年はいくつも BBQ の予定がたっていて、コロナ禍前の日常に戻りつつあることを実感しています。 BBQ ならラムチョップが好きです。 今回は、Web フロントエンド番ビルドに SWC を導入した話をしたいと思います。 目次 背景 esbuild と SWC 事前検証 ビルド処理の移行イメージ 移行作業 ハマったポイント 結果 まとめ 背景 Eight では Web フロントエンド番ビルドを AWS CodeBuild で行っていますが、長年の開発によりコードベースが膨らみ、それによってビルドに要求されるメモリ領域も日々増加していました。 そしてある日を境に、OOM Killer(Out Of Memory Killer) によるプロセス停止で時々ビルドが失敗するようになってしまいました。 これは C

    フロントエンドの本番ビルドに SWC を導入して、ビルド時間とメモリ使用量を同時に削減する - Sansan Tech Blog
    yuiseki
    yuiseki 2024/06/04
  • ジョブ理論に則り、ユーザーフィードバックを整理する。 - Sansan Tech Blog

    自己紹介 こんにちは、Sansan事業部プロダクト室の乙幡です。 新卒入社後、最初に配属されたのはビジネス部門で、Bill Oneというプロダクトのインサイドセールスを担当しました。その後、入社2年目の2023年にプロダクトマネージャーへのキャリアチェンジを行い、現在は日々新しいことを学びながら活動しています。 今回は、日々の業務でうまくいったTipsについて振り返りたいと思います。 なお記事は、Sansan Advent Calendar 2023の7日目の記事です。 ジョブ理論とは ジョブ理論(Job Theory)は、製品やサービスが市場で成功するための理論の一つで、クレイトン・クリステンセンによって提唱されました。*1この理論の核心は、「製品やサービスが消費者に採用されるのは、彼らが特定の“ジョブ”(仕事やタスク)を完了させたいというニーズがあるからである」という考え方に基づいて

    ジョブ理論に則り、ユーザーフィードバックを整理する。 - Sansan Tech Blog
    yuiseki
    yuiseki 2024/01/14
  • 【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog

    研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配信システムがどのように実現されているか、またその中で研究開発部のどのような技術が利用されているかについて紹介したいと思います。 ニュースの種類 現在、SansanやEightでは以下のようなニュースを配信しています。 人事異動情報 社内の共通人脈の通知 企業の最新ニュース 同業他社の最新動向 ニュースフィード 企業の最新ニュース ニュース配信のための自然言語処理技術 質の高いビジネスニュースを配信するために、以下のような研究開発部の自然言語処理技術が利用されています。 固有表現抽出 ジャンル判定 プ

    【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog
  • textlintによる表記ゆれ撲滅 - Sansan Tech Blog

    Eightでフロントエンドエンジニアをしている青山です。 今回はEightのCI環境にtextlintという文書校正ツールを導入してみたので、その経緯や実施した内容をお伝えします。 サービスを複数抱えているなど、文書管理が煩雑になってチェックが大変、といった場合に活用できるかもしれません。 textlint.github.io ある日のフィードバック Eight(およびSansanの各プロダクト)では、社内のslackでフィードバックを受け取るチャンネルが存在しています。活発に社内外からのフィードバックが投稿されていますが、ある日の投稿で以下のようなものがありました。 今日届いたお知らせの文言に「副業」というのが使われてました。 Eightでは「副業」使わずに「複業」とする、みたいな方針だった気がしたので、気になりました。 実際このフィードバックが上がった直後には、素早く修正リリースが行わ

    textlintによる表記ゆれ撲滅 - Sansan Tech Blog
  • 【Techの道も一歩から】第34回「固有表現抽出のためのデータを作る」 - Sansan Tech Blog

    こんにちは。 DSOC 研究開発部の高橋寛治です。 記事は Sansan Advent Calendar 2020 - Adventar の初日の記事です。 クリスマスにアノテーションされたデータがプレゼントされると幸せですよね。 プレゼントを渡せるように、タグ設計やアノテーションについて、どのような考えでどうデータを作るのかを具体的に紹介します。 ただし、Advent Calendar 1日目ということでゆる~く紹介したいと思います。 最近は、固有表現抽出のアノテーションデータの説明や実際のシステム運用の知見、書籍など、固有表現抽出の情報が増えてうれしいですね。 固有表現抽出のアノテーションデータについて - NLP太郎のブログ nerman: AllenNLPOptuna で作る固有表現抽出システム - クックパッド開発者ブログ 実践・自然言語処理シリーズ 第4巻 情報抽出・固

    【Techの道も一歩から】第34回「固有表現抽出のためのデータを作る」 - Sansan Tech Blog
    yuiseki
    yuiseki 2021/10/27
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
  • 書評:『施策デザインのための機械学習入門』 - Sansan Tech Blog

    こんにちは. DSOC 研究開発部の黒木裕鷹です. なんと,思いつきで始めたランニングが続いており,最初の1ヶ月は65kmほど走っていたようです! やはり,ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです. フルマラソン目指して頑張りたいと思います🏃 さて,先日株式会社ホクソエムの高柳さんより,監修されたをご恵贈いただきました! ありがとうございます!!! いつもはネットワークの分析手法にまつわる連載をしていましたが,せっかくですので,今回は書籍のレビュー・紹介をしたいと思います. gihyo.jp 紹介・どんなか 1章:機械学習実践のためのフレームワーク 2章:機械学習実践のための基礎技術 3章:Explicit Feedback を用いた推薦システムの構築の実践 4章:Implicit Feedback を用いたランキングシステム構築の実践 5章:因果効果

    書評:『施策デザインのための機械学習入門』 - Sansan Tech Blog
    yuiseki
    yuiseki 2021/08/26
  • 人事異動のデータ化の取り組み 〜 CamelotによるPDFの表データ抽出 - Sansan Tech Blog

    DSOC サービス開発部 GEES/JES/COEグループの松です。 最近はコロナの影響で巣ごもりをしており、家の庭で芝生を育てています。 色々と手抜きをしてしまったがために生え揃いがまばらで、かわいい反面、芝生の上を裸足で歩けるようになるにはまだまだ時間がかかりそうです。気長に待ってみようと思います。 今日はSansanの機能の一つである、人事異動ニュースを支えるデータ化の取り組みについてご紹介したいと思います。 JES とは Sansanの機能の中に、人事異動ニュースと呼ばれる機能があります。 sin.sansan.com これは、所有する名刺に紐づく人物の人事異動が公開されたときにそれをニュースとして配信し、交換前に所有名刺の情報を最新情報に更新できるという機能です。 ニュースとして提供するために人事異動情報のデータ化を行っていますが、そのシステムがJESと呼ばれるもので、DSOC

    人事異動のデータ化の取り組み 〜 CamelotによるPDFの表データ抽出 - Sansan Tech Blog
  • 【Techの道も一歩から】第38回「Streamlit で固有表現抽出の結果を表示する」 - Sansan Tech Blog

    こんにちは。 DSOC R&D グループの高橋寛治です。 最近、部内で Streamlit による可視化を見かけるようになってきました。 Streamlit は、インタラクティブなデータの可視化に特化した Web アプリケーションを少ないコードで素早く提供することができる Python ライブラリです。 私自身は Web アプリケーションとしてデモ化する際に手慣れた Flask で書くことが多いです。 慣れているとはいえ時間を要するため、同じ結果を爆速で実現できるなら使わないわけにはいきません。 作業効率改善のために、固有表現抽出を題材にして使ってみることにしました。 今回 Streamlit で実現したいこと テキストエリアに入力されたテキストを解析し、解析結果を表に表示します。 入力エリアを準備する まずは、Streamlit をインストールし、ファイルを準備します。 $ pip in

    【Techの道も一歩から】第38回「Streamlit で固有表現抽出の結果を表示する」 - Sansan Tech Blog
  • 【ネットワークの統計解析】第3回 代表的なネットワークのモデルを俯瞰する (1) - Sansan Tech Blog

    こんにちは.Sansan DSOC 研究開発部の黒木裕鷹です. 10月にゼルダの伝説 Breath of the Wild を購入し毎日2~30分ほどプレイしているのですが,寄り道ばかりしてしまい,まったくクリアできる気配がありません笑 さて,この連載では,自分の勉強・復習も兼ねて,ネットワークデータにまつわる統計解析を気の向くままに紹介しています. 第1, 2回は,ネットワークデータの標調査(サンプリング)を扱いましたが, 今回からはいよいよ数理モデルを取りあげていきます. とはいえ,一概にネットワークのモデルといってもその範囲や種類は膨大なものになります. そこで,今回の記事では手始めに,広くネットワークデータにまつわる現象とそれぞれの代表的な数理モデルを俯瞰し,全体感を掴むことにします. それでも長くなってしまうことが予想されるため,この記事では主に「複雑ネットワーク」というテーマ

    【ネットワークの統計解析】第3回 代表的なネットワークのモデルを俯瞰する (1) - Sansan Tech Blog
    yuiseki
    yuiseki 2021/01/15
  • 【ネットワークの統計解析】第4回 代表的なネットワークのモデルを俯瞰する (2) - Sansan Tech Blog

    こんにちは.そして,あけましておめでとうございます. Sansan DSOC 研究開発部の黒木裕鷹です. 8月下旬からはじめたこの連載も,はやいもので第4回となりました. 結構な文量をそこそこのペースで書いているような気もしますが,仕事もちゃんとしているつもりです(笑) さて,この連載では,自分の勉強・復習も兼ねて,ネットワークデータにまつわる統計解析を気の向くままに紹介しています. 前回の記事では,特に複雑ネットワークを中心として,1980から2000年代に盛んに開発されてきた手法を紹介しました. 今回からはいよいよ,ネットワークデータに対する深層学習 (Graph Neural Network; GNN) やノードの表現学習 (node embedding) を俯瞰していきたいと思います. ただし,少しボリュームが出てしまうのでさらに2回に分け,GNNの大部分は次回記事に回します. そ

    【ネットワークの統計解析】第4回 代表的なネットワークのモデルを俯瞰する (2) - Sansan Tech Blog
  • Sansan Tech Blog

    こんにちは!Sansan技術部Mobile Applicationグループのふるしんです。 以前の記事で「アーキテクチャ検討会」を実施しているお話を書きました。 buildersbox.corp-sansan.com この検討会の中ではどのような議論がなされているのかを聞かれる機会があり、せっかくなのでご紹介します。 続きを読む はじめに データ戦略部門の松です。 1年の各月の季節を漢字で表すと「冬冬春春夏夏夏夏夏夏秋冬」と感じるくらい最近暑いですね。5月なのに真夏日も出ており、秋が好きな私としてはとても残念な気持ちを持っています。今年も暑くなりそうなので、体調に気をつけて過ごしていきたいです。 今回はRxJSやstream処理について失敗から学びを得ましたので、その知見を共有します。 続きを読む こんにちは、Sansan Engineering Unitの部長を務める、笹川 裕人です

    Sansan Tech Blog
  • Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

    はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独

    Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog
  • 「画像処理 勉強会」を開催しました - Sansan Tech Blog

    こんにちは,DSOC研究開発部の内田です. 弊社は表参道周辺にオフィスを構えており,DSOCは表参道沿いのSansan ONEに入居しています. 例年この時期になるとイルミネーションが輝くのですが,ご時世的に今年はかなり控えめで,少し寂しさを感じている今日この頃です. 記事では,先日主催いたしました「画像処理 勉強会」のレポートをお届けします. sansan.connpass.com 画像処理 勉強会 DSOC研究開発部では,機械学習・自然言語処理・社会学などの勉強会を開催しており,画像系のグループでも何か開催したいという要望があり開催する運びとなりました.最終的には,1週間前にconnpassページをオープンしたにも関わらず,293人もの方々に参加登録をいただきました!密かに弊社のconnpassの記録更新が目標だったので,ひとまず達成できてよかったです. 裏話的な話をすると,ちょうど

    「画像処理 勉強会」を開催しました - Sansan Tech Blog
  • 【Techの道も一歩から】第33回「文献紹介:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList」 - Sansan Tech Blog

    こんにちは。 DSOC 研究開発部の高橋寛治です。 社内の論文読み会で紹介した評価に関する文献である「Beyond Accuracy: Behavioral Testing of NLP Models with CheckList」について簡単に所感を交えて*1紹介したいと思います。 なお、文内での図表は基的に文献から引用したものとなります。 Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST 文献情報 Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList, Association for Comput

    【Techの道も一歩から】第33回「文献紹介:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList」 - Sansan Tech Blog
  • 【ネットワークの統計解析】第1回 ネットワークデータと標本調査(1) - Sansan Tech Blog

    こんにちは. Sansan DSOC 研究開発部の黒木です.今年の春に新卒社員として入社しました. 専門は統計解析で,特に時系列データやネットワークデータの分析を行ってきました.最近では,タイピングゲーム「寿司打」のやりすぎで左手中指の第2関節が少し痛みます. こちらの連載では,自分の勉強・復習も兼ねて,古典的な手法からより発展的な話題まで,ネットワークデータにまつわる統計解析を紹介していこうと思います. ネットワークとは,主体となるノード,それらのつながりであるエッジから構成される対象で,webページの巨大な集合であるWWW (World Wide Web) やSNSにおける人のつながり,交通網,物連鎖のネットワークなど,その例は多岐に渡ります. 近年の機械学習やデータサイエンスの盛り上がりとともに,このようなネットワークデータからも有益な知見を得たいという欲求が高まっています.そんな

    【ネットワークの統計解析】第1回 ネットワークデータと標本調査(1) - Sansan Tech Blog
  • 「第三回 全日本コンピュータビジョン勉強会」で発表してきました - Sansan Tech Blog

    こんにちは,DSOC R&Dの内田です. 最近ちゃんと自炊を始めたのはいいものの,土地柄に合わず東南アジア料理ばかりが生産されています. 和風なものにトライしていきたいところどす. この度,7/18(土)に開催されました「第三回 全日コンピュータビジョン勉強会 CVPR2020読み会(後編)」にて発表してきましたので,今回はその発表報告です. バナーの写真とは一切関係がありません. 全日コンピュータビジョン勉強会について 全日コンピュータビジョン勉強会は,その名の通りコンピュータビジョンを勉強する会なわけですが,普段は各地方別々に「コンピュータビジョン勉強会@関東」,「名古屋CV・PRML勉強会」,「関西CV・PRML勉強会」という勉強会が開催されています.今回は新型コロナの影響で勉強会がオンライン開催となる中で,合同で開催される運びになったそうです. 私自身はコンピュータビジョン勉

    「第三回 全日本コンピュータビジョン勉強会」で発表してきました - Sansan Tech Blog
  • 時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog

    はじめに こんにちは、DSOC研究開発部の橋です。最近買ってよかったな、と思ったものは「詰め替えそのまま」です。これはシャンプーやトリートメントの詰め替えをそのままホルダーにかけて使うことができるようになるグッズで、文字通り(比較的安い)詰め替えをそのまま・簡単に使えるようになる点、お風呂の床に詰め替えを置かなくて済むようになる点という2つの点から非常に良いです。気になる人はぜひググって買ってみてください。 詰め替えそのままの話はさておき、今回時間依存性を考慮したword embeddingsの話をします。 時間に依存するword embeddingsの必要性 現在では、word embeddingsはもはや一般的なツールになりつつあると思います。学習済みのword embeddingsを適用して特徴量とし、何かしらの機械学習アルゴリズムにかける、というのもよく行われていると思います。し

    時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog
  • ここ最近の計算社会科学の動向 - Sansan Tech Blog

    反対意見を知れば分かりあえるのか?偏った集団でも正しい決定ができるのか?フェイクニュースほど広まりやすいのか?良好な人間関係はパフォーマンスを向上させるのか?研究者が束になってかかれば、社会的現象を予測できるのか? こんにちは、Sansan DSOC R&D研究員の前嶋です。普段はつながりに効く、ネットワーク研究小話という連載を書いていますが、今回はここ2,3年の計算社会科学の潮流を紹介したいと思います。 計算社会科学(Computational Social Sciences)は、SNSなどのビッグデータ解析やオンライン上での実験などを用いて社会現象を定量的に分析するという、社会科学と計算機科学の融合分野です。 日でも最近、マシュー・サルガニックによる概説書”Bit by Bit”が翻訳され、社会科学の研究者のみならず、広くその名前が知れ渡りました。日には計算社会科学研究会というコミ

    ここ最近の計算社会科学の動向 - Sansan Tech Blog
  • 【つながりに効く、ネットワーク研究小話】vol.14 もう一つの「社会的距離」 - Sansan Tech Blog

    Sansan DSOC研究員の前嶋です。「つながりに効く、ネットワーク研究小話」の第14回です。来は今頃、夏鳥を観察しに戸隠高原に遠征する予定だったのですが、新型コロナウイルス禍の中で、自宅待機を余儀なくされています。 ソーシャル・ディスタンシング このような先行きの見えない状況の中、バズワードになっているのが「社会的距離」です。「社会的距離(戦略)」とは、「ソーシャル・ディスタンシング」とも呼ばれ、ウイルスの感染を防ぐために、他者との距離を一定程度確保することを指します。最近では、スーパーのレジ待機列に、前の人との距離の目安となるようなテープが貼られることも増えてきました。 社会学を専攻している私は、この言葉をテレビのニュース番組で初めて耳にした時、虚を突かれました。なぜなら、「社会的距離」は社会学の中で、とりわけ社会ネットワーク研究に近い領域で伝統的に用いられてきた用語だからです。

    【つながりに効く、ネットワーク研究小話】vol.14 もう一つの「社会的距離」 - Sansan Tech Blog