ブックマーク / buildersbox.corp-sansan.com (3)

  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
    shunk031
    shunk031 2021/09/21
  • 時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog

    はじめに こんにちは、DSOC研究開発部の橋です。最近買ってよかったな、と思ったものは「詰め替えそのまま」です。これはシャンプーやトリートメントの詰め替えをそのままホルダーにかけて使うことができるようになるグッズで、文字通り(比較的安い)詰め替えをそのまま・簡単に使えるようになる点、お風呂の床に詰め替えを置かなくて済むようになる点という2つの点から非常に良いです。気になる人はぜひググって買ってみてください。 詰め替えそのままの話はさておき、今回時間依存性を考慮したword embeddingsの話をします。 時間に依存するword embeddingsの必要性 現在では、word embeddingsはもはや一般的なツールになりつつあると思います。学習済みのword embeddingsを適用して特徴量とし、何かしらの機械学習アルゴリズムにかける、というのもよく行われていると思います。し

    時間依存性を考慮したWord Embeddingsのまとめ - Sansan Tech Blog
    shunk031
    shunk031 2020/11/28
    時代とともに単語の意味は変化するが、近年よく使われる埋め込みはこうした通時性を考慮できていない。このあたりの取り組みは個人的に気になっています。Diachronic Word Embeddings [ACL'16] とかもここらへんのトピックかも。
  • 【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog

    こんにちは,DSOC研究開発部 Automation Groupの内田です. 普段オフィスではスタンディングデスクと曲面ディスプレイという環境で作業をしているのですが,秋は設備投資の季節ということで,一念発起して自宅にも曲面ディスプレイを導入しました.ディスプレイの広さは心の余裕ということで,QOLが爆上がりしています.皆さんも導入を検討してみてはいかがでしょうか? www.amazon.co.jp 宣伝はさておき,今回は PyTorch のエコシステムである torchvision が少し進化した話をしたいと思います. torchvision 近年の深層学習の隆盛は,簡単に深層モデルを実装できるフレームワークや周辺のエコシステムが整備されたことに起因していると言っても過言ではないでしょう.その中で,TensorFlowとPyTorchは深層学習フレームワークの二大巨塔と目されています.P

    【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog
    shunk031
    shunk031 2020/11/05
    torchvisionのtransformsがGPU上で動くようになってた。早速試してみたい👀
  • 1