kanjirz50のブックマーク (23)

  • 固有表現抽出のアノテーションデータについて - NLP太郎のブログ

    自然言語処理技術のなかでも固有表現抽出(Named Entity Recognition; NER)は情報抽出の処理をやろうとするときにとても役立つ。 応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析(照応解析・共参照解析)のような文脈解析処理などに用いられる。 最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。 しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった

    固有表現抽出のアノテーションデータについて - NLP太郎のブログ
    kanjirz50
    kanjirz50 2020/10/06
  • なぜオンライン移行に爆速対応できたのか?決まり手はkintone×Zoomにあった! サポーターズ、フルオンライン1on1面談イベントの裏側に迫る - CARTA TECH BLOG

    TL; DR オンライン移行 爆速対応の決まり手はkintone×Zoomにあった! サポーターズの強みはツールの威力を活用するだけではなく"捨て続ける改善力"にある 急変する市場変化に追従するために必要なものは「挑戦し続ける」こと 目次 TL; DR 目次 フルオンラインで就活ができる時代が訪れている!! サポーターズと新型コロナウイルス感染症(COVID-19) の関係 そもそもサポーターズ1on1面談イベントとは オンライン移行 爆速対応の決まり手はkintone×Zoomにあった! サポーターズの強みはツールの威力を活用するだけではなく"捨て続ける改善力"にある 改善内容について 改善前(2019年2月時点) 改善後(2019年4月時点) 新商材 オンライン上で行う企業セミナーの発明(2019年7月時点) オンライン上で行う1on1面談の実施 新商材 フルオンライン1on1面談イベ

    なぜオンライン移行に爆速対応できたのか?決まり手はkintone×Zoomにあった! サポーターズ、フルオンライン1on1面談イベントの裏側に迫る - CARTA TECH BLOG
    kanjirz50
    kanjirz50 2020/04/03
  • ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ

    こんにちは、Gunosy Tech Lab の山田です。 Gunosy で開発しているニュースアプリ、ニュースパスでは「多くの人が知っておくべき」と判断されるニュースが出た時、即座にそれをユーザにプッシュ通知でお知らせする速報プッシュ機能があります。 例えば誰もが知るような有名人の結婚や、多くの死傷者が出てしまったような事件などが起こったときに速報が送られます。 しかし「多くの人が知っておくべきとまではいかないが、この話題に興味がある人は知っておいたほうが良さそう」なニュースも多くあります。 例えばスポーツ業界内でのニュースや、株価の大幅変動といったニュースなどがこれに当たると考えています。 そのようなニュースを全ユーザに送っても興味がないユーザが殆どですし、そのようなユーザからするととても邪魔な通知になってしまいます。 実際、以前のオリンピックの際などは速報を送りすぎてしまったのが原因で

    ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ
    kanjirz50
    kanjirz50 2019/10/07
  • fasttextを用いた言語判定

    Facebookが提供するfasttextの公式サイトにて、fasttextを用いた言語判定モデルが公開されていたので、実際に利用してみました。 概要 fasttextはFacebookが公開している単語埋め込みの学習方法およびそのフレームワークです。word2vecとは違い、サブワードを利用した手法が特徴となっています。 こちらの公式ブログの記事によると、fasttextによる言語判定は軽量でかつ高速に言語予測することができると述べられています。言語判定において広く使われるlangid.pyとの評価実験では、高い精度でかつ計算時間が1/10程度であることが示されています。またモデルファイルはオリジナルのサイズでは126MB、圧縮されたモデルは917kB (0.9MB)と、既存の単語埋め込みの学習済みモデルと比較してもかなり軽量になっています。 なお「言語判定」(Language Iden

    fasttextを用いた言語判定
    kanjirz50
    kanjirz50 2019/10/04
  • BERTによるテキスト分類 - Gunosyデータ分析ブログ

    はじめに こんにちはGunosy Tech Labの森です。グノシーのニュース記事を実験的にBERTでテキスト分類しましたので、その結果を共有します。 BERTはご存知の通りGoogle AIが発表した双方向Transformerであり、Pre-trainingできる特徴があります。自然言語処理の代表的なデータセットを用いたタスクやベンチマークで発表当時複数のstate-of-the-artを記録しました。 arxiv.org 記事ではテキスト分類に着目して実験を行いました。 テキスト分類は昨今の深層学習の熱気とは別に従来より研究されている分野であり、代表的なライブラリを使用することで実サービス上でも安定度の高い稼働を実現できます。 上図のようにグノシーにはエンタメ、スポーツのような様々なタブがあります。 これらタブにニュース記事を配置するときにテキスト分類が活躍します。 エンタメ、ス

    BERTによるテキスト分類 - Gunosyデータ分析ブログ
    kanjirz50
    kanjirz50 2019/10/03
  • 勤怠を転記したい!「勤怠つけ太郎」誕生秘話 - Sansan Tech Blog

    Eight 事業部ビジネスサポートチームの山です。社内では七瀬と呼ばれています。 業務企画と呼ばれる、事業部の総務をエンジニアの視点でサポートしています。 今回は昨年制作した「勤怠つけ太郎」についてご紹介します。 勤怠における課題 Workplace に投稿された勤怠連絡を、Google スプレッドシートへ転記したい。 これが勤怠つけ太郎における最初の目的でした。 一見してとても些細な要件に思えますが、その効果は絶大でした。 Eight 事業部では、社員の勤怠に関する連絡を Workplace へ投稿しており、主に他メンバーへの周知やリマインドのために使っています。 その一方で、個々人が実際の出退勤時刻の記録のために TeamSpirit を併用しています。 日々の勤怠連絡は Workplace に投稿され、その数は月に200件を超えます。 業務企画チームでは以前から、Workplace

    勤怠を転記したい!「勤怠つけ太郎」誕生秘話 - Sansan Tech Blog
    kanjirz50
    kanjirz50 2019/05/07
  • 「クラスはオブジェクトである」に辿り着くまで - Sansan Tech Blog

    始めに 初めまして、DSOC エンジニアの冨田です。 突然ですが、明後日は何の日でしょうか? そう、明後日は待ちに待った RubyKaigi です! 楽しみですね、実は今まで RubyKaigi に参加したことがなく初参加になるので、個人的には Rubyist として一歩前に進めたような気がしてます。たとえ登壇内容が高度過ぎて理解できなくても、その場に行き刺激を受けてきたいと思います。 Sansanに転職後、 RubyRails を使って開発をすることになったため、日々学びと気づきの連続です。そんな日々を改めて振り返ると Ruby に対する理解が進んだなと感じる瞬間があったように思います。 それは「クラスはオブジェクトである」ことを理解したときです。 ということで、記事では「クラスはオブジェクトである」ことの内実について解説していきます。世に解説記事は出回っており、すでに理解してい

    「クラスはオブジェクトである」に辿り着くまで - Sansan Tech Blog
    kanjirz50
    kanjirz50 2019/04/16
  • 2018年振り返り - 模索中

    偉い人は言いました「2018年の振り返りは2018年中に」と。 わかってる。振り返り記事書かなきゃ〜と思ってはいた。 しかし年末は毎晩のように忘年会があった。気づいたら年明けてた。しょうがない。 正月はだらだらドラクエビルダーズ2やってたら三が日も終わってしまった…。 でもまだ連休中で新年始まってない方も多いはず。 俺たちの2019年はまだ始まってねぇ!ロスタイムだ!ってことでちょっと出遅れたけど振り返る。 酒飲みながら溜め込んだ写真を眺めつつ、昨年のめぼしい出来事を書き出してみる。 仕事 転職した www.yuki3738.net お昼に悠々出社する裁量労働生活から、朝から満員電車にもみくちゃにされ遅刻の恐怖に怯える固定時間勤務の日々に変わった。 満員電車はホントに最悪。幸福度下がる。 とまぁ転職失敗した風に書いてみたけど成功している。言いたいことは生活がガラリと変わったということ。 そ

    2018年振り返り - 模索中
    kanjirz50
    kanjirz50 2019/01/05
  • 社会学の院生がITベンチャーの研究開発職に就くまで、そしてこれから - SNAGeek

    今年の2月にSansan株式会社に研究開発職として入社してから、そろそろ1年が経とうとしている。 社会学の修士卒→ITベンチャーのR&Dというキャリアはかなり特殊ということもあり、「どうしてそうなったのか」を色々な人から尋ねられる機会も増えてきた。 というわけで、2018年の振り返りも兼ねて、大学・大学院時代にやっていたこと、入社までの経緯、そして現在何をやっているのか等をまとめることにする。 学部1~2年 自分が入学した東京大学教養学部文科3類は、他の科類に比べても文系色が強く、世にいう「文学部」をイメージしてもらえば大枠としては外さないはずだ。学部1,2年は教養課程で、3年生から専門の学部へと進学する仕組みになっている。 この頃はドイツ語やイタリア語などの外国語を中心に哲学、社会学などをつまみい的に勉強していた。大学に入る前から大学院にはなんとなく進学するつもりではいたが、おおまかに

    社会学の院生がITベンチャーの研究開発職に就くまで、そしてこれから - SNAGeek
    kanjirz50
    kanjirz50 2018/12/31
    エモい
  • 「ソフトウェア グローバリゼーション 入門」を読みました - samagaiのブログ

    11月1日に入社したleanチームの天貝です。 leanチームが扱っている案件がグローバル案件中心なので、エンジニア全員で国際化対応に関しての勉強会を行っています。 今回は、その勉強会で扱っている「ソフトウェアグローバリゼーション入門」から学んだことで、自分が知らなかったことや大切だと思うことをまとめました。 基的ですが、見落としがちなことや意識すべきことが書いてあり、グローバルなソフトウェアを作る際に必要最低限のことを学べる良書だと思います。 この記事は Sansan Advent Calendar 2018 - Adventar の20日目の記事です。 adventar.org グローバルなソフトウェアの特徴:多言語で表示、ロケール(地域)に合った表示 ※このはあくまで「表示」にフォーカスを当てています。 「多言語で表示」とは、文化的要素も考慮された適切な翻訳ができていることを指

    「ソフトウェア グローバリゼーション 入門」を読みました - samagaiのブログ
    kanjirz50
    kanjirz50 2018/12/20
  • レガシーシステムのおそうじ - Sansan Tech Blog

    年末ってことで。 Sansan事業部 プロダクト開発部 基盤チームの加畑です。 Sansan Advent Calendar 2018、11日目の記事です。 普段のブログは、いまをときめく機械学習領域のスーパーエースたちや、活気溢れる技術イベントや、圧倒的イケメンCTOが登場していますが、今回は地味で愚直な改善のお話です。 安心してください。 おかげさまでSansanは10余年もの間、特に大きな問題もなくサービスを提供し続けることができています。 このような歴史あるサービスの裏側では、ソフトウェアの質的課題である「レガシー化」と向き合う必要があります。 今回は、レガシーシステムの改善という視点で、私が最近担当した3つの事例をご紹介します。 レガシーシステムとは ソフトウェアの開発に携わる以上、レガシーという言葉は避けては通れません。 偶然ですが、Sansanでも最近立て続けに技術的負債

    レガシーシステムのおそうじ - Sansan Tech Blog
    kanjirz50
    kanjirz50 2018/12/12
  • ペパボをやめて、フラーに入る。 - カブトムシの壺

    頑張って退職エントリでも書くか — うじ川@新潟 2018/11/10〜 (@ujikawa1026) November 6, 2018 退職エントリ、流行ってませんか? 多分、退職エントリには人生色々が詰まっていて、それが面白いからだと思います。ただ、僕は天邪鬼なので流行ってるとそれにノリたくないな、と思ってしまって退職しても、なんとなく書かずにいました。あと、前職のこと悪く言う記事とか散見されるようになりましたが、あれ僕個人的には凄く嫌な感じがして、それもあると思います。 あと、ブログ、と言うか僕が書くこと全般って自分の思考を整理し、整理した状態のものを後から見返すと自分が面白いから書くことがほとんどなのですが、こと今回の退職についてはこれでもかってくらい考えて、整理なんて不要なものでした。あと、そういった感情と共に刻み込まれたものって絶対に忘れないし、そういう意味でもあまり退職エント

    ペパボをやめて、フラーに入る。 - カブトムシの壺
    kanjirz50
    kanjirz50 2018/11/07
  • プロの写真家に自分を撮ってもらうということ - 明日から本気出す

    最近、プロの写真家の方に自分自身を撮っていただく機会がありました。 それがとても良い体験だったので、紹介しようと思います。 きっかけ 私は、Sansan株式会社 でWebエンジニアをやっています。 弊社では、2018年3月から、「Sansan in 表参道」というプロジェクトがスタートしました。(詳しくはこちら) このプロジェクトの一環として、ハービー・山口さんというプロの写真家の方に、社員全員の写真を撮っていただきました。 初めての体験で、緊張もしましたが、とても良い時間でした。 自分をブランディングするということ 私の中では、エンジニアとしての価値を高める、ということが一つの目標になっています。 会社の中で成果を出して評価されるということは、もちろん大切です。しかし、それと同時に、業界の中で評価される、ということも大切だと思います。 エンジニアとしての市場価値を高めるために、技術力を上

    プロの写真家に自分を撮ってもらうということ - 明日から本気出す
    kanjirz50
    kanjirz50 2018/06/15
  • XGBoostにおける単調性制約について調べてみた - Sansan株式会社 | 公式メディア「mimi」

    お久しぶりです。DSOC R&Dグループの中野です。 今回は、機械学習界隈の皆さんが大好きなXGBoostの一機能とProbability calibrationについて調べたことを報告します。 背景 社内で解釈しやすい決定木について議論する機会があり、勾配ブースティングのライブラリーであるXGBoostでは単調性制約を加えることができることを紹介しました。その場では、「指定した上下関係が満足される分割の中でゲインを最大にするものが選ばれるんですよ」と解説したのですが、それでは不十分だったことを最近になって気が付きました。 以下のように身長から体重を予測する例を考えてみましょう。あくまでも模式図なので、実際にこのような分割が起こるかどうかは、気にせずに見てください。 1回目の分割では、「身長が低く体重の軽い」グループと「身長が高く体重の重い」グループが抽出されています。 問題となるのは2回

    XGBoostにおける単調性制約について調べてみた - Sansan株式会社 | 公式メディア「mimi」
    kanjirz50
    kanjirz50 2018/02/27
  • processing で random walk を書いてみた - Isolation is a gift

    kanjirz50
    kanjirz50 2017/12/27
  • 「バッチサイズは小さい方が良い」を勾配ブースティングで検証してみる - お勉強メモ

    名刺の会社のアドベントカレンダー3日目です。 へい社ではR&Dメンバーが論文読み会を定期的に開催しています。私は直近でバッチサイズに関するものを読みましたので、それに関連する数値実験を報告しようと思います。 論文 On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima (ICLR 2017) Train longer, generalize better: closing the generalization gap in large batch training of neural networks (NIPS 2017) 前者の論文では、Deep Learningにおいて、SGDのバッチサイズを小さくした方が汎化性能の高くなる経験則について、バッチサイズとtrain loss func

    「バッチサイズは小さい方が良い」を勾配ブースティングで検証してみる - お勉強メモ
    kanjirz50
    kanjirz50 2017/12/27
  • なぜ僕はアウトプットするのか - 本日も乙

    この記事はSansan Advent Calendar 2017 22日目の記事です。アップするのが遅くなりました。 adventar.org AWSとか書こうと思ってましたが、何度か書いてますし、たまには毛色の変わったことを書こうと思います。 12月ですし今年を振り返ってみると、ブログ記事書いたり、勉強会やカンファレンスに登壇、発表したり、作ったものを公開したりと例年よりアウトプットができた年だったと思います。 3/14 Vuls祭り #2 speakerdeck.com 8/27 July Tech Festa speakerdeck.com 10/19 Vuls祭り #3 speakerdeck.com まあ、JTFとvulsだけですが。。。 アウトプットとは違いますが、AWS認定試験 作ったもの github.com github.com serverless-vuls(Cloud

    なぜ僕はアウトプットするのか - 本日も乙
    kanjirz50
    kanjirz50 2017/12/27
    アウトプットについて共感する部分が多いです。
  • エンジニアからプロダクトマネージャにジョブチェンジした話 - dotrikunの日記

    この記事は Sansan Advent Calendar 2017 の5日目にあたるものです。 とある新人プロダクトマネージャのポエムです。 (私の観測範囲の出来事ベースなので暖かい目で見てください) 前段 私はこれまで3社で開発者としてシステム開発を経験してきました。 受託開発を1年、自社プロダクト開発を7年。内容はWebアプリとiOSアプリの開発です。役割は開発エンジニア兼たまにリードデベロッパー、開発チームリーダーなどを担当してきました。 そして先月からとあるスマホアプリのプロダクトマネージャにジョブチェンジしました。 なぜプロダクトマネージャになったのか 前任のプロダクトマネージャが退職した結果、不在になったポジションを埋める者としてその時点では自分が最も適任だと思い引き継ぎました。 適任だと思った理由としては 開発チームリーダーとして社内にそれなりに顔が利いて、(エンジニアの中で

    エンジニアからプロダクトマネージャにジョブチェンジした話 - dotrikunの日記
    kanjirz50
    kanjirz50 2017/12/27
  • CodeIQについてのお知らせ

    2018年4月25日をもちまして、 『CodeIQ』のプログラミング腕試しサービス、年収確約スカウトサービスは、 ITエンジニアのための年収確約スカウトサービス『moffers by CodeIQ』https://moffers.jp/ へ一化いたしました。 これまで多くのITエンジニアの方に『CodeIQ』をご利用いただきまして、 改めて心より深く御礼申し上げます。 また、エンジニアのためのWebマガジン「CodeIQ MAGAZINE」は、 リクナビNEXTジャーナル( https://next.rikunabi.com/journal/ )に一部の記事の移行を予定しております。 今後は『moffers by CodeIQ』にて、 ITエンジニアの皆様のより良い転職をサポートするために、より一層努めてまいりますので、 引き続きご愛顧のほど何卒よろしくお願い申し上げます。 また、Cod

    CodeIQについてのお知らせ
    kanjirz50
    kanjirz50 2017/11/20
  • 管理するのは「名刺」ではなく「人脈」。Sansan成長の軌跡とこれから。|転職ドラフトReport

    【営業時間のお知らせ】社内行事のため営業時間を下記の通りとさせていただきます。 ・2024年7月1日(月)12時まで ・2024年7月2日(火)14時まで 「早く言ってよ〜」のCMでもおなじみの法人向け名刺管理サービス『Sansan』。今や名刺管理と言えば『Sansan』と言われるほど高い認知度を誇るが、Sansan事業部プロダクト開発部部長の藤倉成太氏が入社した2009年時、導入社数はわずか20~30社程度だったという。そこから足かけ8年で『Sansan』は導入社数6000社、業界シェアNo.1サービス(※)へと成長した。躍進の立役者のひとりである藤倉氏が振り返る『Sansan』の歴史とは。そこからにじみ出るSansan株式会社のカルチャーに迫ってみたい。 ※2016年株式会社シード・プランニング調べ Sansan株式会社 Sansan事業部プロダクト開発部部長 兼 プロダクトマネージャ

    管理するのは「名刺」ではなく「人脈」。Sansan成長の軌跡とこれから。|転職ドラフトReport
    kanjirz50
    kanjirz50 2017/11/20