タグ

2018年1月15日のブックマーク (3件)

  • サブカルのためのword2vec | BLOG - DeNA Engineering

    はじめに AIシステム部AI研究開発グループ アルバイトの五十嵐です。( @bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。 私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。 取り組んだタスク 突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

    サブカルのためのword2vec | BLOG - DeNA Engineering
    knok
    knok 2018/01/15
  • #タモリ倶楽部 風俗ビッグデータ! 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める

    ももひこ97 @momohiko97 #タモリ倶楽部 24時20分~24時50分 今夜遂に大公開!!痴の巨人が解析したデリヘル・ビッグデータ!…最新分析ソフトがたたき出すお宝データ!!この言葉で紹介されているデリヘル嬢は「当たり」!? 2018-01-13 00:12:03

    #タモリ倶楽部 風俗ビッグデータ! 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める
    knok
    knok 2018/01/15
    KHCoderか…
  • いまさら編集距離 (Levenshtein Distance) を実装するぜ

    ある文字列Aに対して『1文字の追加・削除・置換』を何回繰り返せば他の文字列Bになるか。このときの最小回数を、文字列A, B間の編集距離 (Levenshtein Distance)と呼ぶ。 花火 から 火花 までの編集距離は各文字の置換なので 2 クワガタ から カブトムシ までの編集距離はなんかもう全文字違うので総入れ替え&文字『シ』の追加で 5 この編集距離、文字列の“類似度”と見ることができて、なかなか便利な子である。『Job Titleの前処理&クラスタリングをどうやって実現するか問題』では、人々の肩書きを編集距離を使って前処理(クラスタリング)している事例も紹介した。 さて、ここでは Levenshtein Distance を求めるアルゴリズムを実装して、備忘録として書き留めておく。ネット上にも多数の解説記事があり「今更ァ?」という話だが、正直どれを読んでもピンとこなかったのだ

    いまさら編集距離 (Levenshtein Distance) を実装するぜ
    knok
    knok 2018/01/15