タグ

自然言語処理に関するNetPenguinのブックマーク (3)

  • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

    今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

    はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
  • トピックモデルを用いてWeb小説のジャンル・流行を分析しよう

    トピックモデルを用いて W e b 小説のジャンル・ 流行を分析しよう 2 0 1 3 / 0 3 / 1 9 ( K M C 春合宿2 0 1 3 ) 近藤 誠一 ( @ s e i k i c h i ) 自己紹介 近藤 誠一 (@seikichi): p༇  大学院修士1回生 p༇  情報学研究科知能情報学専攻 趣味: p༇  ラノベ,料理,アニメ 近況: p༇  電子書籍を買いまくり読みまくり楽しすぎ p༇  シュウ……カツ……シュウ……カツ…… 目次 p༇  今「小説家になろう」がアツい p༇  トピックモデルことはじめ p༇  Latent Dirichlet Allocation (LDA) を用いた Web小説ジャンル解析 p༇  Dynamic Topic Model (DTM) を用いた Web小説ジャンル遷移解析 p༇  まと

    NetPenguin
    NetPenguin 2013/10/22
    LDA, DTM の説明、使用例
  • tfidfについて - 元ダメ院生がギークになるまで続ける日記

    授業でtfidfを勉強してちょっと分かりづらかったのでまとめておく。 tfidfとは? 情報検索で使うアルゴリズムの一つ。 それぞれの単語に重みをつけて、クエリーから文書をベクトル空間で表し 文書とクエリーの類似度でランク付けを行う。 その値が高いほど重要。 tfidf = w = tf・idf w:重みということ。 tfとは? Term frequency(単語出現頻度) 同じ文書に何回も現れる単語ほど検索の有力な手がかり。 つまり一つの文書の中に多く書かれてる単語を探すってことか。 f =frequency of term in a document 単語が一つの文書で出現する頻度 つまりブラウザ上で Ctrl-Fとか使ってある単語を検索したときに、ヒットする数 tf = f/max(f) = 単語の頻度/文章で出現する単語の中で一番多い単語の数 修正(2009 1/6) tf = f

    tfidfについて - 元ダメ院生がギークになるまで続ける日記
    NetPenguin
    NetPenguin 2013/10/22
    文書中の単語の重み付け、単語の重要度を数値化できる。形態素→単語いっぱい→重要度の低い(「私」みたいな一般的な語)を切り捨てることができる。
  • 1