[B! 自然言語処理] NetPenguinのブックマーク

NetPenguin id:NetPenguin

自然言語処理に関するNetPenguinのブックマーク (3)

はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transf ormers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。（本記事公開後に公開されたデータセットで再検証しています。最新情報は第18回をご覧ください。 2021.12.21 追記） 1. はじめに本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ
NetPenguin 2023/11/02
あとで読む

bert

llm

ai

自然言語処理

NLP
リンク
トピックモデルを用いてWeb小説のジャンル・流行を分析しよう
トピックモデルを用いて W e b 小説のジャンル・流行を分析しよう 2 0 1 3 / 0 3 / 1 9 ( K M C 春合宿2 0 1 3 ) 近藤誠一 ( @ s e i k i c h i ) 自己紹介近藤誠一 (@seikichi): p༇  大学院修士1回生 p༇  情報学研究科知能情報学専攻趣味: p༇  ラノベ，料理，アニメ近況: p༇  電子書籍を買いまくり読みまくり楽しすぎ p༇  シュウ……カツ……シュウ……カツ…… 目次 p༇  今「小説家になろう」がアツい p༇  トピックモデルことはじめ p༇  Latent Dirichlet Allocation (LDA) を用いた Web小説ジャンル解析 p༇  Dynamic Topic Model (DTM) を用いた Web小説ジャンル遷移解析 p༇  まと
NetPenguin 2013/10/22
LDA, DTM の説明、使用例

アルゴリズム

自然言語処理
リンク
tfidfについて - 元ダメ院生がギークになるまで続ける日記
授業でtfidfを勉強してちょっと分かりづらかったのでまとめておく。 tfidfとは？情報検索で使うアルゴリズムの一つ。それぞれの単語に重みをつけて、クエリーから文書をベクトル空間で表し文書とクエリーの類似度でランク付けを行う。その値が高いほど重要。 tfidf = w = tf・idf w:重みということ。 tfとは？ Term frequency(単語出現頻度) 同じ文書に何回も現れる単語ほど検索の有力な手がかり。つまり一つの文書の中に多く書かれてる単語を探すってことか。 f =frequency of term in a document 単語が一つの文書で出現する頻度つまりブラウザ上で Ctrl-Fとか使ってある単語を検索したときに、ヒットする数 tf = f/max(f) =　単語の頻度/文章で出現する単語の中で一番多い単語の数修正(2009 1/6)　tf = f
NetPenguin 2013/10/22
文書中の単語の重み付け、単語の重要度を数値化できる。形態素→単語いっぱい→重要度の低い(「私」みたいな一般的な語）を切り捨てることができる。

アルゴリズム

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx