daitomのブックマーク - はてなブックマーク

daitom id:daitom

ブックマーク / zenn.dev/koukyo1994 (1)

テーブルデータ向けの自然言語特徴抽出術
例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。データの例。'title'、'description'など自然言語を含むカラムが存在する。参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。コラム MeCabを用いたトークン化
daitom 2021/05/10
自然言語処理

BERT
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx