0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
インターネットで「炎上」に参加する人は、全体の約1%ほどだ。それなのに、ターゲットとなった人が身の危険を感じるほどの中傷につながるのはなぜなのか。炎上の書き込みをする人々は何を考えているのか。毎日新聞取材班が取材した--。※本稿は、毎日新聞のWEB連載「匿名の刃 SNS暴力考」をまとめ、加筆した、毎日新聞取材班『SNS暴力 なぜ人は匿名の刃を振るうのか』(毎日新聞出版)の一部を再編集したものです。 写真=iStock.com/loveshiba※写真はイメージです - 写真=iStock.com/loveshiba■炎上書き込みをする人はわずか1%炎上に参加するのは意外に「普通の人」であることが分かってきたが、実際に参加しているのは全体から見れば、ごく少数であるようだ。 慶應義塾大学の田中辰雄教授(計量経済学)と国際大学の山口真一准教授(計量経済学)らが2014年に実施した調査で、その一端
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く