3つの要点 ✔️ 意味領域ごとの編集が可能なGAN ✔️ セマンティックマスクを用いて、潜在空間を意味領域ごとに分けることが可能な学習フレームワークを提案 ✔️ 既存の画像編集手法と組み合わせることでより細かい編集が可能に SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing written by Yichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen (Submitted on 4 Dec 2021 (v1), last revised 29 Mar 2022 (this version, v3)) Comments: CVPR 2022. Subjects: Computer Vision a
3つの要点 ✔️ 位置埋め込みの性質・特性について広範に分析 ✔️ 並進不変性、単調性、対称性の三つの指標から位置埋め込みを解析 ✔️ 様々な下流タスクにおける位置埋め込みの有効性について実験・検証 On Position Embeddings in BERT written by Benyou Wang, Lifeng Shang, Christina Lioma, Xin Jiang, Hao Yang, Qun Liu, Jakob Grue Simonsen (Submitted on 29 Sept 2020 (modified: 02 Mar 2021)) Comments: Accepted to ICLR2021. Subjects: Position Embedding, BERT, pretrained language model. code: はじめに Transf
3つの要点 ✔️ 知識蒸留(KD)によるモデル複製・再現を防ぐ"Nasty Teacher"の提案 ✔️ 通常のモデルと同等の性能を維持しつつ、学生モデルの性能を著しく低下させる ✔️ 様々な条件での実験により、知識蒸留に対する免疫(KD-immunity)を実証 Undistillable: Making A Nasty Teacher That CANNOT teach students written by Haoyu Ma, Tianlong Chen, Ting-Kuei Hu, Chenyu You, Xiaohui Xie, Zhangyang Wang (Submitted on 29 Sept 2020) Comments: Accepted to ICLR2021. Subjects: knowledge distillation, avoid knowledge le
3つの要点 ✔️ BERTモデルをさらに軽量・高速化し、オープンソースとして公開 ✔️ 従来モデルを上回る精度と高速性を確認 ✔️ リアルタイム性が求められるようなビジネスシーンでの活用可能性 AI-SCHOLARからのワンポイント解説 今までAIとは無縁だと思われていた場所ですら、AIの恩恵が受けられるエッジAIの発展が目覚ましいものがあります。今回の内容はそんなエッジにも関わってくる内容になります。日本語・軽量モデル・精度も高いというモデルへのブラッシュアップはビジネス用途の幅を大きく広げます。そんな1つの例としてキャッチアップしていただければと思います。 概要 オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CEO 椎橋徹夫・代表取締役CTO 藤原弘将。
3つの要点 ✔️ Skip-Layer Excitationとself-supervised Discriminatorを提案し、パラメータの大幅削減に成功 ✔️ 少量データでも学習可能 ✔️ 1024×1024の画像もGPU1枚、数時間で学習可能 Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis written by Anonymous (Submitted on 29 Sep 2020) Comments: Accepted at ICLR2021 Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV) Comm 概要 これまでのG
3つの要点 ✔️ TransformerとCNNを組み合わせたモデル,Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20
3つの要点 ✔️ BERT の埋め込み表現が各層で異なる情報を捉えていることを実証 ✔️ 各層の情報を統合して文ベクトルを構成する手法を提案 ✔️ 提案手法で主要なタスクでの精度向上を達成 SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word Models written by Bin Wang, C.-C. Jay Kuo (Submitted on 16 Feb 2020 (v1), last revised 1 Jun 2020 (this version, v2)) Comments: Accepted at arXiv Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM) Of
3つの要点 ✔️ クラス特異的フィルタの制御を行う。 ✔️ 精度を損なわず、フィルタの解釈性が向上 ✔️ 物体位置や敵対的サンプルに応用可能 Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters written by Haoyu Liang, Zhihao Ouyang, Yuyuan Zeng, Hang Su, Zihao He, Shu-Tao Xia, Jun Zhu, Bo Zhang (Submitted on 16 Jul 2020) Comments: Accepted at arXiv Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (
3つの要点 ✔️ パディングがどのようにしてCNNのアーチファクト(死角)を発生させるのかを実証 ✔️ 0パディングの不均等な適用がバイアスの解決可能な原因であることを特定 ✔️ パディングとCNNのfoveation(フォビエーション)の挙動との関連を解明 Mind the Pad -- CNNs can Develop Blind Spots written by Bilal Alsallakh, Narine Kokhlikyan, Vivek Miglani, Jun Yuan, Orion Reblitz-Richardson (Submitted on 5 Oct 2020) Comments: Accepted at ICLR2021 Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial I
3つの要点 ✔️ self-superviseな手法によってペア画像を必要としない ✔️ 探索領域を限定することで探索を容易にし、生成画像の妥当性を獲得 ✔️ 単純な高解像度画像を生成するのではなく、ダウンスケールした際に実際に入力した低解像度画像に近くなるような高解像度画像を生成する PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models written by Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi, Cynthia Rudin (Submitted on 8 Mar 2020 (v1), last revised 20 Jul 2020 (this version, v3)) Comments:
3つの要点 ✔️ Data augmentationによく用いられる反転に新しい概念を提唱 ✔️ 人間では気づかなかった左右反転を認識 ✔️ この性質を元にした拡張で、さらなる精度向上が期待できる Visual Chirality written by Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely (Submitted on 16 Jun 2020) Comments: Published by CVPR2020 Subjects: Computer Vision and Pattern Recognition (cs.CV) はじめに 左右反転によるData augmentationは物凄く当たり前なデータ拡張手法であり、特に気にすることなく今まで使用してきた人もいるのではないでしょうか。私も今回の論文を読むまでは結構当たり前のように使っていま
3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco
3つの要点 ✔️ 尤度によるOOD検出は背景情報によってモデルの学習にバイアスが生じ、検出に失敗する可能性が高い。 ✔️ 今回提案する尤度比によるOOD検出では背景情報に対する対象物の情報に注目することができるため、背景情報の悪影響を抑えることができる。 ✔️ 尤度比を利用することでSOTAなOOD検出精度を達成することに成功した。 Likelihood Ratios for Out-of-Distribution Detection written by Jie Ren, Peter J. Liu, Emily Fertig, Jasper Snoek, Ryan Poplin, Mark A. DePristo, Joshua V. Dillon, Balaji Lakshminarayanan (Submitted on 7 Jun 2019 (v1), last revised 5
3つの要点 ✔️ 自然言語処理の中心的存在であるBERTのサーベイ論文の紹介 ✔️ BERTに関する研究の方向性、課題を2回にわけて網羅的に説明 ✔️ 今回はBERTが何を捉えているかを調べた研究を紹介 A Primer in BERTology: What we know about how BERT works written by Anna Rogers, Olga Kovaleva, Anna Rumshisky (Submitted on 27 Feb 2020) Comments: Published by arXiv Subjects: Commputation and Language(cs.CL) 近年の自然言語処理技術の発展を考える上でBERTと呼ばれるtransformerベースの事前学習言語モデルの存在は欠かすことができません。2018年に発表された当時、自然言語理
3つの要点 ✔️ Disentangledな表現学習にProgressive Learningの有効性を示した ✔️ 提案したpro-VLAEは実験で定量的にも定性的にも多様な生成要因のもつれを解くことに成功 ✔️ Disentanglementの評価指標であるMIGを補完するMIG-supを提案した Progressive Learning and Disentanglement of Hierarchical Representations written by Zhiyuan Li, Jaideep Vitthal Murkute, Prashnna Kumar Gyawali, Linwei Wang (Submitted on 24 Feb 2020) Comments: accepted by ICLR 2020 Conference Subjects: Machine Lea
3つの要点 ✔️その1 高速・高精度な自然言語処理モデルELECTRAが登場 ✔️その2 低精度なGeneratorにより入力を置換することで、文全体から効率的に学習を行う ✔️その3 RoBERTaの約1/4の学習量で同等の性能を発揮 ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS written by Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning (26 Sep 2019 (modified: 10 Mar 2020)) Comments: accepted by ICLR 2020 Subjects: Machine Learning (cs.LG); Machine Learning (sta
3つの要点 ✔️ 文章要約タスクに特化した事前学習モデルであるPEGASUSが登場 ✔️Gap Sentence Generation(GSG)を導入 ✔️12の文章要約タスクで高性能、少ない学習データで既存モデルを超える PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization written by Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu (Submitted on 18 Dec 2019) subjects : Computation and Language (cs.CL) はじめに Transformerを用いた事前学習モデルには、BERT、XLNet、RoBERTa、ALBERTなどがあります。これらのモデル
3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ
今回紹介するのは、画像生成AI、GAN(敵対的生成ネットワーク)の中身を詳しく調査したという研究です。最近のGANは人でも本物の写真かどうか見間違うほどの性能を発揮しますが、GANがどのように『描いている』かを可視化した結果、簡単には説明できないような描画スキルを獲得していることがわかってきました。(※1) 論文 https://openreview.net/forum?id=Hyg_X2C5FX (1) AIの中身 先週、日本政府がまとめた人工知能(AI)に関する原則が明らかになったと日経新聞が報じました(※2)。AIの社会浸透は急激に進んでいますが、その判断過程がブラックボックスのまま使われることを国、あるいは国際的な枠組みである程度規制するとともに、AIの中身を専門家でなくても理解しやすくするための研究開発が進められています。 今回扱うのはGANを使った画像生成AIです。以前AI-S
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く