相关文章
《Blockwise Self-Supervised Learning at Scale》个人解读
2024-12-14 21:58

Published in Transactions on Machine Learning Research (01/2024)

论文地址:https://openreview.net/forum?id=M2m618iIPk
GitHub: https://github.com/shoaibahmed/blockwise_ssl

《Blockwise Self-Supervised Learning at Scale》个人解读

Author’s affiliation

University of Cambridge, UK
meta-FAIR, NY, USA
New York University, NY, USA
Aalto University, Espoo, Finland

目前最先进的深度网络都是由反向传播驱动的。然而,在端到端训练中发现的长反向传播路径在生物学上是不可信的,而且在能量消耗方面效率低下。在本文中,我们以块学习规则(blockwise learning rules)的形式探索完全反向传播的替代方案,在自监督学习方面获得了提升。我们的研究表明,由独立训练ResNet-50的4个主要层块组成,并在每个块上都使用Barlow Twins的损失函数的块预训练过程,在ImageNet上执行端到端反向传播几乎一样好:在我们的块预训练模型上训练的linear probe获得了70.48%的top-1分类准确率,仅比端到端预训练网络的准确率(71.57%)低1.1%。我们进行了大量的实验,以了解我们的方法中不同组件的影响,并探索自监督学习对块式范式的各种适应,建立了对将局部学习规则扩展到大型网络的关键途径的详尽理解,其含义从硬件设计到神经科学。

  1. end to end BP在大规模数据集上表现最好,但是反向传播路径长,还要求与前馈路径权重对称
  2. Feedback alignment使反向传播路径随机并独立于前馈路径,从而减轻了对称的限制,但是没有减少反向传播路径的长度
  3. 这四种方法,直接把label广播给了所有layers,减少了反向传播长度,但是是有监督的,并且要求大量的label输入
  4. LoCo 对ResNet-50每个block应用BP,使用自监督从而不需要大量label,但是他在连续的block中间引入了BP,概念上还是一个完整的BP
  5. Ours 这三个方式通过独立训练每个block来避免后续块之间的耦合,每个块使用一种自监督学习的变体。ours与其他两个的区别在于ours在大规模数据集上证明了有效性,在生物合理性方面,ours仍然依赖于block内部的反向传播,并且由于损失函数的确切形式,也依赖于层内神经元之间的相互作用。因此ours只是局部的,不是完全生物可信的(biologically plausible)。
  6. 最后三个方法避免了层内和层间的所有learning dependencies,是真正的局部学习规则,但是只在large-scale 数据集上得到部分证明。

ResNet-50原本包括5个block,有不同的resolution,但它的第一层仅是一个stride-2 layer,于是将它与第二层合并,最终得到4个training blocks,使用自监督训练目标单独地训练每个training block,使用stop-gradient确保块之间学到的参数不会互相影响,设置了两种训练方式

  1. 顺序地训练一个又一个块
  2. 同时地训练所有块。

如未明确说明,则不引入噪声,且使用local spatial pooling。

    1. deep belief networks (DBN)
      深度信念网络(Deep Belief Network, DBN)由 Geoffrey Hinton 于2006年提出。DBN 可以看作是一系列受限玻尔兹曼机(RBM)的堆叠
      DBN 属于概率图模型,并且是有向图与无向图的混合。只有最后两个隐藏层之间是无向图(这是一个 RBM,其余的都是有向图。因此严格意义上来说,只有 DBN 的最后一层是 RBM,其余层实际上是 Sigmoid Belief Network(名词不重要,只要了解它们是有向图即可
      下图是一个三层DBN
    2. VAEs
      变分自编码器(Variational auto-encoder,VAE) 是一类重要的生成模型。
      vae就是通过Encoder对输入(我们这里以图片为输入)进行高效编码,然后由Decoder使用编码还原出图片,在理想情况下,还原输出的图片应该与原图片极相近。
      vae网络结构组成:可以大致分成Encoder和Decoder两部分(如下图)。对于输入图片,Encoder将提取得到编码:一个mean vector和一个deviation vector,然后将这个编码(两个vector)作为Decoder的输入,最终输出一张和原图相近的图片。
    3. L2 或 square-root pooling
      在pooling的窗口内,计算L2范数,即平方和的根。
    4. LARS优化器
      LARS (Layer-wise Adaptive Rate Scaling),在学习率warm-up的基础上,发现不同层之间的权重L2范数和对应梯度的L2范数的比值差别较大,于是提出各个层的更新参数使用的学习率应该根据自己的情况有所调整,而不是所有层使用相同的学习率,即LARS。
    5. 为什么既有自监督训练也有有监督训练
      本文中采用Barlow Twins作为损失函数,就决定了是自监督的训练方式,有监督的训练方式在这里我认为只是作为baseline,从多个方面来分析模型架构。
    6. 使用Barlow Twins做损失函数时,projector的输出是8192个,怎么完成分类任务
      个人认为,Barlow Twins做损失函数时,只是得到了有用的信息,并没有完成分类,之后应该是接一个Linear Probe来完成分类任务。
    7. 我现在理解这篇文章的思路是想要使用local learning来替代end-to-end BP,于是想到了在block内BP,块之间不BP,由于ResNet的块与loss维度不一样于是要进行pooling,那为什么要有predictor呢,prejector我理解其实就是做分类的线性层,但是它分了8192个类也没有达到输出的效果,为什么一定要用这个损失函数呢?是因为类大脑,然后大脑没有那么多label吗,这样子的话就是说这篇文章想的是往生物可解释性那边靠拢,还有把ResNet拆成4个block之后,之间只有前向传播,传的是哪里的feature,哦哦,应该是pool之前的特征,一个一个训练和一起训练有什么区别吗,一个一个是先找到当前最好的block,然后再拿它的特征给下一个block,然后一起训练的话,块之间也没有BP,可能在final block上表现较好,但前面的block不一定每一个都达到了最佳。
    8. A.1 Matching the Invariance Characteristics of End-to-End Model 中为什么把invariance从都是1改为分别每个块的0.6这样是提高了?并且效果不好为什么可以说明是所选比desired更高了
最新文章
SEO培训课程助力企业快速提升网站排名,抢占市场风口
本课程专注于SEO培训,旨在帮助企业优化网站,提升排名,抢占市场优势,通过专业指导助力企业在线上竞争中获得先机。随着互联网
云南uc神马搜索广告怎么开户
在互联网广告日益发展的今天,企业的市场推广已成为提升业绩的重要组成部分。云南作为一个旅游和文化丰富的省份,吸引了大量用户
wordpress插件,免费蜘蛛统计分析插件,wordpres翻译插件「附下载」
Wordpress采集插件不需要任何采集规则,完全实现一键抓取任务。支持365天无限循环挂机采集维护所有网站。设置好相关参数后,软件
2024年区块链技术培训:全新课件发布
2024年区块链技术培训:全新课件发布汇报人:2024-11-16区块链技术基础区块链核心技术详解区块链平台与开发工具介绍区块链安全性
Dynadot支持哪些中文域名后缀
Dynadot是一家知名的国外域名注册商,成立于2002年,其官网支持中文、英文、法语、西班牙语等多种语言切换,主要提供域名注册、
如何轻松应对Nginx配置文件大小限制提高网站性能与稳定性
为什么需要关注Nginx配置文件大小限制 在使用Nginx作为网站服务器的过程中,配置文件的大小限制是一个常见的问题。当配置文件过大时,会导致服务器性能下降,影响网站的稳定性和访问速度。因此,及时优化和调整配置文件大小非常重要。 如何
打造健康生活新选择:养生馆推广文案写作技巧揭秘
引言:健康生活的追求 在现代社会中,健康已经成为人们最看重的财富之一。快节奏的生活和不断加重的工作压力,使得越来越多的人开始关注自己的身心健康。养生馆作为一种创新的健康生活方式应运而生,它不仅为人们提供了放松身心的场所,还
探索兰州魅力:一份全面的兰州旅游攻略揭开牛肉面与黄河的秘密
探索兰州:邂逅西北的魅力之城 兰州,作为甘肃省的省会,坐落于黄河上游,是一座历史悠久而又充满活力的城市。这里不仅拥有丰富的文化遗产,还有壮观的自然景观。兰州以其独特的地理位置、深厚的文化底蕴和美味的地方美食吸引着越来越多的
如何设置服务器配置提高系统性能?
提高系统性能的重要性 在当今数字化时代,服务器的性能直接影响到企业的竞争力和运营效率。一个高效的服务器配置不仅可以提升系统的稳定性和响应速度,还能提高员工的工作效率和客户体验。 选择适合的硬件和软件配置 首先,要根据企业的实
如何成功启动社区团购:从运营模式到实战技巧的全方位解析
引言:社区团购的崛起 在当今的互联网时代,社区团购以其高效、便捷的特点迅速崛起,成为许多消费者购物的新选择。社区团购不仅能满足居民对日常生活用品的需求,还能通过规模化采购为消费者带来实惠。如何成功启动社区团购,成为了许多创
相关文章