我们称之为普通多模态变压器

ditihekhatun17 · Post by **ditihekhatun17** » Mon May 20, 2024 7:44 am

模型它允许图像中不同空间和时间区域之间以及音频输入中的频率和时间之间的自由注意力流称为普通交叉注意力由频谱图表示。然而虽然通过连接音频和视频输入标记很容易实现但变压器模型所有层的普通交叉注意力是不必要的因为音频和视觉输入包含密集细粒度的信息这对于任务来说可能是多余的——增加了复杂性。限制注意力流多模态模型中长序列复杂性不断增加的问题可以通过减少注意力流来缓解。我们使用两种方法限制注意力流指定融合层和添加注意力瓶颈。融合层早期中期或晚期融合在多模态模型中引入跨模态交互的层称为融合层。

两个极端版本是早期融合其中变压器中的所有层都是跨模态的和后期融合其中所有层都是单峰的并且在变压器编码器中不交换跨模态信息。在两者之间指定融合层会导致。该技术建立在多模态学习的通用 肯尼亚 WhatsApp 数据 范例之上即将跨模态流限制到网络的后续层从而允许早期层专门学习和提取单模态模式。注意力瓶颈我们还引入了一小组形成注意力瓶颈的潜在单元如下图紫色所示这迫使模型在给定层内在与其他模态共享之前整理和压缩来自每种模态的信息而仍然允许注意力在某种模式内自由流动。我们证明了这个瓶颈版本的性能优于或匹配其不受限制的版本并且计算成本更低。我们模型中的不同注意力配置。

与后期融合左上不同变压器编码器中不交换跨模式信息我们研究了两种跨模式信息交换的途径。早期和中期融合中上右上是通过层中所有隐藏单元的标准成对自注意力来完成的。对于中期融合跨模式注意力仅应用于模型中的后续层。瓶颈融合左下通过称为注意力瓶颈的紧密潜在单元限制层内的注意力流。瓶颈中融合右下结合应用两种形式的限制以获得最佳性能。瓶颈和计算成本我们使用数据集将应用于声音分类任务并研究其两种方法的性能普通交叉注意力和瓶颈融合。对于这两种方法中期融合如下面轴的中间值所示优于早期融合融合层和晚期融合融合层。这表明该模型受益于将跨模态连接限制到后面的层从而允许前面的层专门学习单模态特征然而它仍然受益于多层跨模式信息流。