单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

　　发布于2024-11-01　阅读（0）

扫一扫，手机访问

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。

利用视频内容进行建模之后，就可以在整段视频当中自由搜索了。

而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的进展——

过去TAL中的建模是片段甚至实例级的，而现在只要视频里的一帧就能实现，效果媲美全监督。

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

来自华中科技大学的团队提出了一种名为HR-Pro的新框架，用于点标注监督的时序行为检测。

通过多层级的reliability propagation，HR-Pro可以网络学习到更具辨别力的片段级特征和更可靠的实例级边界。

HR-Pro由两个可靠性感知的阶段组成，它能够有效地从片段级别和实例级别的点标注中传播高置信度的线索，从而使网络学习到更具区分性的片段表示和更可靠的提议。

在多个基准数据集上进行的实验表明，HR-Pro优于现有方法，结果最先进，证明了其有效性和点标注的潜力。

表现比肩全监督方式

下图展示了HR-Pro与LACP在THUMOS14测试视频上进行时序行为检测表现比较。

HR-Pro展现出更了准确的动作实例检测，具体来说：

对于“高尔夫挥杆”行为，HR-Pro有效地区分了行为和背景片段，减轻了LACP难以处理的False Positive预测；
对于铁饼投掷行为，HR-Pro检测到比LACP更完整的片段，后者在非区分性动作片段上具有较低的激活值。

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

数据集上的测试结果，也印证了这一直观感受。

将THUMOS14数据集上的检测结果可视化后可以观察到，在实例级别完整性学习之后，高质量预测和低质量预测之间的差异显著增大。

（左侧是实例级别完整性学习之前的结果，右侧是学习之后的结果。横轴和纵轴分别表示时间和可靠性分数。）

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

整体来看，在常用4个数据集中，HR-Pro的性能均大幅超越最先进的点监督方法，在THUMOS14数据集上的平均mAP达到60.3%，相较之前的SoTA方法(53.7%)的提升为6.5%，并且能与一些全监督方法达到相当的效果。

在THUMOS14测试集上与下表中的先前最先进方法相比，对于IoU阈值在0.1到0.7之间，HR-Pro的平均mAP为60.3%，比先前最先进方法CRRC-Net高6.5%。

并且HR-Pro能够与具有竞争力的全监督方法达到相当的表现，例如AFSD（对于IoU阈值在0.3到0.7之间，平均mAP为51.1% vs. 52.0%）。

△HR-Pro与前SOTA方法在THUMOS14数据集上的对比

在各种基准数据集上的通用性和优越性方面，HR-Pro也明显优于现有方法，在GTEA、BEOID和ActivityNet 1.3上分别取得了3.8%、7.6%和2.0%的提高。

△HR-Pro与前SOTA方法在GTEA等数据集上的对比

那么，HR-Pro具体是如何实现的呢？

学习分两阶段进行

研究团队提出了多层级可靠传播方法，在片段级引入可靠片段记忆模块并利用交叉注意力的方法向其他片段传播，在实例级提出基于点监督的提议生成来关联片段和实例，用于产生不同可靠度的proposals，进一步在实例级优化proposals的置信度和边界。

HR-Pro的模型结构如下图所示：时序行为检测被划分为两阶段的学习过程，即片段级别的判别性学习和实例级别的完整性学习。

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

阶段一：片段级判别学习

研究团队引入可靠性感知的片段级判别学习，提出为每个类别存储可靠原型，并通过视频内和视频间的方式将这些原型中的高置信度线索传播到其他片段。

片段级可靠原型构建

为了构建片段级别的可靠原型，团队创建了一个在线更新的原型memory，用于存储各类行为的可靠原型mc（其中 c = 1, 2, …, C），以便能够利用整个数据集的特征信息。

研究团队选择了具有点标注的片段特征初始化原型：

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

接下来，研究人员使用伪标记的行为片段特征来更新每个类别的原型，具体表述如下：

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

片段级可靠性感知优化

为了将片段级可靠原型的特征信息传递到其他片段，研究团队设计了一个Reliabilty-aware Attention Block（RAB），通过交叉注意力的方式实现了将原型中的可靠信息注入到其他的片段中，从而增强片段特征的鲁棒性，并增加对较不具有判别力片段的关注。

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

为了学习到更加具有判别里的片段特征，团队还构建了可靠性感知的片段对比损失：

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

阶段二：实例级完整性学习

为了充分探索实例级别行为的时序结构并优化提议的得分排名，团队引入了实例级别的动作完整性学习。

这种方法旨在通过可靠的实例原型的指导，通过实例级别的特征学习来精化提议的置信度得分和边界。

实例级可靠原型构建

为了在训练过程中利用点标注的实例级别先验信息，团队提出了一种基于点标注的提议生成方法用于生成不同Reliability的proposals。

根据其可靠性分数和相对点标注的时序位置，这些提议可以分为两种类型：

可靠提议（Reliable Proposals, RP）：对于每个类别中的每个点，提议包含了这个点，并具有最高的可靠性；
正样本提议（Positive Proposals, PP）：所有其余的候选提议。

为确保正样本和负样本数量平衡，研究团队将那些具有类别无关的注意力分数低于预定义值的片段分组为负样本提议（Negative Proposals, NP）。

实例级可靠性感知优化

为了预测每个提议的完整性分数，研究团队将敏感边界的提议特征输入至得分预测头φs:

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

然后用正/负样本提议与可靠提议的IoU作为指导，监督提议的完整性分数预测：

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

为了获得更准确边界的行为proposal，研究者将每个PP中的proposal的起始区域特征和结束区域特征输入到回归预测头φr中，以预测proposal开始和结束时间的偏移量。

进一步计算得到精细化的proposals，并希望精细化后的proposals与可靠proposal重合。

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

总之，HR-Pro只需很少的标注就能很好的效果大幅度降低了获取标签的成本，同时又拥有较强的泛化能力，为实际部署应用提供了有利条件。

据此，作者预计，HR-Pro将在行为分析、人机交互、驾驶分析等领域拥有广阔的应用前景。

论文地址：https://arxiv.org/abs/2308.12608

本文转载于：https://www.51cto.com/article/778813.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：笔记本触摸板驱动怎么下载

下一篇：win10盗贼之海闪退解决方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

深蓝S7超级增程动态品鉴：驾趣体验引领未来潮流

6月15日消息，以“超级增程实力担当”为主题的深蓝S7超级增程动态品鉴活动在重庆西部汽车试验场盛大开启。这是深蓝汽车品牌旗下首款中型SUV，以其创新设计引领着未来潮流。深蓝S7增程版车型搭载"超级增程"技术和天生后驱基因，为驾驶者带来超越感官的驾趣体验。据小编了解，深蓝汽车作为增程技术的先驱者和引领者，致力于通过电动化和智能化为未来出行赋予更多可能。深蓝S7超级增程动力系统基于EPA1全电数字平台，具备灵活的动力布局和天生的后驱基因，满足了驾驶乐趣方面的需求。超级增程技术在解决纯电动车续航焦虑的同时，仍保

10分钟前深蓝S 增程驾趣体验 0
正版软件

报告称今年 MiniLED 电视出货量将首次超越 OLED 电视

本站4月1日消息，据韩媒TheElec报道，研究咨询机构洛图科技在3月29日于韩国举办的UBI研究会议上表示，今年MiniLED电视出货量将反超OLED电视。根据报告数据，2023年OLED电视出货量同比下降20.6%，共计548万台；而MiniLED电视则录得24.7%增长，实现425万台出货量。而在今年，虽然OLED电视出货量将恢复增长，出货量达640万台；但MiniLED电视的出货量将进一步提升至680万台，首次超越OLED电视。洛图科技还给出了到2028年的高端电视市场出货量中期预估，本站整理如下

15分钟前电视 oled电视洛图科技 0
正版软件

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

只需一张照片，和一段音频，就能直接生成人物说话的视频！近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，让我们朝着虚拟数字人又迈进了一步。论文地址：https://enriccorona.github.io/vlogger/paper.pdfVlogger可以收集单个输入图像，使用文本或者音频驱动，生成人类语音的视频，包括口型、表情、肢体动作等都非常自然。我们先来看几个例子：如果感觉视频使用别人的声音有点违和，小编帮你关掉声音：可以看出整个生成的效果是非常优雅自然的。VLOGGER建立在最近生成

30分钟前数据训练 0
正版软件

76秒下线一辆车！小米汽车工厂生产效率惊艳

今年4月1日消息，近日，小米SU7汽车工厂凭借其在北京市展现的新质生产力和重大技术成果，成功被央视《新闻联播》作为典型案例报道。该工厂以其高度自动化的生产线和先进的质检系统，成为了智能制造的典范。据报道，小米汽车工厂的生产效率令人瞩目，平均每76秒就有一辆崭新的汽车驶下生产线。这一成就得益于工厂内超过700个智能机器人的精密协作，它们为生产线提供了全方位、高效的服务。该工厂依托人工智能技术自主研发了X光智能质检系统。经小编解析，这项创新技术能够实现在关键工序上100%高精度在线监测，从而确保产品质量的稳定

45分钟前小米汽车 0
正版软件

Muse系列登场！三星Galaxy S24引领智能手机创新潮流

6月25日消息，据小编了解，三星计划在明年年初发布全新的GalaxyS24系列智能手机。该系列内部代号为"Muse"，寓意着思考、思索和灵感的来源，象征着作家和画家的创作灵感之源。据报道，GalaxyS24系列将包括三款机型，分别为GalaxyS24Ultra、GalaxyS24以及GalaxyS24+。这一系列的内部代号分别为"Muse3"、"Muse1"和"Muse2"。值得注意的是，此前有传闻称GalaxyS24+可能会被取消，但目前看来，这种情况并不太可能发生。回顾过去，三星GalaxyS系列的内

1小时前 18:20 三星 0