商城首页欢迎来到中国正版软件门户

文章教程　|　产品大全　|　软件问答

您的位置：首页 > 业界资讯 >还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

　　发布于2024-12-26　阅读（0）

扫一扫，手机访问

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

短视频是当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。

针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初步方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见 https://mingfei.info/PMV

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

论文地址：https://arxiv.org/abs/2312.13746

视频分类是基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式，受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注，为了激发这一领域的研究，团队提出了一个专用的数据集 PortraitMode-400，包括真实的视频数据和400个结构化的类别标签。该数据集可以被用于竖屏视频的分类、特征提取等重要作用。

通过进一步自建数据和公开数据子集实验，团队初步展示了横屏数据和竖屏数据之间的不同，和独特的先验分布，并针对不同的技术点进行实验，提出了针对竖屏视频处理的技术方案。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM，并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型（不含任何预训练），并在相同的测试集上进行公平测试，以观察竖屏和横屏视频所含的不同数据特性。

如下方所示，以上半为例，团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试（16x9 个不重叠的均匀分布的滑窗）得到 Probing-P，同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势，团队做差值图得到 c 图，黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的，团队可以得到下半所示的差值图，S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到，在确保所有训练和测试条件一致的情况下，训练数据的不同带来准确率空间分布上的显著差异，而且差值呈哑铃状分布。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

横屏与竖屏视频的不同，说明竖屏视频是一种不同于以往数据的新视频格式，有着不同的数据特性。为了进一步推动领域研究，团队提出了数据集 PortraitMode-400，通过自底向上的方式综合大量的热门搜索词，人工筛查和提取得到 400 个包含显著动作内容的类别集合，涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接，并已通过人工审查的方式确保数据的高质量可用。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

此外，团队还真对竖屏视频数据的不同特性进行实验，以期提出一套合理有效的技术方案。为此，团队利用不同的模型类别，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在竖屏数据上进行广泛实验。团队发现，与传统横屏数据处理相比，竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示，在 CNN 模型下倾向于 Inception-style 方案，而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的，团队发现更好的保持原始视频在训练时的长宽比，可以在同等测试条件下获得更好的准确率。

如下半所示，随着采样框长宽比增大，Transformer 类模型表现逐渐增强，而 CNN 模型表现相反。这些实验现象表明了，竖屏数据不同于横屏数据的特性；提供了不同模型架构下的训练偏好设置。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

最后，团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入，都可以对竖屏数据的准确率带来不小的提升，展示了在相关领域的研究空间和可能性。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

应用落地和展望

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展，增强内容推荐等关键能力，进一步激发竖屏领域的其他类型研究，如生成等。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

本文转载于：https://www.51cto.com/article/785369.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：消息称比亚迪王朝、海洋年销目标 330 万台，开店重点转向县城

下一篇：英特尔笔记本cpu型号大全

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

鸿蒙生态系统迅猛壮大：原生应用数量激增20倍

华为官方最新数据显示，截至8月4日，已有逾4000款应用接入了鸿蒙生态系统。相较于1月18日宣布的首批200个应用，短短两个月内，鸿蒙原生应用的数量急剧增长了20倍，这一显著增长标志着鸿蒙生态系统的迅猛发展和持续壮大。华为对于鸿蒙生态系统的发展寄予了厚望。华为终端云总裁朱勇刚在今年初就明确表示，公司的目标是在2024年和众多合作伙伴携手打造5000款纯粹的鸿蒙原生应用，以继续推动鸿蒙生态的快速发展。同时，华为也计划在今年第四季度正式向消费者推出鸿蒙河版，以满足消费者对于更加便捷、高效的操作系统的需求。华为

4分钟前华为 0
正版软件

苹果重视用户反馈，持续优化watchOS 10系统

7月12日消息，苹果全球产品营销团队成员埃里克・查尔斯(EricCharles)最近接受Tom'sGuide媒体采访，就watchOS10系统的重大改进进行了深入探讨，并特别关注了这些新功能对第三方开发人员及其watchOS应用生态的发展。据了解，watchOS10旨在让用户在抬起手腕时能更加便捷地获取信息，比以往更加直观。为了实现这个目标，苹果通过最大化利用屏幕空间来更丰富地展示内容。其中，Weather应用就是一个成功案例，用户无需深入应用程序即可轻松查看最新的AQI(空气质量指数)、风速等数

14分钟前苹果 0
正版软件

AI程序员哪家强？探索Devin、通义灵码和SWE-agent的潜力

2022年3月3日，距世界首个AI程序员Devin诞生不足一个月，普林斯顿大学的NLP团队开发了一个开源AI程序员SWE-agent。它利用GPT-4模型在GitHub存储库中自动解决问题。SWE-agent在SWE-bench测试集上的表现与Devin相似，平均耗时93秒，解决了12.29%的问题。SWE-agent通过与专用终端交互，可以打开、搜索文件内容，使用自动语法检查、编辑特定行，以及编写和执行测试。（注：以上内容为原内容微调，但保留了原文中的关键信息，未超过指定字数限制。）SWE-Agent的

29分钟前 AI 程序员开发 0
正版软件

微软发布Windows Server LTSC最新预览版，版本号与Windows 11看齐

3月28日消息，微软宣布发布了WindowsServer长期服务通道(LTSC)的最新预览版本Build26085.1。需要注意的是，该预览版本的版本号已经与Windows11系统保持一致，标志着WindowsServer在功能和更新上正逐步与Windows11看齐。TheBobPony反馈，WindowsServerBuild26085预览版的任务栏中隐藏了Copilot功能。这一调整可能是微软在寻求更优化的用户体验或进行功能重组的决策过程中做出的调整。此次发布的WindowsServerBuild26

44分钟前微软 0
正版软件

小米SU7车机新特性：视频会员手机车机全打通

4月17日消息，小米汽车昨晚发布了一段关于小米SU7的问答视频，详细解答了网友们关于车机与手机端视频软件会员同步的疑问。在回答中，小米汽车明确定位，小米SU7车机上的爱奇艺、Bilibili等视频应用与手机端应用的会员服务是完全打通的。用户只需在车机端打开这些视频应用，并使用手机端的对应视频应用进行扫码登录，即可轻松共享已在手机端开通的会员服务。相较于电视端的独立会员体系，这一设定无疑更加用户友好，充分展现了小米以用户为中心的设计理念。在此外，小米汽车深入介绍了小米SU7的车机与手机导航流转功能。据小编了

59分钟前小米 0

最新发布

1

阿里追捧的中台，“热度”退了？

1842天前
2

Overture设置踏板标记的方法

1680天前
3

思杰马克丁取得CleanMyMac中国区独家发行授权

1669天前
4

IBM：20万台Mac让公司职工在工作中更快乐更多产

1868天前
5

报道称微软一直在悄然游说反对“维修权”立法！

1833天前
6

美国怀疑华为窃取商业机密华为：身正不怕影子斜

1829天前
7

三星被曝正与联发科接洽 A系列手机有望搭载其5G芯片

1844天前
8

环球墨非完成千万级融资联合企业集团投资

1866天前
9

EasyRecovery恢复移动设备中的数据前需要注意什么

1667天前

相关推荐

热门关注

Xshell 6 简体中文

￥899.00-￥1149.00
DaVinci Resolve Studio 16 简体中文

￥2550.00-￥2550.00
Camtasia 2019 简体中文

￥689.00-￥689.00
Luminar 3 简体中文

￥288.00-￥288.00
Apowersoft 录屏王简体中文

￥129.00-￥339.00

网站备案号：湘ICP备19013367号-1 联系邮箱：admin@zhengruan.com
Copyright ©2018-2020