视觉AI技术在成片体检中的应用与未来

新知榜官方账号

2023-09-07 02:28:57

视觉AI技术在成片体检中的应用与未来

视听盛会,剧集、综艺、短视频等都是娱乐行业的主流载体,而高品质的长视频(剧集、综艺)是内容行业提升用户粘性的关键,也是娱乐行业的必争之地。但是,剧集、综艺等长视频面临严峻的问题:剧综的拍摄、剪辑投入巨大,制作周期长,但目前行业很难在播前甚至制作早期进行质量评价或品控。高投入和高不确定性的质量评估体系形成了主要矛盾。大数据与人工智能已经在各个行业大展身手,而海量的视频数据、用户观看数据,已经为人工智能算法提供了肥沃的土壤;视频、音频、文本等非结构化数据,天然符合人工智能(深度学习)算法擅长的领域。因此,使用AI技术来对视听介质进行全方位解构,并利用海量数据、发掘内容创作规律,辅助内容质量评判是AI技术落地的一大领域,也是一片AI应用的蓝海。

成片体检的整体框架

成片体检是我们使用AI算法对内容创作质量进行量化的尝试。类比人的体检,成片体检主要指利用视听AI技术,计算出能够反映内容创作质量的各个维度指标,并根据不同类型的内容,分别计算出优质内容在各个维度指标上的最佳取值或区间,形成内容的健康标准。我们通过AI算法,对待检测内容在各个维度上与健康内容进行比对,给出相应维度的预警、实现成片质量的体检报告辅助剪辑优化。我们期望做到的就是类比医学中的高精密仪器,全方位、准确地数字化扫描整个内容,进而赋能整个内容行业。成片体检的整体框架包括指标层、指标提取算法、融合层、基础模型层等部分。

人物匹配框架

剧综的拍摄、剪辑投入巨大,制作周期长,但目前行业很难在播前甚至制作早期进行质量评价或品控。高投入和高不确定性的质量评估体系形成了主要矛盾。针对这个问题,我们设计了剧综人物匹配框架。我们把剧集内的人物“准全”的识别,拆解为镜头内和跨镜头的问题进行分析。在同一镜头内,我们复用成熟的检测与跟踪,那么跨镜头则需要人物重拾。对于长时的多姿态,则需要利用时空、人脸人体、上下文等整体信息进行人物匹配,这就类似于多维信息下人物检索问题。我们的剧集ReID数据集和ESA-ReID模型,能够有效解决剧集中长时场景下,人物变装变形象的问题。我们的模型在业内公开的数据集上,如Market1501,DukeMTMC等达到了SOTA水平。

情感模拟

共情是内容拉动观众的核心,预测内容能给观众带来的情感体验是内容体检的另一个重要且直观的指标,能够在内容播放前就预测观众的观看的结果,将对视频优化有重要指导意义。我们提出了基于多维视频表征的情绪预测模型,模型的输入是连续的剧综片段,输出预测的用户逐时情绪Valence和Arousal值。我们的模型在开源的多媒体情感计算数据集上,在MSE,PCC等指标均超过了业内的SOTA水平。我们的模型使用价值得到了充分证明。

未来

我们将继续扩展体检维度,深入题材特有的细粒度体检指标,形成题材定制化体检能力。在整个视觉AI技术上,我们将继续在多模态人物检索,多模态情感计算,人物交互片段检测与关系属性识别等理解视频剧综内容所面临的特有的问题上深入研究,持续向文娱行业输出算法成果与能力。

本页网址:https://www.xinzhibang.net/article_detail-10972.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章