前言:
随着移动网络的发展,在移动端实时看视频成为大众生活的一部分。相对于文字和图片,视频表达的信息更加丰富,表现能力更强,与观众的互动(广告互动、特效互动等)更加直观和高效。移动视频在过去几年间呈现出爆发式增长,直播、长视频和短视频百花齐放,各大厂商为抢占用户时间,可谓煞费苦心。与此同时,AI(人工智能)给各行各业注入了新鲜血液,AI+视频又擦出了怎样的火花呢?且看本文泛谈总结!
一、人脸识别:
通过人脸识别,可以将视频中出现的明星建立人脸数据库,记录明星所参演的影视片段、类型、表情等信息。通过这些技术,可以将特定明星的视频集提取出来,生成明星视频库,用户可通过只看ta功能,观看指定明星的影视作品片段。

另外,当用户暂停视频时,AI可以识别当前帧演员相关信息,如角色名,角色关系图,演员百科信息等。此等丰富的交互可以增加用户对视频内容的理解和兴趣,间接增加用户观看时长。
二、人脸关键点检测:
通过人脸关键点检测技术,可以获取人脸五官以及轮廓的精确坐标,基于这些坐标,可以在人脸上做很多花样。如获取眼睛的坐标后,可以对眼部做大眼处理,甚至可以对眉毛、双眼皮、眼线、卧蚕等部位进行处理,达到高级美颜美妆的效果。在获取脸部轮廓坐标后,可以只对脸部进行美白、磨皮处理,而非全场景处理,使处理后的效果更加自然、真实。前段时间一款关于AI换脸的APP在朋友圈刷屏。用户上传自拍,就可以把多部经典影视剧主角的脸替换成用户自己的脸。该应用背后的技术也有人脸关键点检测的功劳。

除基础美颜美妆特效外,贴纸效果给短视频和直播也带来了很多有趣的交互。通过人脸关键点技术,可以精确地对人脸五官以及头饰做各种贴纸效果。这类app有很多,大部分贴纸比较符合app的调性,比较有平台特色。如抖音贴纸比较冷酷,也有很多音乐类型的,诸如嘻哈、重金属等等。snapchat的贴纸则是浓浓的欧美简单漫画风。

除了2D、3D贴纸外,人脸关键点技术也推动了AR技术的普及,Snapchat是很重视AR的一家公司,作为一个社交平台,Snapchat通过内置其中的相机贴纸加强用户在社交平台中的趣味体验,以吸引其进行分享。iPhoneX的3D结构光技术是极具特色的功能,体现了iPhone X的AR能力。在iPhone X刚推出时,此功能获得了较广泛的传播,因为这是iPhone X特有的功能,用户多在社交平台分享用animoji录制的视频,来向朋友圈宣告:我刚入手了iPhone X。如今,没有3D结构光也能通过人脸关键点技术,生成人脸表情系数,驱动虚拟形象。

三、人体姿态估计:
人体姿态估计是对人体动作姿态进行自动识别,该技术带来了一种全新的人机交互方式,通过身体语言即人体的姿态和动作来传达用户的意思。例如在机场、工厂等喧闹的环境下,采用手势、动作姿态的识别等人机交互技术,能够提供比语音识别更加准确的信息输入。在家庭安全方面,监控结合人体姿态估计可以监控老人、小孩是否处于危险之中。而短视频及直播中,我们可以通过人体姿态估计对影视剧中角色的运作进行记录和评判。QQ和抖音,几乎同时上线了舞蹈模仿功能,利用姿态识别技术,让用户模仿舞蹈动作并自动打分,直接在app里给出舞蹈动作供模仿,并利用手机摄像头识别人体姿势来打分,不需要跳舞机或者Kinect这样的体感设备,舞蹈门槛一下大大降低。

四、手势识别:
手势识别属于目标检测算法范畴,手势具有学习成本低、可脱离实体接触实现远距离控制、交互动作丰富等优势。在短视频和直播中,用户可以通过手势来控制特效的开关,最新版华为Mate 30也实现隔空手势控制。
除手势交互外,也可以检测指尖,根据指尖的动作轨迹做炫酷的指尖特效。

五、背景分割:
你还在为照片换背景而发愁吗?你还在为不会繁琐的PhotoShop而抓耳挠腮吗?人工智能技术可以免除你这些烦恼。
通过人工智能语义分割技术,可以精确识别每个像素的类别,从而将人物(或其他)完美抠出来,换上你想要的背景。

六、视频理解:
以抖音、快手为代表的短视频应用爆炸性增长,每天产生巨量的短视频上传后,是否涉及敏感信息(如涉黄、涉恐等)?如果纯粹靠人工审核,工作量巨大。而人工智能的出现,可以让技术“看懂”视频,从而辅助视频审核人员,减轻视频审核人员的工作量。
与此同时,AI视频理解也可以对视频进行打标签,结合对用户长期兴趣的挖掘,做到精准推荐,让用户更容易看到自己感兴趣的内容。
AI视频理解也给视频后期剪辑带来了前所未有的速度与效率,对视频产业产生巨大影响。在18年世界杯期间,咪咕视频AI直播剪辑官正式上线,参与世界杯直播精彩短视频实时剪辑。这是首次把AI技术应用于世界杯赛事直播短视频剪辑上,将开启世界杯直播短视频剪辑秒级时代,意味着广大球迷可以一边看世界杯直播,一边看实时短视频回顾精彩瞬间。
七、实时字幕:
字幕是确保观看者能看懂您的内容的一种有效途径。然而手工做字幕是一件费时费力的繁重工作。多亏了语音识别等技术的快速进步,现在可以比较准确地自动将视频中的语音识别提取出来。国内各大视频网站暂未推出实时字幕服务,而youtube早在2009年已经上线了自动字幕系统。借助人工智能的发展,目前youbube视频可以实时生成多种语言字幕,消除不同母语间的视频传播障碍,同时也为听觉障碍人士提供了便利。
八、总结:
AI越来越受到视频类互联网公司的重视,各大公司都在加大人力和资金的投入,以上AI+ 视频的应用实例还只是冰山一角,在快节奏的互联网环境下,效率决定着公司的成败,对AI技术的探索和挖掘将能够使很多方向先于他人,站在战略高地,而且AI+视频还将开辟出更广阔的天地,未来可期!
参考文献:
1、Real-time Facial Animation on Mobile Devices
http://kunzhou.net/2013/mface-gmod.pdf
2、视频行业AI详解:短视频/直播/长视频AI落地
https://zhuanlan.zhihu.com/p/41847050
3、人脸特效解决方案
https://www.arcsoft.com.cn/product/face-ar.html
4、手势识别
https://www.faceunity.com/#/gesture
5、MIT用AI实现3分钟自动抠图,精细到头发丝
https://zhuanlan.zhihu.com/p/42712383
注:文中图片来自网络
(作者:曹操)
青榴实验室--超高清视频技术的传播者