TECH2IPO/创见

「 新生活 新科技 新零售」

投稿
京ICP备14046667号

快手科技多媒体内容理解部李岩:AI技术贯穿于快手的产品骨髓之中

快手在 AI 技术上的深耕,降低了短视频的创作门槛,使用户尽可能地接近专业水准。而在理解内容、理解用户中实现视频和用户的精准匹配,让每位用户获得更大的展现空间,同时看到了更大的世界。

「AI 技术贯穿于整个快手产品的骨髓之中,通过 AI 技术进行多维赋能,让更多人有机会被世界看见,也能看到更广阔的世界。」5 月 25 日,在 2019 全球人工智能技术大会(2019 GAITC)上,快手科技多媒体内容理解部负责人李岩如是表示。

大会在南京举行,李岩在「人工智能与媒体融合前沿论坛」作了演讲。李岩作为快手科技的代表,讲述了快手如何用 AI 技术去赋能每一个普通用户,让每一个人的记录形式更丰富、有趣、高质量。

李岩说,快手在 AI 技术上的深耕,降低了短视频的创作门槛,使用户尽可能地接近专业水准。而在理解内容、理解用户中实现视频和用户的精准匹配,让每位用户获得更大的展现空间,同时看到了更大的世界。

他认为,通过短视频实现的记录,让人与人以及人与世界连接起来,是很有意义的,从整体来看,提升了网民之间的信任。

以下为演讲内容实录(有删节):

非常高兴有机会介绍在快手这样一个短视频社区,AI 是如何应用的,具体会产生什么样好玩的 AI 应用。

我的分享分为三部分。第一部分简单介绍一下快手;第二部分介绍 AI 技术如何帮助用户提升视频创作质量,降低创作门槛;第三部分介绍 AI 技术如何理解视频,理解用户,并做好分发。

快手是什么

快手把自己定位成普通人记录生活和分享生活的社区型产品,通过短视频、照片以及直播的形式,帮助人们记录自己的生活,使每一个人都有机会被世界看到,也能看到更广阔的世界。

快手在 2011 年诞生,今年成立 8 周年,目前 DAU 已达到 2 亿。2011 年,GIF 快手是做动图的工具,2013 年移动互联网兴起,我们看到了短视频的重要影响和作用,2013 年 7 月,工具型产品转型为短视频社区。转型短视频社区之后,快手的数据实现了指数级增长,2015 年 1 月,快手日活用户超过 1000 万,截止到现在,快手的日活已经到达 2 亿。在中国的互联网市场,日活 2 亿量级的 APP 非常少。凭借数亿用户几年的积累,现在有超过 100 亿条短视频记录在我们的社区里,并以每天新增 1500 万条短视频的速度增加,4 年前这个数字只有几十万。

在快手里,用户记录了大千世界里的方方面面,在这里我们可以看到很多种真实有力量的生活,有些画面是我们在大众媒体看不到的。比如这个视频,鸭绿江的放排人在运输木材,把高山上的木材顺着水流运到山下,这种古老的水运方式已经很少被人知晓,在快手这群人被数百万人关注到。还有这个视频,这是城市工地上的「水鬼」,这个职业很小众,但一二线城市的每一座高楼大厦都需要他们,在用建高楼大厦打地基的时候,需要用电钻挖几十米的深坑,电钻头掉了需要他们潜到几十米深的浑浊泥水中,把电钻恢复原位。

普通用户记录的生活,涵盖的内容超越了之前的记者或者专业人士记录、调研的范围。有数亿人在快手记录自己的生活,这里有当代的百工图,有全球各地的田野风俗,还有用户记录的各式各样的旅行生活,也有清华、人大等高校教授讲解知识进行知识传播,这些画面聚集起来就是一幅我们当代生活的清明上河图。

AI 帮助用户用更低成本创作出更高水平的视频

接下来,我重点讲一下 AI 技术如何帮助这款短视频产品做得更好。我希望帮助各位媒体的朋友们了解到,AI 技术其实是贯穿于快手的产品骨髓之中,应用在视频生产、视频理解、用户理解到视频推荐的整个环节。

视频创作环节,我们希望每个人都能成为自己生活的导演,用手机去记录生活,而且生成相对较高质量的视频。如何帮助每个人成为自己的导演呢?在视频创作环节快手广泛应用了 AI 技术,用科技去赋能普通用户,使他们尽可能接近专业制作视频的水准。

我们希望让用户用更低的成本创作出更高水平的视频,这就需要让 AI 助力于内容生产。

比如,快手之前上线的一款魔法表情叫「快手时光机」,用户可以在几十秒钟内看到自己容颜变老的过程。一个人拍自己的视频是很乏味的,我们希望用户能够体验到自己变老以后的样子。

又比如,把 AR 技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟的元素,这属于增强现实,使虚拟世界和现实世界更好的互动,使人们在记录自己生活的时候有更多的新奇的体验。

再比如,我们会运用图像相关的算法,帮助用户去矫正拍摄中出现问题的视频,比如脏镜头导致的视频画面模糊,光线问题导致的画面昏暗及画面偏色的问题。

这些玩法和功能的背后是快手对前沿 AI 技术的开发,涉及人体姿态估计、手势识别、背景分割等多个技术模块。这些都是快手努力将记录形式变得更加有趣的新尝试。

这里有一个挑战,上述技术都要在手机本地实时地进行计算与渲染。快手拥有数亿用户,用户的手机机型千差万别的,这要求我们的算法必须在所有的机型上都能流畅运行,这对我们 AI 能力的要求是非常高的,非常消耗计算资源。为了解决这个问题快手自研了 YCNN 深度推理学习引擎,解决了 AI 技术运行受限于用户设备计算量的问题。

音频方面,我们也做了非常多的工作。比如之前专业的人在创作视频时,编辑字幕是非常痛苦的事情。现在我们通过语音识别技术,可以帮视频制作者自动添加、编辑字幕,而且还可以以各种各样的形式展示字幕,借助 AI 的技术极大地降低了生成字幕的成本。

在短视频场景里音乐起了非常重要的作用。据统计,快手的视频中,有 60%-80% 的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情,其实是不容易事情。让用户尽量贴合音乐的节奏创作动作,对于用户的要求也是非常高的,具备很强乐感的人其实非常少。

为了降低用户创作视频时选择音乐的门槛,我们开发了智能配乐及 AI 生成音乐的技术。智能配乐可以根据视频画面及用户画像为用户推荐适合视频画面,并被用户喜欢的背景音乐供用户选择。AI 生成音乐通过 AI 的分析算法,可以感知到视频画面中人的动作,然后让生成的音乐节奏匹配人的动作,这样是极大地降低了用户创作视频时选择音乐的门槛,让大家更愿意创作自己的视频。

用 AI 理解视频,理解用户,做好分发

上面分享的是 AI 技术如何降低人工创作短视频的门槛,使普通用户都可以创作出质量还不错的短视频。用户创作并上传到我们的社区后,我们又做了哪些事情更好的分发这些视频呢?

理解视频其实非常复杂,对人脸纬度的解析、场景类的解析、音乐类的解析等等,这些都是从单个角度进行建模,其实视频需要多模态的解析。我们需要做到让机器高效的判断用户上传的视频是不是符合规则的,判断视频内容是不是原创的,以及要做到把视频精准的匹配给对他感兴趣的用户。

我们让机器能够帮助我们管理好上传的海量视频,同时帮我们做好视频的推荐,而且推荐给用户的视频是能激发用户兴趣的。这里还涉及用户理解,指的是让机器理解我们的用户,其中包括理解用户在社会学上的特征,以及用户的兴趣,包括他的短期兴趣爱好以及中长期兴趣爱好,以及海量的能够代表用户特征的更小的向量。

在视频的分发上,快手上有一个非常有意思的现象,我们不希望头部的视频内容占据太多的曝光,我们用经济学上的基尼系数控制平台上用户之间的「贫富差距」。互联网上的注意力资源是非常宝贵的资源,我们希望这种宝贵的资源也能分给普通人,而不是像聚光灯一样聚集在少量的头部用户身上。所以我们设计了快手的推荐机制,无论是明星还是普通人在快手都是一样的。快手重视生产者的利益,重视长尾视频内容的分发。我们希望注意力资源可以向阳光一样撒给所有生产视频的用户,这样普通人就有机会被更多人关注,能够感受到被关注被认可的幸福感。

通过短视频实现的记录,让人与人以及人与世界连接起来。我们认为,建立这种连接是非常有意义的事情。我们每个人的内心深处都是寂寞的,都希望通过连接去获得关注、认可,并且能结交朋友。因此,快手用户之间的关系会粘性更高,更稳固。从整体来看,这可以提升网民之间的信任。

我今天的分享就是这些,谢谢大家。

评论于站点 回复 评论 删除 隐藏

评论于站点 回复 删除 隐藏