中智物联工程技术研究院-SIOTCHINA

视频、互联网和“视联网”：下一代互联网展望

时间 2019-07-05 15:05:44

当前，互联网已经成为了我们工作生活中不可或缺的部分，人们利用互联网搜寻信息、社会交往、消费购物、协作办公，大幅提高了人们的生活质量和工作效率。从互联网的发展历史来看，信息传递速率和信息处理能力的大幅提升会带来互联网的巨大变革。最为典型的例子就是移动互联网带来的繁荣。自从3G等移动通讯技术投入使用和手机芯片处理能力大幅提升，可以随取随用的移动设备（主要是手机）取代了传统的家用电脑，将人们与互联网更紧密的结合在了一起，产生了诸多基于移动端的商业模式（如共享经济），也给人们的生活工作方式带来了很大变化（手机打车、刷抖音、手机打卡等）。那么，面临即将到来的5G＋AI时代，互联网又会迎来怎样的巨大变革，对经济社会和身处其中的每个个人又会带来怎样的变化呢？

有一些观点认为，移动智能时代的下一步是可穿戴式智能时代。以眼镜为代表的下一代可穿戴式智能设备将取代手机等设备，成为更为便利的互联网节点，引领下一代互联网的潮流。

但仔细思索不难发现，上述的观点仅反映了硬件层面的迭代，还缺乏对于软件层面迭代的思考。毕竟人需要一定的渠道和方式去与眼镜等下一代智能设备沟通，而且这种沟通在新技术的支持下必然是与当前移动智能设备与人的交互方式是不同的。

我们认为从软件层面看，在5G＋AI支持下，下一个互联网时代将是基于视频的时代，视频将成为连接人与下一代智能设备、人与互联网的重要媒介，进而形成以视频作为主要信息传递介质和功能载体的互联网形态。我们将这一代互联网称之为“视联网”。接下来我们将从三个方面来论述“视联网”，一是“视联网”为何代表了互联网的下一代发展方向；二是5G＋AI如何助力“视联网”的发展；三是“视联网”会带来什么影响。

一、“视联网”是互联网的发展趋势

技术的发展是以人为核心的，有的技术是为满足人的需求提供便利，有的则为人赋能，使人做到原本做不到乃至想不到的事情。互联网的发展也是如此，为人的工作、生活提供便利和赋能是互联网发展的核心要义。相较于图文、语音等形式，以视频作为主要的信息传递介质和功能载体可以为人带来更多的便利。

1、视频作为信息传递介质可以传递更多交互信息

视频是对一系列静态影像（每秒24帧以上）加以捕捉、记录、处理、存储、传输和重现的技术，可以简单理解为一种信息的记录与传输方式。对比文字、图片、语言等信息传输方式，视频最大的优势在于其具有最大的信息带宽，在信息处理速度和传输速度足够的情况下，单位时间内视频可以传递的信息更多。同时，视频中可以轻易的加载音频和文字，形成多渠道的信息传输，弥补单一渠道的不足，反之则不行。这些优势也就决定了视频可以使得人与计算机、人与人之间的交互更为便利、真实、更符合人与生俱来的习惯。

视频的高带宽使其不仅能传递语言和图文能够表达的明示信息，更能传递其他形式较难表达的默会信息，例如人的情感。人与人面对面的交流要比单纯的电话交流更能了解一个人的精神状态，就是因为人的视觉能够接收到的信息要远大于通过语言表达接收到的信息，例如表情、动作等，从而分析出对面人所表现出的情感。视频也是如此，通过视频能够更为便利的实现不同时空的人与人的情感交流。

视频这一特点已被广泛应用，影视剧作之所以吸引人，是因为其沉浸感和代入感更能引起人的情感共鸣。越来越多的企业采用网络视频形式传播企业形象，也是为了通过视频中的情感交流建立与观看者的信任感，树立品牌形象。目前，视频内容已经占据了互联网数据总量的80％，并且有越来越多的APP开始加载视频功能。即便没有任何技术与应用突破，预计到2022年视频内容的数据总量也将达到82％。这都表明视频在促进人与人交互中的作用得到了广泛的认可。

视频、互联网和“视联网”：下一代互联网展望

2、视频作为互联网功能载体可以带来更多使用便利

而随着视频成为人们休闲娱乐和信息传递的主要方式，以及人们观看视频时间的增长，让视频承载互联网的功能服务就能够为人们带来更多的便利。这种便利就是视频作为互联网入口的价值。

从当前观看视频的体验出发，很多人都有这样的感受，感觉视频中引起你情感共鸣的点缺乏合适的方式去宣泄。设想如下的场景，在看球赛时看到球星进球后想买双他的球鞋珍藏；在看到《权利与游戏》大结局时有无数吐槽不吐不快；刷抖音时看到别人分享的旅游地标想进一步了解具体信息。在当下，我们碰到以上的场景，唯一的办法是退出视频，打开淘宝搜索球星球鞋；打开微博和微信疯狂吐槽；打开百度搜索旅游地标的信息。在这个退出视频、登录其他软件的过程中，不可避免的会给人带来不便。一方面是视频中的信息并不一定能准确传递到其他功能软件中，就比如球鞋在淘宝上有多款类似的，你并不能确定哪一款是当时球星脚上穿的引起你购买欲的那款；另一方面是这个转换过程会破坏人的情绪积累，就比如一个人关掉视频打开微信准备吐槽时，看到微信的界面和朋友圈新鲜的事件，注意力就发生了转移，可能也就放弃了继续吐槽，抑或吐槽力度有所降低。如果视频能够直接承载互联网功能，满足人们视频内购物、社交、搜索等种种需求，想必会给人带来极大的便利。

如果我们把目光放的更为长远，在可穿戴式智能设备时代，AR和VR技术得到广泛应用，视频作为互联网功能载体将为人们带来更大的便利。当人们带上智能眼镜后，本质上是将摄像头捕捉到的视频信息以虚拟层的形式与人看到的真实世界进行重合，进而可以在两者间展开丰富的互动，但这种互动肯定是零转换、低延时的。比如当你想买路边某人的同款外套时，你肯定希望看到后直接在眼镜虚拟层上弹出价格、款式等相关信息、确认后就一键下单，而不是虚拟层先关闭视频模式再跳转到淘宝页面获得商品信息。

3、“视联网”发展的难点

要实现以视频作为主要的信息传输介质和互联网功能载体的“视联网”，主要有三个难点。一是有足够高的带宽便于视频传输。二是精准的视频识别技术，准确找出引发人们需求的信息。三是视频互动技术，在兼顾视频体验的情况下实现人与视频、视频与互联网功能服务的互动。

第一点比较好理解，视频内容由于信息量大，需要足够高的带宽才能顺利观看。而视频越精致、承载的互联网功能越多，自然也就需要更高的带宽用于传输。

第二点视频识别技术是最为核心的难点。视频内容是非结构化信息，是无法通过计算机直接读取获得我们所需要的人物、物品、场景、地标等信息的，也就无法准确定位可能引起人们需求的那些信息。视频就好像一个黑箱，只能从外部观看，却无法看到内部装着的东西。最笨的识别办法是通过人力将视频中可能引起需求的信息进行标注，就好比人用手伸进黑箱，把其中的内容一件件取出来，这样也能解决视频识别的问题。但对于浩如烟海的视频数据量，人力是完全无法满足的。

第三点的关键在于如何在尽可能少的影响视频体验的情况下承载最多的互联网功能，并且需要根据人们的使用习惯不断优化。同时，随着视频识别技术的发展，视频中蕴含的信息识别出的越多，人们与视频互动或与互联网功能的互动就会越多，对于互动技术的要求也就相应提高。

视频、互联网和“视联网”：下一代互联网展望

二、5G＋AI正在助力“视联网”实现

我们认为，5G的应用与AI技术的高速发展能够很大程度上解决上述的三个难点，打通“视联网”实现的主要障碍。

1、5G与AI技术带来的突破

让我们先来简单分析一下5G和AI技术的发展意味着什么。5G是新一代信息传输技术，具有高宽带、低延时的特点，简单而言就是把现在的无线网络传输速度增加十倍、反应速度缩减到十分之一。AI技术，或者说当前以神经网络算法为核心的AI技术，其本质是高效的记忆与识别。通过AI技术，计算机可以用比人类快几万倍的速度读取数据（本质就是记忆），并找出大量数据间的相关性（识别），甚至找出人脑无法识别的关联。

5G很快就要投入应用，这将很大程度上解决视频传输的带宽问题。以上海为例，根据上海去年11月发布的《上海市推进新一代信息基础设施建设助力提升城市能级和核心竞争力三年行动计划（2018－2020年）》，上海将会在2020年底率先完成“双千兆宽带城市”建设，届时，移动网络用户感知速度可以达到500M／S，固定宽带网速达到千兆。一部无压缩的蓝光电影大约25G左右，用移动网络也就一分钟不到即可下载完成。视频作为信息传输介质的通讯阻碍已经可以基本排除。

AI技术的发展则可以为视频识别提供极大帮助。通过AI算法可以实现计算机自动识别视频中的海量信息，以计算机超过人类数万倍的速度去标识出视频中的可用信息，甚至做出人难以理解却准确的识别判断。AI技术已经在安防、金融、智能驾驶和视频广告投放等垂直领域中有了充分的应用，基于视频识别的部分需求得到了一定满足。尽管现有的技术还难以全面解析视频中的所有信息，但其发展前景使视频内容完全识别成为了可能。在未来，随着视频AI识别技术变得更快速、更精准、更低成本，视频内容的实时解析也并非难以做到，或许那时就能达到智能眼镜的时代。

至于视频互动技术，相较于技术研发，视频互动更为重要的是互动生态的建立。视频内容的生产、传播者和互联网服务提供商需要认可视频观看者的互联网需求，打开数据链路，实现互联网生态在视频层的对接。这需要的是有效的商务推广、龙头带动效应和不断的体验优化。

2、“视联网”发展的四个阶段

视频、互联网和“视联网”：下一代互联网展望

随着5G和AI技术的不断成熟与应用，我们设想了“视联网”发展的四个阶段：

首先是“婴儿期”，即5G和AI的初步应用，也是当下我们所处的阶段。这一阶段中，视频AI技术实现了对视频内容的初步解构，形成了包括内容、情景、事件等结构化数据。基于这些结构化数据，可以实现视频与用户的初步互动，满足用户的有限需求。AI场景广告就是一种初级应用形态，实现了场景购买需求与购买渠道的对接。这一时期的“视联网”功能是初级的、有限的，所有的参与者都是“视联网”的尝鲜者。

再次是“成长期”，即5G和AI的广泛应用。随着AI技术越来越强，视频中的信息已经可以做到全面解析，“视联网”能够带来的价值清晰可见。“视联网”的尝鲜者获得了足够的收益，大量跟风者开始出现。从视频中直接获取信息逐渐成为用户的基本行为习惯，？如在视频中直接点击即可获取演员的姓名和属性，直接点击地标景点即可获取旅游信息等将成为视频的最基础功能。视频内的对象与信息成为了人与互联网交互的？个重要？口。

之后是“青年期”，即“视联网”生态的形成。随着视频作为互联网？口得到普遍认可，？量互联网公司将其服务以“视频小程序”的形式迁移到视频之中，而不仅仅是接入外部链接，从？形成了完整的“视联网”？态。到此时，视频就已经完成了从媒体到介质的转化，出现了“视频操作系统”，真正实现了“视频即桌面”的一次互联？进化。

最后是“成熟期”，“视联网”生态与可穿戴式智能设备达到了深度结合，并随着智能眼镜的普及达到了巅峰，在这一时期，人们的感官成为了互联网的接口，“视联网”也实现了从“视频”到“视觉”的跨越。这一基于自然感官的系统可以称为“自然操作系统”。

再之后，“视联网”可能会被更为便利的模式所替代。互联网的发展不会停止，会向着更为便利和符合人类自然习惯的方向发展。可能在“视联网”之后，人们就实现了通过神经传输数据，进入了脑机时代。此处就不做赘述。

三、“视联网”的影响猜想

“视联网”会带来哪些影响？这个问题在没有发生前我们只能做一些大致的猜想。

1、视频作为信息介质带来的影响：对图文生态的颠覆

图文制作与视频制作融合

可以想见，当视频的内容信息可以完全识别和解析后，图文表现形式可以完全被视频表现形式所取代。当然这并不意味着人们不再需要图文形式的内容，而是说人们完全可以用制作视频的方式制作图文内容，人们对于需要的图文信息可以轻松的去蕴含该信息的视频中提取出来，而传统的图文制作可能将会成为视频制作软件中的一个基础服务。

图文系统被视频系统取代

图文信息形式被视频形式所取代并将带来整个系统生态的剧烈变化，最为显著的变化莫过于当前计算机的图文操作系统会被视频操作系统所取代。这种变化类似于当年Windows的图文操作系统取代DOS的文字操作系统，操作系统的迭代会大幅改变人们使用计算机的习惯，衍生出大量新的内容和服务。

图文服务向视频服务进化

在视频操作系统上的服务可能会分为两类，一类是原有图文服务的视频化移植。就比如谷歌做的搜索服务，在“视联网”时代也十分需要，当然服务内容会有变化，主要搜索对象可能变成视频帧或视频中的某个元素。另一类是无法想象的、基于视频系统的原生服务。这需要根据人们在实际使用“视联网”的过程中逐步发掘与创新。

2、视频作为互联网功能载体带来的影响

互联网入口的全新竞争

“视联网”中，视频作为互联网的主要入口将会引爆新一轮的入口竞争。很可能不同于过去门户网站、APP等功能性入口，“视联网”时期的入口更可能是基于内容层面的，是通过视频内容来吸引流量，进而从内容出发延伸出其他互联网功能。影响视频内容的可能包括分辨率、内容解析度、共鸣度等各类硬性和感性的标准，形成更为垂直分化的用户群体。从这一点出发，视频内容的提供商可能将成为“视联网”中的重要角色。

“视联网”的行业标准之争

视联网中的各类服务是通过小程序形式加载在视频中，从而实现零转换和低延时。为了让各类小程序有序开发并应用在各类格式的视频中，相关的行业标准建立将是重要一步，必将成为巨头们竞争的焦点，就像ios系统与安卓系统的竞争一般。在这一过程中，“视联网”的尝鲜者们或许有一次提前入局的机会。就好似抓住互联网风口的阿里巴巴、抓住移动互联网风口的Uber，“视联网”的风口也将孕育出一批新的巨头。

中智物联工程技术研究院-SIOTCHINA

China (Beijing) academy of Smart Internet of Things Engineering Technology

视频、互联网和“视联网”：下一代互联网展望