-->
Save your FREE seat for Streaming Media Connect this August. Register Now!
  • September 9, 2019
  • By David Jeyes Director of Product Management for Manageability and Analytics, Vbrick
  • Spotlights

Transform the Workplace With Video Powered by AI

Article Featured Image

人工智能(AI)是指允许计算机模仿人类能力的一系列广泛方法. This is distinct from automation, 创建能够在没有人为干预的情况下执行基于流程的任务的硬件或软件的过程是什么.

Fundamentals of Modern Artificial Intelligence

The most common form of AI today is Machine Learning, 将大量数据“馈送”到算法中以训练它. Once trained, 该算法能够在没有辅助的情况下识别并对后续数据馈送中的项目进行分类. Machine Learning algorithms use an iterative process, so as the learning models get exposed to new data, they adapt from what they have "learned.“机器学习的一个主要缺点是依赖于大量的样本数据,以便变得足够准确. Thus, 当前机器学习的应用受到高质量输入数据来源的限制.

另一个人工智能学科,也是与人工智能在视频中的应用最相关的是 Computer Vision. In Computer Vision, 目标是使用人工智能来解释图像或视频的视觉元素. 计算机视觉可以使用机器学习或深度学习技术来实现这一目标, 也是面部识别和自动驾驶汽车等新兴技术应用的基础. 事实证明,教计算机像人类一样处理视觉数据比简单地将算法与相机连接起来要困难得多. 大部分挑战都源于对人类视觉如何工作的基本理解,以便复制它. Despite this, 对于商业战略家来说,计算机视觉是目前人工智能最令人兴奋的方面之一, 根据Forrester的数据,58%的购买影响者开始计划在未来一年内在其企业技术组合中投资计算机视觉.

The Building Blocks of Video AI

语音是视频的重要组成部分,人工智能可以通过多种方式帮助解读语音.

Machine Transcription: An example of one of the earliest examples of Artificial Intelligence, 一个算法可以将语音数据翻译成文本的地方. This technology is now commonplace and even cooked into our smartphones, 但由于创新的深度学习技术的出现,它也正在经历复兴.

Machine Translation: Once spoken words are digested into text data, it unlocks other abilities like translation into additional languages. One of the key AI pioneers in this field has been Google, who first launched their translation service in 2006, using United Nations & European Parliament transcripts as the foundation linguistic data. 截至2017年5月,谷歌支持100多种语言,每天为5亿人提供服务.

Speaker Recognition: 这是人工智能根据说话人的声音和说话模式识别说话人身份的能力. 这种能力的一个关键依赖是一个现有的人的声音样本来训练AI.

Optical Character Recognition (OCR): OCR is the art of recognizing text from within visual content, such as the text on embedded presentation slides. OCR在商业领域的主要好处是进一步使搜索引擎能够向用户提供视觉内容,而无需过度依赖准确和全面的元数据.

Sentiment Analysis: 另一种丰富文本数据的方法是通过称为情感的附加信息层. 该算法解释对话,以识别和量化情感状态. 情感状态不同于情绪,因为情感状态是持续时间更长的情绪状态(如焦虑或抑郁),是许多事件的结果.

Text Summarization: 内容摘要是有助于构建下一代视频人工智能的较新的文本应用之一. 这是一种算法能够将数小时的视频浓缩成简洁的文本摘要的时候. 摘要算法将考虑视频中信息的位置或重点.

To learn more on the foundations of video AI, read the Vbrick Blog "The Foundations of Video Artificial Intelligence."

Beyond spoken words and text found in video, 人工智能有望识别物体和动作,从而进一步提升其为视频带来的价值.

Object Recognition: After a machine learning algorithm has digested a video frame, the Object Recognition process identifies the various subjects within it. 人工智能的对象识别是一系列相关任务的集合,而不是人类视觉所感知的单一步骤. The key elements of Object Recognition include image classification, object localization, and finally object detection.

Action Detection: 视频内容的一个关键优势是能够展示而不是讲述一个故事. 计算机视觉的进步使人工智能能够解码正在做的事情,而不仅仅是谁在里面.

将对象识别与动作检测相结合将允许分析或预测对象为什么要执行动作. The algorithm once more needs extensive training to recognize an action, and this action will need to be visually detectable. 人工智能观察者仍然无法猜测屏幕外发生的动作.

人工智能的应用正变得越来越普遍,我们看到了它给我们的个人和职业生活带来的价值.  随着直播和点播视频在工作场所的使用不断增长, 人工智能的加入有望以指数方式增加视频的使用方式,以及它在改变工作方式以及员工沟通和协作方式方面所带来的价值.

了解更多关于视频人工智能,看看Vbrick是如何实现视频人工智能功能到我们的产品路线图, be sure to register for our webinar "How Video AI Is Transforming The Workplace" on September 19th.

This article is Sponsored Content

Streaming Covers
Free
for qualified subscribers
Subscribe Now Current Issue Past Issues
Related Articles

The State of Machine Learning and AI 2019

在王室婚礼和世界杯等活动中,机器学习和人工智能占据了中心舞台.

Companies and Suppliers Mentioned