作者：Alphatu 来源：X，@Alphatu4 翻译：善欧巴，金色财经

自2023年9月OpenAI开始在其ChatGPT平台推出新的语音和图像功能以来，引入了更直观的界面，允许用户与ChatGPT进行语音对话并共享图像，从而增强整体用户体验。

这种情况进一步加剧了多式联运已经炙手可热的流行。

事实上，语音和图像功能的集成为用户在生活的各个方面提供了与ChatGPT交互的多种方式。无论是在旅途中还是在家中，用户现在都可以利用这些多模态功能与 AI 模型进行更加身临其境的互动交互，为许多以前无法完成的产品场景增添想象力。

多模态将比通用语言模型更广泛地应用于工业场景。

什么是多模态人工智能？

多模态人工智能是指能够理解和处理来自多种模式或来源的信息的人工智能系统和模型。在人工智能的背景下，模态是一种不同的输入形式或渠道，例如文本、图像、音频、视频或任何其他类型的数据。多模态人工智能旨在整合和分析来自各种模态的信息，以实现对数据的更全面的理解。

图形处理单元（GPU 或 TPU）的广泛使用极大地推动了深度学习 AI 的发展。然而，生成式人工智能进一步推动了这一进步，赋予它似乎永不满足的能力，以令牌的形式吸收数据，以及代表神经元之间连接数量的参数。此外，它还利用称为浮点运算 (FLOPS) 的计算能力指标。最新的 GPT-4 模型现已配备多模态功能，可混合文本和图像，并进行了大幅增强，因其在各种自然语言处理任务上优于现有法学硕士的卓越性能而赢得赞誉。

多模态人工智能及工业场景

然而，单模态数据的约束给现实场景尤其是工业场景带来了挑战，需要采用多模态人工智能。

在信息丰富的场景中，仅仅依靠“语言”模型是不够的。有效的决策和信息评估需要多种信号。

以制造业为例，制造业存在大量的图像、温度、重量等数据。在这种情况下，完全依赖语言模型是不够的，这凸显了整合各种形式信息的必要性。

以医疗领域为例。为什么医生更喜欢面对面诊断，为什么目前的人工智能不能全面诊断疾病？解释在于医生会分析文字和患者的表现。在检查特定的 X 射线时，医生会参与集体讨论和咨询，因为他们提取的不仅仅是图像或文本段落，而是解释多模态信息。

多模式输入不仅限于文本，还包括声音、红外数据和其他元素。这种方法有助于训练模型进行多维度思考。

考虑一辆仅配备摄像头系统的自动驾驶汽车；在弱光条件下识别行人会遇到困难。为了全面应对这些挑战，激光雷达、雷达和 GPS 的结合至关重要。这种集成使车辆能够更全面地感知周围环境，从而提高驾驶的安全性和可靠性。

这里的基本原则强调了整合多种感官以获得对复杂事件更深刻理解的重要性。通过多模态人工智能的利用，文本信息、照片、视频和音频可以融合，形成对给定情况的连贯而全面的描述。

人工智能从根本上解决知识问题，而互联网主要解决信息问题。知识本质上是特定领域的，缺乏互联网的普遍性。制造业内领域专家和多模式人工智能能力的协同集成有可能显着降低成本并提高效率。

多模式人工智能和制造业的未来

什么是多模态人工智能？

多模态人工智能及工业场景

相关推荐