用消费显卡也能高性能训练和推理，谷歌、NVIDIA投了一家多大教授创立的公司-助攻财富

在AI领域，创业公司与大公司相比，面临人才短缺和算力成本高企(包括训练和推理)等诸多挑战。解决算力问题日，大公司和超级独角兽们都盯着NVIDIA的A100，H100，H200等高性能AI芯片，但对于小公司，如果能充分利用相对便宜，算力不那么高，但也不那么紧缺的“普通”AI芯片，是现阶段解决算力问题更现实的方式。

一家由多伦多大学副教授Gennady Pekhimenko联合创立的创业公司CentML试图解决这个问题。他们声称，可以帮助客户利用非高端的AI芯片，把AI模型的推理和训练速度提高8倍。

CentML在2022年6月获得Radical Ventures领投的350万美元前种子轮(pre-seed)融资，在近期获得由谷歌人工智能基金Gradient Ventures领投，Radical Ventures、NVIDIA、德勤创投、汤森路透创投和Microsoft Azure AI副总裁Misha Bilenko参与投资的2700万美元的种子轮融资，它的累计融资额达到3050万美元，德勤和汤森路透的工程团队很快将成为CentML的客户。

CentML计划利用这笔资金在旧金山湾区开设新办公室，并在2024年底之前将其32人团队翻倍，聘请工程、销售和市场营销人员。

CentML首席执行官Gennady Pekhimenko用一句话讲清楚了CentML的使命：“当今人工智能面临的一个核心挑战是怎样既快速又经济高效的训练和运行AI模型，并把AI模型的能力大规模应用到行业中，CentML解决了这个问题。”

多伦多大学副教授创业，用软件手段将AI训练和推理成本降低

“市场规模超万亿美元的数据中心基础设施将从通用计算转向加速计算，因为各行业的公司们正竞相将生成式AI应用于每一种产品、服务和商业流程。”这是NVIDIA首席执行官黄仁勋对于算力范式转换的洞见。

正如他所言，目前AI行业对高性能芯片的需求，远远超过全球现有和可预见的芯片供应，AI芯片的供应不足已经是全球性的问题。但是最主流，最高性能的芯片仍然高度集中在少数几家芯片生产商手中，特别是NVIDIA，占据了市场的大部分份额。

根据Gartner的数据，预计2023年AI芯片支出将达到530亿美元，并在未来四年内翻一番以上。

尽管包括OpenAI、谷歌、AWS、Meta和微软在内的一些公司开始探索构建自己的定制芯片来进行AI模型训练和推理。但是根据《连线》杂志最近报道，甚至谷歌研究了多年的TPU，也没有在经济上获得明显的成效。

对于中小型创业公司，这个问题更加突出：由于大公司和独角兽们把最高端的芯片“包圆”了，创业公司不得不缩小模型的尺寸或者面对更高的推理延迟。

但是目前在市场上还出现一个现象，虽然最新最高端芯片极度紧缺，但是一些不那么高端的AI芯片或者旧款芯片却还没有被充分利用，甚至处于闲置状态，无论是芯片供应商，还是云计算服务商，都存在。

CentML瞄准的就是这个需求，他们的软件平台可以通过优化AI/ML模型，最大限度地利用当前硬件，无论这个硬件是高端还是低端，专业级还是消费级。“本质上，我们所做的就是为客户从现有硬件中挤出更多的价值。”CentML联合创始人兼首席执行官Gennady Pekhimenko表示。

CentML由Gennady Pekhimenko(CEO)、Akbar Nurlybayev(COO)、Shang Wang(CTO)和Anand Jayarajan(首席工程师)共同创建。他们的团队中还包括来自亚马逊、谷歌、英伟达和 IBM 等公司从事 AI、编译器和 ML 硬件工作的技术专家。

Pekhimenko是多伦多大学的副教授，毕业博士毕业于CMU，他也是AI研究机构Vector Institute for AI的教员。在成为教授前，他在MLPerf(全球AI基准测试组织)和微软研究院做过研究工作。他的论文被引用次数超过5000次，在高效内存系统、机器学习系统、编译器和硬件加速等方面有深厚研究。

可以说，Pekhimenko教授用了他整个学术生涯的研究成果，瞄准了AI算力不足的痛点，创立了CentML，Shang Wang和Anand Jayarajan均是Pekhimenko教授在多伦多大学的博士生。

Akbar Nurlybayev在Architech、500px、OPENLANE等多家知名科技公司担任技术团队领导，拥有丰富的技术决策和团队领导经验。

“我们相信AI将促进技术的各种新用例和能力，而AI运行在GPU的大规模并行计算能力上。CentML加速模型、协调工作负载和优化性能的能力，帮助公司和开发者利用不同级别的GPU实现以前不可能实现的高性能。这是一项非凡的技术和能力，有助于缓解目前和至少中期内AI面临的最大限制之一。

基于CentML创始人的素质，以及整个团队的经验水平，我们相信CentML在AI模型优化领域正在开辟一条独特的道路。”Gradient Ventures合伙人 Zach Bratun-Glennon谈到自己投资CentML的内在逻辑。

Radical Ventures合伙人David Katz则表示：“很少有团队具备优化各种芯片类型的选择和性能，并在大规模上解决这个问题的专业知识。Pekhimenko和CentML团队是全球能够解决与这一挑战相关的最复杂问题的顶尖人物和顶尖团队之一。”

NVIDIA的CUDA和编译器软件总监Vinod Grover说：“生成式AI的普及正在创造一个新的开发者、研究人员和科学家群体，他们寻求使用加速计算来实现各种功能。CentML在GPU上以最高效的方式优化AI和ML模型的工作，正在帮助这些人创造更快、更简便的体验。”

让NVIDIA A10的推理速度比A100还快

CentML目前的产品主要是两种开源工具，分别是Hidet和DeepView。

Hidet是一种编译器，它支持从PyTorch和ONNX(一种文件格式，用于存储训练好的模型)到高效CUDA核心的AI模型端到端编译。允许开发者将原始源代码转换成功能性程序，能够提高AI模型的推理性能并降低运行成本。

它的具体工作原理是：通过一种称为操作符融合的技术来加速神经网络，操作符是AI模型的组成部分，负责决定模型的哪些人工神经元应参与给定的计算任务。Hidet可以将多个操作符“融合”成一个代码组件，通过减少数据在内存间的移动，从而提高性能。

此外，它可以充分的利用NVIDIA GPU中的CUDA核心的性能。CentML 表示，其软件可以在不降低准确性的情况下加速AI模型，在一项内部项目中，它将Llama 2模型的运行速度提高了三倍。公司宣称，它对于开发者非常友好，用起来“几乎不需要任何额外学习成本”。

除了加快处理时间，加速AI模型还可以降低算力基础设施成本。如果神经网络的性能翻倍，它可以使用一半的GPU以相同的速度处理数据。这意味着创业公司只需要更少的AI芯片，就能达到业务所需要的算力性能。

DeepView则允许开发者监控AI模型的训练过程，通过它能够直观地识别AI模型瓶颈，进行快速迭代的性能分析，寻找加速该过程的方法。通过它还能监控AI训练时能源消耗和环境影响，并预测部署到云硬件的时间和成本。

在此前的阶段，CentML的关注重点在AI模型训练的优化上，但是在未来，他们会将更多的资源和精力放在AI模型的推理上，他们认为这是AI增长更好的途径。

目前，CentML拥有数家大型客户，包括NVIDIA、Amazon、Snowflake、甲骨文。

在他们与甲骨文一起做的实验中，CentML的工具配合甲骨文的云基础设施(OCI)，使用NVIDIA的A10 GPU(24GB显存)对Llama 2 7B模型进行模型推理的基准测试，其中提示长度为大约10个词，生成序列长度为255个词。

当AI训练和推理的成本足够低，AI行业才能真正发展

整个AI行业现在都面对一个问题，就是算力紧缺，即便是最头部的OpenAI，也经常因为这个问题而宕机。而即便解决了算力紧缺的问题，AI行业还要解决一个问题，就是AI推理的成本过高。与互联网时代的科技企业相比，AI公司的运行成本不会因为用户规模的增长而呈现边际递减，而是会与用户规模一起线性的增加，即便OpenAI已经获得了巨量的资金，每月的收入超过1亿美元，但它仍是亏损的。

另一方面，AI训练成本的高企(无论是预训练还是微调)，也在拥有大量算力的公司和算力没那么多的公司之间树起了鸿沟。

正因如此，为了帮助AI公司们扭转这种局面，无论是在硬件层面，还是软件层面，都有不少公司在致力于降低AI模型的训练和推理成本。

在硬件层面，有我们介绍过的Enfabrica(大幅降低GPU算力闲置)，d-Matrix(专用AI推理芯片，将算力成本降低30倍)，当然NVIDIA自身也在努力。

在软件层面，除了CentML以外，还有被DataBricks收购的MosaicML，融资8500万美元的OctoML等。

与MosaicML相比，CentML不会导致AI模型准确度的损失，与OctoML相比，CentML对于云端的适应性更好，它的技术总体更先进些，解决了此前产品的一些不足之处。

CentML，包括Enfabrica、d-Matrix、MosaicML等公司对于降低AI模型训练和推理成本的努力，可以说建立了AI行业发展的基础。当成本降下来后，AI公司增长的规模效应才能成立，初创公司的创新门槛会降低，整个创新生态才会健康和长久的发展，我们相信这一天并不远。