NVIDIA 发布TensorRT 8,在推理方面取得重大突破


NVIDIA 在推理方面取得突破,从云端到边缘实现更智能、更具互动性的对话式AI。 


TensorRT 8为医疗、汽车和金融领域的领先企业提供全球最快AI推理性能


NVIDIA 于今日发布公司第八代 AI 软件TensorRT™ 8。该软件将语言查询推理时间缩短了一半,使开发者能够从云端到边缘构建全球最佳性能的搜索引擎、广告推荐和聊天机器人。



TensorRT 8 的各项优化为语言应用带来了创纪录的速度,能够在 1.2 毫秒内运行 BERT-Large ——全球最广为采用的基于 transformer 的模型之一。过去,企业不得不缩减模型大小,而这会导致结果出现大幅偏差。现在有了 TensorRT 8,企业可以将其模型扩大一倍或两倍,从而大幅提高精度。


NVIDIA 开发者计划副总裁 Greg Estes 表示:“ AI 模型正以指数级的速度增长。全世界对 AI 实时应用的使用需求正在激增。这使企业必须部署最先进的推理解决方案。最新版本的 TensorRT 引入了多项新功能,使企业能够以前所未有的质量和响应速度向其客户提供对话式 AI 应用。”


五年来,医疗、汽车、金融和零售等各个领域 27,500 家企业的超 35万名开发者下载 TensorRT 近 250 万次。TensorRT 可部署于超大规模数据中心、嵌入式或汽车产品平台。


最新推理创新


除了针对 transformer 的优化之外,TensorRT 8 还通过其他两项关键特性,实现了AI推理方面的突破。


其一是稀疏性,这是助力推动 NVIDIA Ampere 架构 GPU 性能提升的一项全新技术,它不但提高了效率,还使开发者能够通过减少计算操作来加速其神经网络。


其二是量化感知训练,开发者能够使用训练好的模型,以 INT8 精度运行推理,在这一过程中不会损失精度。这大大减少了计算和存储成本,从而在 Tensor Core 核心上实现高效推理。


TensorRT 8可应用于各种不同的场景,例如自动送货机器人、自动化农场、自动光学检测、视频分析,还有能够转写和输入的聊天机器人。

1.gif


广泛的行业支持


行业领导者已将 TensorRT 用于他们在对话式AI和其他各个领域的深度学习推理应用。


Hugging Face 是开源 AI 技术的领导者,其客户包括全球多个行业领域的大规模AI服务提供商。该公司正与 NVIDIA 开展密切合作,推出能够助力实现大规模文本分析、神经搜索和对话式应用的开创性 AI 服务。


Hugging Face 产品总监 Jeff Boudier 表示:“我们正在与 NVIDIA 开展密切合作,以基于 NVIDIA GPU,为最先进的模型提供最佳性能。Hugging Face 加速推理 API 已经能够为基于 NVIDIA GPU的 transformer 模型提供高达 100 倍的速度提升。通过 TensorRT 8,Hugging Face 在 BERT 上实现了 1 毫秒的推理延迟。我们十分期待能在今年晚些时候为我们的客户提供这一性能。”


全球领先的医疗技术、诊断和数字解决方案创新者 GE 医疗正在使用 TensorRT,助力加速早期检测疾病的关键工具——超声波计算机视觉应用,使临床医生能够通过其智能医疗解决方案提供最高质量的护理。


GE 医疗心血管超声首席工程师 Erik Steen 表示:“临床医生需要花费宝贵的时间来选择和评估超声图像。在 Vivid Patient Care Elevated Release 项目的研发过程中,我们希望通过在 Vivid E95 扫描仪上实施自动心脏视图检测,使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动。TensorRT 凭借其实时推理能力,提高了视图检测算法的性能,同时缩短了我们研发项目的产品上市时间。”

1.png


可用性


TensorRT 8 现已全面上市,并免费向 NVIDIA 开发者计划成员提供。用户还可从 TensorRT GitHub 库中获得最新版本插件、解析器和样本的开放源代码。


与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。