OPPO发布Transformer-Lite移动推理引擎

AI观察员 2024-04-02 10:06:03 浏览数 (502)
反馈

OPPO发布Transformer-Lite移动推理引擎

Image

OPPO发布了一种移动推理引擎Transformer-Lite,专为在手机上高效部署大型语言模型设计。#ai#

通过符号表达式、算子优化、FP4量化和KV缓存技术克服移动设备性能限制,显著提升智能助手、文本摘要等应用的推理速度。

详细信息:

Transformer-Lite是由OPPO AI Center开发的一种移动推理引擎,专门用于在移动设备的GPU上高效部署大型语言模型(LLM)。

该引擎通过一系列优化技术,实现了与Qualcomm和MTK处理器的兼容性,从而能够在智能手机上提供智能助手、文本摘要、翻译等功能,改善用户体验。

Transformer-Lite通过提出四种优化技术来解决挑战:

  • (a) 基于符号表达式的方法支持动态形状模型推理;
  • (b) 算子优化和执行优先级设置以提高推理速度和减少手机延迟;
  • (c) 引入FP4量化方法M0E4减少量化开销;
  • (d) 子张量技术消除LLM推理后KV缓存复制的需要。

论文地址:https://arxiv.org/abs/2403.20041

@OPPO @Transformer-Lite @移动推理引擎

0 人点赞