AI21 Lab 新推出的 Mamba 架构和基于该架构的 Jamba 模型

AI观察员 2024-03-29 15:14:57 浏览数 (112)
反馈

AI21 Lab 新推出的 Mamba 架构和基于该架构的 Jamba 模型

Image

AI21 Lab 推出了一种新的 LLM 架构 Mamba,同时发布的还有基于这个架构的模型 Jamba。模型将会开源。#ai##llm#

Mamba 是一款创新的结构化状态空间(SSM)模型,其设计目的是为了克服传统Transformer架构的限制,但它本身也存在一些不足。而 Jamba 则结合了这两种技术的优点。

Jamba 模型的特点:

  • 首个基于创新SSM-Transformer混合架构的生产级Mamba模型
  • 与Mixtral 8x7B相比,在长文本上的吞吐量提高了3倍
  • 模型支持高达256K的大规模上下文窗口,使更多用户能够访问和使用
  • 是其大小类别中唯一一个能在单个GPU上适应高达140K上下文的模型
  • 以开放权重在Apache 2.0下发布
  • 可在Hugging Face上获取,并即将登陆NVIDIA API目录

公告地址:https://www.ai21.com/blog/announcing-jamba

@AI21 @LLM

0 人点赞