Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
爱派AiPy
一款可本地部署的AI智能体,帮你操作电脑、手机、服务器设备
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
星月写作
人工智能写作助手
衡天云
海外云服务器12元/月起,限量抢购,超高性价比
豆包AI
字节跳动旗下 AI 智能助手
01Agent
AI内容创作智能体,选题+创作+排版+多平台分发
趣网商城
私密生活好物,隐私配送,无痕购物
扣子Coze
职场AI,就用扣子
阿里云优惠券
卓越的云计算技术和服务提供商

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

Mamba

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/state-spaces/mamba
描述信息:基于结构化状态空间模型SSM的新型深度学习架构
GitHub

Mamba(包含 Mamba-2)的官方实现代码库,聚焦于基于选择性状态空间模型(Selective State Space Model, SSM)的线性时间序列建模,由 Albert Gu 和 Tri Dao 主导开发,核心目标是解决传统 Transformer 在信息密集型数据(如语言建模)上的效率瓶颈,同时保持甚至超越其性能。


一、核心定位

Mamba 是一种全新的状态空间模型架构,基于结构化状态空间模型(SSM)的研究进展,结合硬件感知的高效设计(借鉴 FlashAttention 思路),实现了线性时间复杂度的序列建模,相比 Transformer 类模型在长序列任务上更高效。


二、核心内容

1. 核心模块

  • Selective SSM:Mamba 的核心层(对应论文 Algorithm 2),实现选择性状态空间计算,源码位于 mamba_ssm/ops/selective_scan_interface.py;
  • Mamba Block:封装选择性 SSM 的核心架构块,基础版本在 mamba_ssm/modules/mamba_simple.py;
  • Mamba-2:Mamba 的升级版本(基于 State Space Dual 模型),实现位于 mamba_ssm/modules/mamba2.py/mamba2_simple.py,还提供了极简版 SSD 模块(ssd_minimal.py);
  • Mamba 语言模型:完整的语言模型示例(Mamba 块堆叠 + 语言模型头),支持大语言模型训练 / 推理。

2. 预训练模型

提供多个规模的预训练模型(上传至 Hugging Face state-spaces 仓库),涵盖 Mamba 和 Mamba-2 系列,参数规模包括 130M、370M、790M、1.4B、2.8B 等,训练数据基于 Pile/SlimPajama 数据集(300B/600B tokens)。

3. 硬件与环境支持

基础依赖:Linux 系统、NVIDIA GPU(CUDA 11.6+)、PyTorch 1.12+;

扩展支持:AMD GPU(ROCM 6.0+,需补丁)、AWS Trainium 2 硬件;

编译与构建:支持多版本 CUDA/PyTorch/Python 编译,提供自动化构建脚本(GitHub Actions),可生成适配不同环境的 wheel 包。


三、使用方式

1. 安装

支持 pip 快速安装或源码编译:

# 核心包
pip install mamba-ssm
# 含因果卷积依赖
pip install mamba-ssm[causal-conv1d]
# 源码构建
pip install .

2. 基础使用示例

Mamba 基础块:

import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba-2 块(用法兼容):

from mamba_ssm import Mamba2
model = Mamba2(d_model=dim, d_state=64, d_conv=4, expand=2).to("cuda")
y = model(x)


四、工程化设计

编译构建:通过 setup.py 封装 CUDA/HIP 扩展编译,支持不同 CUDA 版本(11.6+)、C++11 ABI 适配,自动生成适配多环境的 wheel 包;

CI/CD:通过 GitHub Actions 实现自动化构建、测试、发布,支持多平台(x86/ARM)、多依赖版本组合,构建产物上传至 GitHub Release 并同步发布至 PyPI;

代码结构:模块化设计,核心计算(selective scan)通过 CUDA 实现高性能算子,上层封装模型块和语言模型,配套基准测试(benchmarks/)、单元测试(tests/)。


五、许可证与引用

许可证:基于 Apache License 2.0 开源,允许商用但需遵循许可证条款;

学术引用:若使用该代码库,需引用 Mamba 和 Mamba-2 的论文:


@article{mamba,
  title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces},
  author={Gu, Albert and Dao, Tri},
  journal={arXiv preprint arXiv:2312.00752},
  year={2023}
}

@inproceedings{mamba2,
  title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality},
  author={Dao, Tri and Gu, Albert},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2024}
}


六、应用与生态

Mamba 已被多家机构 / 实验室采纳用于加速训练 / 推理,仓库也提供了适配不同硬件(NVIDIA/AMD/AWS Trainium 2)的文档和方案,是高效序列建模领域的重要开源项目。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4975

更多»
热门资源
豆包AI
字节跳动旗下 AI 智能助手
官网
扣子Coze
职场AI,就用扣子
官网
DeepSeek
幻方量化公司旗下的开源大模型平台
官网
GitHub
01Agent
AI内容创作智能体,选题+创作+排版+多平台分发
官网
AiPPT(PPT增强插件)
高效设计,AI创作,资源素材的智能化PPT创作工具
官网
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
官网
Trae
字节跳动推出的 AI原生编程工具
官网
美图设计室
AI智能一键生成海报,免费平面设计
官网
爱派AiPy
一款可本地部署的AI智能体,帮你操作电脑、手机、服务器设备
官网
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作
官网
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
官网
奇绘馆AI视频
新一代AI视频创作平台
官网
类似于Mamba的资源
LangGPT
人人都能写出高质量提示词
官网
GitHub
SmartMap
一个AI 对话式的旅游景点规划与推荐网站
官网
OpenGPT
AI应用生成平台,快速生成你的ai应用
官网
Spec-Kit
用来管理项目规范和AI助手的工作流程
点击进入
GitHub
TradingAgents
多智能体大语言模型金融交易框架
点击进入
GitHub
AiPPT
全智能AI一键生成 PPT
官网
思默问答AI
高效智能的问答、写作生成器
官网
纳米AI
360集团旗下的智能体系统
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网 All Rights Reserved. 提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。