Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
蜂小推
不扣量的项目推广平台
01Agent
AI内容创作智能体,选题+创作+排版+多平台分发
AiPPT
全智能AI一键生成 PPT
奇绘馆AI视频
新一代AI视频创作平台
阿里云优惠券
卓越的云计算技术和服务提供商
AiPPT(PPT增强插件)
高效设计,AI创作,资源素材的智能化PPT创作工具
免费资源下载
一站式解决工作学习需求的宝藏网站
星月写作
人工智能写作助手
衡天云
海外云服务器12元/月起,限量抢购,超高性价比
fly63工具箱
简单、易用、便捷的在线工具

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

Mamba

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/state-spaces/mamba
描述信息:基于结构化状态空间模型SSM的新型深度学习架构
GitHub

Mamba(包含 Mamba-2)的官方实现代码库,聚焦于基于选择性状态空间模型(Selective State Space Model, SSM)的线性时间序列建模,由 Albert Gu 和 Tri Dao 主导开发,核心目标是解决传统 Transformer 在信息密集型数据(如语言建模)上的效率瓶颈,同时保持甚至超越其性能。


一、核心定位

Mamba 是一种全新的状态空间模型架构,基于结构化状态空间模型(SSM)的研究进展,结合硬件感知的高效设计(借鉴 FlashAttention 思路),实现了线性时间复杂度的序列建模,相比 Transformer 类模型在长序列任务上更高效。


二、核心内容

1. 核心模块

  • Selective SSM:Mamba 的核心层(对应论文 Algorithm 2),实现选择性状态空间计算,源码位于 mamba_ssm/ops/selective_scan_interface.py;
  • Mamba Block:封装选择性 SSM 的核心架构块,基础版本在 mamba_ssm/modules/mamba_simple.py;
  • Mamba-2:Mamba 的升级版本(基于 State Space Dual 模型),实现位于 mamba_ssm/modules/mamba2.py/mamba2_simple.py,还提供了极简版 SSD 模块(ssd_minimal.py);
  • Mamba 语言模型:完整的语言模型示例(Mamba 块堆叠 + 语言模型头),支持大语言模型训练 / 推理。

2. 预训练模型

提供多个规模的预训练模型(上传至 Hugging Face state-spaces 仓库),涵盖 Mamba 和 Mamba-2 系列,参数规模包括 130M、370M、790M、1.4B、2.8B 等,训练数据基于 Pile/SlimPajama 数据集(300B/600B tokens)。

3. 硬件与环境支持

基础依赖:Linux 系统、NVIDIA GPU(CUDA 11.6+)、PyTorch 1.12+;

扩展支持:AMD GPU(ROCM 6.0+,需补丁)、AWS Trainium 2 硬件;

编译与构建:支持多版本 CUDA/PyTorch/Python 编译,提供自动化构建脚本(GitHub Actions),可生成适配不同环境的 wheel 包。


三、使用方式

1. 安装

支持 pip 快速安装或源码编译:

# 核心包
pip install mamba-ssm
# 含因果卷积依赖
pip install mamba-ssm[causal-conv1d]
# 源码构建
pip install .

2. 基础使用示例

Mamba 基础块:

import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba-2 块(用法兼容):

from mamba_ssm import Mamba2
model = Mamba2(d_model=dim, d_state=64, d_conv=4, expand=2).to("cuda")
y = model(x)


四、工程化设计

编译构建:通过 setup.py 封装 CUDA/HIP 扩展编译,支持不同 CUDA 版本(11.6+)、C++11 ABI 适配,自动生成适配多环境的 wheel 包;

CI/CD:通过 GitHub Actions 实现自动化构建、测试、发布,支持多平台(x86/ARM)、多依赖版本组合,构建产物上传至 GitHub Release 并同步发布至 PyPI;

代码结构:模块化设计,核心计算(selective scan)通过 CUDA 实现高性能算子,上层封装模型块和语言模型,配套基准测试(benchmarks/)、单元测试(tests/)。


五、许可证与引用

许可证:基于 Apache License 2.0 开源,允许商用但需遵循许可证条款;

学术引用:若使用该代码库,需引用 Mamba 和 Mamba-2 的论文:


@article{mamba,
  title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces},
  author={Gu, Albert and Dao, Tri},
  journal={arXiv preprint arXiv:2312.00752},
  year={2023}
}

@inproceedings{mamba2,
  title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality},
  author={Dao, Tri and Gu, Albert},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2024}
}


六、应用与生态

Mamba 已被多家机构 / 实验室采纳用于加速训练 / 推理,仓库也提供了适配不同硬件(NVIDIA/AMD/AWS Trainium 2)的文档和方案,是高效序列建模领域的重要开源项目。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4975

更多»
热门资源
豆包AI
字节跳动旗下 AI 智能助手
官网
扣子Coze
职场AI,就用扣子
官网
方舟(Coding Plan)
火山引擎推出的大模型API聚合订阅服务
官网
Trae
字节跳动推出的 AI原生编程工具
官网
01Agent
AI内容创作智能体,选题+创作+排版+多平台分发
官网
AiPPT(PPT增强插件)
高效设计,AI创作,资源素材的智能化PPT创作工具
官网
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
官网
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
官网
爱派AiPy
一款可本地部署的AI智能体,帮你操作电脑、手机、服务器设备
官网
ArkClaw龙虾
能自己操控电脑、帮你干活的AI智能体
官网
必火AI
数字人一站式创作平台
官网
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作
官网
类似于Mamba的资源
Open-Sora
一个开源的视频生成项目仓库
官网
GitHub
Higgsfield
具备专业运镜效果的生成式AI视频创作平台
官网
VideoLingo
一键全自动视频搬运AI字幕组
官网
GitHub
一个虚拟 AI 助手
将知识库转变为类似聊天机器人的助手的工具
官网
Make
AI零代码,可视化工作流自动化平台
官网
小爱同学
为用户提供全球领先的语音识别、NLP等完整的AI技术服务
官网
ChatGPT Atlas
OpenAI推出的全新AI原生浏览器
官网
Clipdrop
AI技术处理图像的工具
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网 All Rights Reserved. 提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。