Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
购物快捷导航
一站式解决网购需求的智能平台
免费资源下载中心
一站式解决工作学习需求的宝藏网站
豆包AI
字节跳动旗下 AI 智能助手
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
茅茅虫
茅茅虫AI论文写作助手,AIGC论文查重
蜂小推
不扣量的项目推广平台
硅云优惠券
领先的基础云计算服务提供商,PHP云虚拟主机第一品牌
腾讯云优惠券
云服务器,云数据库,CDN,域名注册等多种云计算服务
LiblibAI
一站式AI内容创作生成平台,原创AI模型分享社区
阿里云优惠券
卓越的云计算技术和服务提供商

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

Mamba

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/state-spaces/mamba
网站描述:基于结构化状态空间模型SSM的新型深度学习架构
GitHub

Mamba(包含 Mamba-2)的官方实现代码库,聚焦于基于选择性状态空间模型(Selective State Space Model, SSM)的线性时间序列建模,由 Albert Gu 和 Tri Dao 主导开发,核心目标是解决传统 Transformer 在信息密集型数据(如语言建模)上的效率瓶颈,同时保持甚至超越其性能。


一、核心定位

Mamba 是一种全新的状态空间模型架构,基于结构化状态空间模型(SSM)的研究进展,结合硬件感知的高效设计(借鉴 FlashAttention 思路),实现了线性时间复杂度的序列建模,相比 Transformer 类模型在长序列任务上更高效。


二、核心内容

1. 核心模块

  • Selective SSM:Mamba 的核心层(对应论文 Algorithm 2),实现选择性状态空间计算,源码位于 mamba_ssm/ops/selective_scan_interface.py;
  • Mamba Block:封装选择性 SSM 的核心架构块,基础版本在 mamba_ssm/modules/mamba_simple.py;
  • Mamba-2:Mamba 的升级版本(基于 State Space Dual 模型),实现位于 mamba_ssm/modules/mamba2.py/mamba2_simple.py,还提供了极简版 SSD 模块(ssd_minimal.py);
  • Mamba 语言模型:完整的语言模型示例(Mamba 块堆叠 + 语言模型头),支持大语言模型训练 / 推理。

2. 预训练模型

提供多个规模的预训练模型(上传至 Hugging Face state-spaces 仓库),涵盖 Mamba 和 Mamba-2 系列,参数规模包括 130M、370M、790M、1.4B、2.8B 等,训练数据基于 Pile/SlimPajama 数据集(300B/600B tokens)。

3. 硬件与环境支持

基础依赖:Linux 系统、NVIDIA GPU(CUDA 11.6+)、PyTorch 1.12+;

扩展支持:AMD GPU(ROCM 6.0+,需补丁)、AWS Trainium 2 硬件;

编译与构建:支持多版本 CUDA/PyTorch/Python 编译,提供自动化构建脚本(GitHub Actions),可生成适配不同环境的 wheel 包。


三、使用方式

1. 安装

支持 pip 快速安装或源码编译:

# 核心包
pip install mamba-ssm
# 含因果卷积依赖
pip install mamba-ssm[causal-conv1d]
# 源码构建
pip install .

2. 基础使用示例

Mamba 基础块:

import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba-2 块(用法兼容):

from mamba_ssm import Mamba2
model = Mamba2(d_model=dim, d_state=64, d_conv=4, expand=2).to("cuda")
y = model(x)


四、工程化设计

编译构建:通过 setup.py 封装 CUDA/HIP 扩展编译,支持不同 CUDA 版本(11.6+)、C++11 ABI 适配,自动生成适配多环境的 wheel 包;

CI/CD:通过 GitHub Actions 实现自动化构建、测试、发布,支持多平台(x86/ARM)、多依赖版本组合,构建产物上传至 GitHub Release 并同步发布至 PyPI;

代码结构:模块化设计,核心计算(selective scan)通过 CUDA 实现高性能算子,上层封装模型块和语言模型,配套基准测试(benchmarks/)、单元测试(tests/)。


五、许可证与引用

许可证:基于 Apache License 2.0 开源,允许商用但需遵循许可证条款;

学术引用:若使用该代码库,需引用 Mamba 和 Mamba-2 的论文:


@article{mamba,
  title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces},
  author={Gu, Albert and Dao, Tri},
  journal={arXiv preprint arXiv:2312.00752},
  year={2023}
}

@inproceedings{mamba2,
  title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality},
  author={Dao, Tri and Gu, Albert},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2024}
}


六、应用与生态

Mamba 已被多家机构 / 实验室采纳用于加速训练 / 推理,仓库也提供了适配不同硬件(NVIDIA/AMD/AWS Trainium 2)的文档和方案,是高效序列建模领域的重要开源项目。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4975

更多»
热门资源
豆包AI
字节跳动旗下 AI 智能助手
官网
扣子Coze
职场AI,就用扣子
官网
DeepSeek
幻方量化公司旗下的开源大模型平台
官网
GitHub
AiPPT
全智能AI一键生成 PPT
官网
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
官网
LiblibAI
一站式AI内容创作生成平台,原创AI模型分享社区
官网
Trae
字节跳动推出的 AI原生编程工具
官网
美图设计室
AI智能一键生成海报,免费平面设计
官网
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作
官网
茅茅虫
茅茅虫AI论文写作助手,AIGC论文查重
官网
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
官网
奇绘馆AI视频
新一代AI视频创作平台
官网
类似于Mamba的资源
ChatLab
聊天记录分析工具
官网
GitHub
AiPPT
全智能AI一键生成 PPT
官网
ChatTTs
一款适用于日常对话的生成式语音模型
官网
GitHub
AnythingLLM
开源免费且支持多模态交互的全栈 AI 客户端
官网
GitHub
Suno AI
一个 AI 音乐创作平台
官网
BoardMix
ai白板创作工具
官网
PixPro
一款专为网页端打造的强大图片处理工具
官网
GitHub
YesChat Ai
一个提供由Claude 2提供动力的聊天机器人服务的网站
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网 All Rights Reserved. 提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。