概述
本指南为开发者提供 RM-01 便携式超级计算机的完整技术文档,涵盖系统架构、网络配置、模型部署等核心内容:设备上电启动并经 USB Type-C 接口连接主机后,系统将自动配置本地网络子网,用户主机将被分配静态 IP 地址
10.10.99.100,带外管理芯片静态 IP 地址 10.10.99.97。推理模组(IP: 10.10.99.98)和应用模组(IP: 10.10.99.99)——均部署独立的 SSH 服务,支持用户通过标准 SSH 客户端(如 OpenSSH、PuTTY)直接访问,而管理模组则需通过串口工具访问。网络配置
如何通过主机为 RM-01 提供互联网访问(以 macOS 为例)
在通过 USB Type-C 连接用户主机后,RM-01 将在网络接口列表中显示为:AX88179A(开发者版本)RMinte RM-01(商业发行版本)
1
打开系统设置
打开 系统设置(System Settings)
2
进入网络共享
进入 网络(Network) → 共享(Sharing)
3
启用互联网共享
启用 互联网共享(Internet Sharing)
4
配置共享设置
点击共享设置旁的 “i”图标,进入配置界面:
- 将 “共享以下来源的连接”(Share your connection from)设置为:Wi-Fi
- 在 “使用以下端口共享给设备”(To computers using)中,勾选:AX88179A 或 RMinte RM-01(根据设备型号选择)
5
完成配置
点击 完成(Done)
6
手动配置网络接口
返回 网络(Network)设置页面,手动配置 RM-01 的网络接口:
- IP 地址:
10.10.99.100 - 子网掩码:
255.255.255.0 - 路由器(Router):
10.10.99.100(即主机自身 IP)
此配置将主机作为网关,为 RM-01 提供 NAT 网络访问。RM-01 的默认网关和 DNS 均由主机通过 DHCP 服务自动分配,手动设置 IP 可确保其始终位于
10.10.99.0/24 子网内,与设备内部服务通信一致。关于带外管理芯片
带外管理芯片除了肩负一定的加密工作,还安装了 RM-01 的实时系统性能监控面板 —— RobOS。用户可以通过浏览器访问
http://10.10.99.97,实时监看各模组的连接情况和运行情况。系统架构
关于 CFexpress Type-B 存储卡
CFexpress Type-B 存储卡是 RM-01 设备的核心组件之一,承担系统引导、模型推理框架部署及 ISV/SV 软件分发与授权认证的关键功能。 该存储卡划分为三个独立分区:rm01rootfs
系统分区推理模组的操作系统与核心运行环境安装于该分区。
rm01app
应用分区该分区用于暂存用户或开发者提交的
Docker 镜像文件。当镜像被写入 rm01app 后,RM-01 系统将自动将其迁移至主机内置的 NVMe SSD 存储中,并完成容器化部署。rm01models
模型分区该分区专用于存储用户或开发者加载的大规模人工智能模型(如 LLM、多模态模型等)。
关于模型格式、大小限制、加载流程及兼容性要求,请参阅下文”模型部署”章节。
关于应用模组
网络配置
- IP地址:
10.10.99.99 - 端口范围:
59000-59299
应用模组硬件规格
应用模组 SSH 访问凭证
预装服务
应用模组的80 端口下,预装了 Open WebUI 以方便用户进行简单的模型调试和对话工作。
用户可通过浏览器访问
http://10.10.99.99 使用 Open WebUI 进行模型测试和对话。关于推理模组
网络配置
- IP 地址:
10.10.99.98 - 服务端口范围:
58000–58999
硬件配置选项
| 显存 | 显存带宽 | 算力 | Tensor Core 数量 |
|---|---|---|---|
| 32 GB | 204.8 GB/s | 200 TOPS (INT8) | 56 |
| 64 GB | 204.8 GB/s | 275 TOPS (INT8) | 64 |
| 64 GB | 273 GB/s | 1,200 TFLOPS (FP4) | 64 |
| 128 GB | 273 GB/s | 2,070 TFLOPS (FP4) | 96 |
预装推理框架
RM-01 出厂时,CFexpress Type-B 存储卡中预装以下两个推理框架,均运行于推理模组:- vLLM
- TEI (Text Embedding Inference)
- 状态: 自动启动
- 默认端口: 58000
- 功能: 提供 OpenAI 兼容 API 接口
- 支持请求: 标准 POST
/v1/chat/completions等
API 访问方式
成功加载模型后,可通过以下地址访问 vLLM 推理服务:模型部署
关于模型
RM-01 支持推理多种人工智能模型,包括但不限于:LLM
大语言模型
MLM
多模态模型
VLM
视觉语言模型
Embedding
文本嵌入模型
Reranker
重排序模型
所有模型文件均需存储于设备内置的 CFexpress Type-B 存储卡中,用户需使用兼容的 CFexpress Type-B 读卡器在主机端进行模型的上传、管理与更新。
models 的只读数据卷,路径为 /home/rm01/models。其标准文件结构如下:
auto/目录用于轻量级、标准化模型部署,由系统自动识别dev/目录用于开发者精细控制模型行为,优先级高于auto/,系统将忽略auto/中的模型
部署模式选择
- 自动模式(auto)
- 手动模式(dev)
适用于快速验证和标准化部署的简化模式。
使用方式
使用方式
将模型的完整权重文件(如
.safetensors、.bin、.pt、.awq 等)直接放置于 auto/llm/ 目录下,禁止使用子文件夹嵌套。系统行为
系统行为
- 设备开机后,系统将扫描
auto/llm/目录,自动加载符合兼容格式的模型 - 不支持嵌入模型(embedding)与重排序模型(reranker)的自动加载,仅支持 LLM
- 模型加载后,默认启用基础推理能力,不开启以下高级功能:
- Speculative Decoding(推测解码)
- Prefix Caching(前缀缓存)
- Chunked Prefill(分块预填充)
- 最大上下文长度(
max_model_len)将被限制为系统安全阈值(通常 ≤ 8192 tokens)
- 性能优化受限:为保障系统稳定性与多任务并发能力,自动模式下的模型将使用保守的显存分配策略(
gpu_memory_utilization≤ 0.8)
安全与维护须知
模式选择建议
| 场景 | 推荐模式 | 说明 |
|---|---|---|
| 快速验证模型是否兼容 | 自动模式(auto) | 无需配置,即插即用 |
| 生产环境高性能推理 | 手动模式(dev) + 精细配置 | 完整性能优化 |
| 多模型并行部署 | 手动模式(dev) + 多个 .yaml 文件 | 灵活的服务编排 |
| 开发调试、原型验证 | 手动模式(dev) | 完全控制权 |
技术支持
© 2025 泛灵(成都)人工智能科技有限公司 版权所有