概述
本指南为开发者提供 RM-01 便携式超级计算机的完整技术文档,涵盖系统架构、网络配置、模型部署等核心内容:使用前必读RM-01 由一个推理模组、一个应用模组和一颗加密与管理芯片(以下简称管理模组)构成,三者通过板载以太网交换芯片互联,形成内部局域网子网。当用户通过 USB Type-C 接口连接主机(如 PC、手机、iPad)时,RM-01 会通过 USB Ethernet 功能为主机虚拟出一个以太网接口,主机随即获得 IP 地址并自动加入该子网实现数据交互。
设备上电启动并经 USB Type-C 接口连接主机后,系统将自动配置本地网络子网,用户主机将被分配静态 IP 地址
10.10.99.100
。推理模组(IP: 10.10.99.98
)和应用模组(IP: 10.10.99.99
)——均部署独立的 SSH 服务,支持用户通过标准 SSH 客户端(如 OpenSSH、PuTTY)直接访问,而管理模组则需通过串口工具访问。网络配置
如何通过主机为 RM-01 提供互联网访问(以 macOS 为例)
在通过 USB Type-C 连接用户主机后,RM-01 将在网络接口列表中显示为:AX88179A
(开发者版本)RMinte RM-01
(商业发行版本)
1
打开系统设置
打开 系统设置(System Settings)
2
进入网络共享
进入 网络(Network) → 共享(Sharing)
3
启用互联网共享
启用 互联网共享(Internet Sharing)
4
配置共享设置
点击共享设置旁的 “i”图标,进入配置界面:
- 将 “共享以下来源的连接”(Share your connection from)设置为:Wi-Fi
- 在 “使用以下端口共享给设备”(To computers using)中,勾选:AX88179A 或 RMinte RM-01(根据设备型号选择)
5
完成配置
点击 完成(Done)
6
手动配置网络接口
返回 网络(Network)设置页面,手动配置 RM-01 的网络接口:
- IP 地址:
10.10.99.100
- 子网掩码:
255.255.255.0
- 路由器(Router):
10.10.99.100
(即主机自身 IP)
此配置将主机作为网关,为 RM-01 提供 NAT 网络访问。RM-01 的默认网关和 DNS 均由主机通过 DHCP 服务自动分配,手动设置 IP 可确保其始终位于
10.10.99.0/24
子网内,与设备内部服务通信一致。系统架构
关于 CFexpress Type-B 存储卡
CFexpress Type-B 存储卡是 RM-01 设备的核心组件之一,承担系统引导、模型推理框架部署及 ISV/SV 软件分发与授权认证的关键功能。 该存储卡划分为三个独立分区:rm01sys
系统分区推理模组的操作系统与核心运行环境安装于该分区。
严禁用户或开发者访问、修改或删除该分区内容。任何未经授权的更改均可能导致推理模组无法启动或推理功能失效。
rm01app
应用分区用于暂存用户或开发者提交的 Docker 镜像文件。镜像写入后,系统将自动迁移至内置 NVMe SSD 并完成容器化部署。
请勿直接在该分区中运行或修改应用文件。
rm01models
模型分区专用于存储大规模人工智能模型(如 LLM、多模态模型等)。
关于模型格式、大小限制、加载流程及兼容性要求,请参阅下文”关于模型”章节。
关于应用模组
网络配置
- IP地址:
10.10.99.99
- 端口范围:
59000-59299
应用模组硬件规格
应用模组 SSH 访问凭证
安全须知为保障系统安全,首次通过 SSH 登录后,请立即使用
passwd
命令修改默认密码;默认密码仅用于初始配置,严禁在生产及交付环境中使用。关于推理模组
网络配置
- IP 地址:
10.10.99.98
- 服务端口范围:
58000–58999
硬件配置选项
显存 | 显存带宽 | 算力 | Tensor Core 数量 |
---|---|---|---|
32 GB | 204.8 GB/s | 200 TOPS (INT8) | 56 |
64 GB | 204.8 GB/s | 275 TOPS (INT8) | 64 |
64 GB | 273 GB/s | 1,200 TFLOPS (FP4) | 64 |
128 GB | 273 GB/s | 2,070 TFLOPS (FP4) | 96 |
预装推理框架
RM-01 出厂时,CFexpress Type-B 存储卡中预装以下两个推理框架,均运行于推理模组:- vLLM
- TEI (Text Embedding Inference)
- 状态: 自动启动
- 默认端口: 58000
- 功能: 提供 OpenAI 兼容 API 接口
- 支持请求: 标准 POST
/v1/chat/completions
等
API 访问方式
成功加载模型后,可通过以下地址访问 vLLM 推理服务:支持标准 OpenAI 客户端(如 openai-python、curl、Postman)直接调用。
安全须知为保障系统安全与稳定性,推理模组不开放 SSH 访问权限,用户与开发者无法通过任何方式直接登录或交互式操作该模块的底层操作系统。任何试图绕过安全策略、直接访问推理模组的操作,均可能导致系统异常、数据损坏或服务中断,且不在保修服务范围内。
模型部署
关于模型
RM-01 支持推理多种人工智能模型,包括但不限于:LLM
大语言模型
MLM
多模态模型
VLM
视觉语言模型
Embedding
文本嵌入模型
Reranker
重排序模型
所有模型文件均需存储于设备内置的 CFexpress Type-B 存储卡中,用户需使用兼容的 CFexpress Type-B 读卡器在主机端进行模型的上传、管理与更新。
models
的只读数据卷,路径为 /home/rm01/models
。其标准文件结构如下:
auto/
目录用于轻量级、标准化模型部署,由系统自动识别dev/
目录用于开发者精细控制模型行为,优先级高于auto/
,系统将忽略auto/
中的模型
部署模式选择
- 自动模式(auto)
- 手动模式(dev)
适用于快速验证和标准化部署的简化模式。
使用方式
使用方式
将模型的完整权重文件(如
.safetensors
、.bin
、.pt
、.awq
等)直接放置于 auto/llm/
目录下,禁止使用子文件夹嵌套。系统行为
系统行为
- 设备开机后,系统将扫描
auto/llm/
目录,自动加载符合兼容格式的模型 - 不支持嵌入模型(embedding)与重排序模型(reranker)的自动加载,仅支持 LLM
- 模型加载后,默认启用基础推理能力,不开启以下高级功能:
- Speculative Decoding(推测解码)
- Prefix Caching(前缀缓存)
- Chunked Prefill(分块预填充)
- 最大上下文长度(
max_model_len
)将被限制为系统安全阈值(通常 ≤ 8192 tokens)
- 性能优化受限:为保障系统稳定性与多任务并发能力,自动模式下的模型将使用保守的显存分配策略(
gpu_memory_utilization
≤ 0.8)
重要提示自动模式适用于快速验证模型兼容性或标准化部署场景,不适用于生产级高性能推理。如需完整性能,请使用手动模式(dev)。
安全与维护须知
- 禁止直接 SSH 登录推理模组:所有模型管理必须通过
CFexpress Type-B
存储卡完成 - 模型文件必须为原始权重:禁止使用压缩包(.zip/.tar.gz)、加密包或非标准格式
- 文件权限:所有模型文件需为可读(
chmod 644
),目录需可执行(chmod 755
)
- 版本控制:建议使用 Git 或文件命名规范(如
Qwen3-30B-A3B-Instruct-v1.2-20250930
)管理模型版本 - 备份建议:每次更新模型前,请备份
dev/
和auto/
目录,避免配置丢失
模式选择建议
场景 | 推荐模式 | 说明 |
---|---|---|
快速验证模型是否兼容 | 自动模式(auto) | 无需配置,即插即用 |
生产环境高性能推理 | 手动模式(dev) + 精细配置 | 完整性能优化 |
多模型并行部署 | 手动模式(dev) + 多个 .yaml 文件 | 灵活的服务编排 |
开发调试、原型验证 | 手动模式(dev) | 完全控制权 |
技术支持
© 2025 泛灵(成都)人工智能科技有限公司 保留所有权利