基准测试¶

本节展示 torch-sla 在各种问题规模上的性能基准测试结果。

测试环境¶

性能 (时间单位: ms)¶
DOF	SciPy SuperLU	cuDSS Cholesky	PyTorch CG+Jacobi	最优
1万	24	128	20	PyTorch
10万	29	630	43	SciPy
100万	19,400	7,300	190	PyTorch 100x
200万	52,900	15,600	418	PyTorch 100x
1600万	OOM	OOM	7,300	PyTorch only
8100万	OOM	OOM	75,900	PyTorch only
1.69亿	OOM	OOM	224,000	PyTorch only

精度对比¶
方法类型	相对残差	备注
直接法 (scipy, cudss)	~1e-14	机器精度
迭代法 (pytorch+cg)	~1e-6	用户可配置容差

3-4x NVIDIA H200 GPU，NCCL 后端:

CUDA (3-4 GPU, NCCL) - 可扩展至 4亿 DOF¶
DOF	时间	每GPU内存	GPU数
1万	0.1s	0.03 GB	4
10万	0.3s	0.05 GB	4
100万	0.9s	0.27 GB	4
1000万	3.4s	2.35 GB	4
5000万	15.2s	11.6 GB	4
1亿	36.1s	23.3 GB	4
2亿	119.8s	53.7 GB	3
3亿	217.4s	80.5 GB	3
4亿	330.9s	110.3 GB	3

关键发现:

# 使用 4 GPU 运行分布式求解
torchrun --standalone --nproc_per_node=4 examples/distributed/distributed_solve.py