Flexible Work, Better Balance
1 参与分布式通信库的设计、开发与优化,支撑大规模GPU/AI训练任务。
2 负责Collective/P2P通信算法的实现与性能调优(AllReduce、AllGather、ReduceScatter、Send/Recv、RMA等) 。
3 与调度、训练框架协作,监控和解决通信栈、通信链路故障、瓶颈。参与通信栈相关问题的性能分析、调试、稳定性与可靠性保障。
4 跟进前沿技术(如 One-sided RMA、Adaptive Routing、SHARP、GPU-Initiated Networking等)
任职要求
1 扎实的C/C++编程能力,熟悉底层系统开发 ;
2 熟悉 Linux 系统原理(内存管理、进程/线程、NUMA、网络栈) ;
3 对分布式系统/高性能计算(HPC/AI Infra有深入理解);
4 熟悉一种 GPU 计算生态:
5 CUDA/GPU 编程模型
6 GPU内存模型、Stream、Event、Kernel调度 1