⏰ Full-time

CPG-AI集群工程师 (J251013006)

🏢

DiDi

                    Location
                    📍 Beijing, China
                

                    Posted
                    📅 June 13, 2026
                

                    Work Type
                    ⏰ Full-time
                

Position Overview

                    职位描述我们正在寻找资深AI集群工程师，负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者，您将参与从硬件选型到调度优化的全链路工作，支撑公司核心AI业务的万卡级算力需求。
Kubernetes调度与计算平台
资源调度与集群管理
- 设计和实现GPU算力调度系统，优化资源利用率和作业调度效率
- 负责Kubernetes节点组件（kubelet、container runtime）的稳定性、性能优化
- 深度排查Kubernetes集群复杂问题
计算平台与节点优化
- 参与服务器硬件选型、测试和验收，重点优化GPU服务器性能
- 推进国产AI芯片的生态适配
- 建立集群故障感知召回体系，提高AI计算资源利用率，维护线上集群稳定性
扩展方向：性能优化（附加项）
- 参与AI集群网络优化（NCCL/RoCEv2），提升分布式训练通信效率
- 深入文件系统、缓存、镜像、cri细节，优化容器启动速度
任职要求
必备技能
- 3年以上Kubernetes生产环境经验，精通调度机制和节点管
- 熟悉GPU资源管理（NVIDIA GPU Operator、GPU共享、拓扑感知调度）
- 熟练掌握Go/Python语言，有Kubernetes源码阅读或二次开发经验
- 具备大规模集群（百节点以上）运维和故障排查能力
- 熟悉Linux系统原理，具备内核参数调优和性能优化经验
优先考虑
- 有混合云/多云环境GPU资源管理经验
- 熟悉RDMA/RoCE等高速网络技术
- 具备AI训练集群性能调优经验
- 有国产AI芯片适配经验
- Kubernetes社区贡献者或相关开源项目经验

Apply Now

Submit Application →

Quick and easy application process

Job Details

⏰

Employment Type

Full-time

📊