🌍 Global Opportunities
Updated Hourly
🎓 Student Friendly

parttimejobs.work

Flexible Work, Better Balance

⏰ Full-time

CPG-AI集群工程师 (J251013006)

DiDi
Location 📍 Beijing, China
Posted 📅 June 13, 2026
Work Type ⏰ Full-time

Position Overview

职位描述

我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。

Kubernetes调度与计算平台

资源调度与集群管理

- 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率

- 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化

- 深度排查Kubernetes集群复杂问题

计算平台与节点优化

- 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能

- 推进国产AI芯片的生态适配

- 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性

扩展方向:性能优化(附加项)

- 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率

- 深入文件系统、缓存、镜像、cri细节,优化容器启动速度

任职要求

必备技能

- 3年以上Kubernetes生产环境经验,精通调度机制和节点管

- 熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度)

- 熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验

- 具备大规模集群(百节点以上)运维和故障排查能力

- 熟悉Linux系统原理,具备内核参数调优和性能优化经验

优先考虑

- 有混合云/多云环境GPU资源管理经验

- 熟悉RDMA/RoCE等高速网络技术

- 具备AI训练集群性能调优经验

- 有国产AI芯片适配经验

- Kubernetes社区贡献者或相关开源项目经验

Apply Now

Submit Application →

Quick and easy application process

Job Details

Employment Type
Full-time
📊
Category
Other-General
🏠
Work Arrangement
On-site
📍
Location
Beijing, China