Flexible Work, Better Balance
我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。
Kubernetes调度与计算平台
资源调度与集群管理
- 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率
- 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化
- 深度排查Kubernetes集群复杂问题
计算平台与节点优化
- 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能
- 推进国产AI芯片的生态适配
- 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性
扩展方向:性能优化(附加项)
- 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率
- 深入文件系统、缓存、镜像、cri细节,优化容器启动速度
任职要求
必备技能
- 3年以上Kubernetes生产环境经验,精通调度机制和节点管
- 熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度)
- 熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验
- 具备大规模集群(百节点以上)运维和故障排查能力
- 熟悉Linux系统原理,具备内核参数调优和性能优化经验
优先考虑
- 有混合云/多云环境GPU资源管理经验
- 熟悉RDMA/RoCE等高速网络技术
- 具备AI训练集群性能调优经验
- 有国产AI芯片适配经验
- Kubernetes社区贡献者或相关开源项目经验