Job Seekers

自动驾驶决策规划算法工程师(端到端RL)

Back
Information Technology
Job Ref. SPGSZ2026021302802
Location Shenzhen
Date posted 2026-02-13

公司描述:

某车联网解决方案领先企业

工作地点:

北京、上海

 

工作职责

  • 致力于研发下一代端到端自动驾驶系统中的强化学习训练范克式
  • 构建高效、稳定、可扩展的大规模强化学习闭环训练框架。
  • 重点提升强化学习在数据利用效率、训练速度、算法稳定性及多场景泛化能力等方面的表现,探索并验证规模化规律(scaling law)
  • 推动强化学习技术在真实物理世界中的落地与应用。

任职要求

  • 硕士或博士学历,机器学习、计算机科学、数学、统计学等用关专业背景
  • 具备扎实的强化学习理论基础,熟悉PPO、SAC、DPO、GRPO等主流算法及其变种,具备相关项目实践经验, 熟悉如OpenAI Gym、Spinning Up、CleanRL、Open-R1、R1-V.IsaacSim等开发平台;
  • 深入理解数据结构、算法设计、并行编程及大规模数据处理技术,熟练掌握C/C++或Python编程语言,具备 ACM竞赛经验者优先;
  • 在计算机视觉、机器学习、机器人等相关领域发表过顶级会议(如 CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR/ICRA/CORL)或期刊(如TPAMI/IJCV/TIP/TRO)论文者优先,具备高水平学术竞赛获奖经历或实际工程项目经验者优先。​

 

Job Apply

Name*
Email*
Tel

File name:

File size:

(TXT, PDF, DOC, DOCX and RTF file only)

Looking To Hire? Send Us Your Vacancy Contact Us for Hiring