EngineeringFull-time

Machine Learning Platform Engineer

MLPE

제2판교 IT센터
상시 채용

직군 소개

"Physical AI 연구를 가속화하는 대규모 학습 인프라와 MLOps 파이프라인을 구축하는" 직군입니다.

WoRV(World model for Robotics and Vehicle control)팀의 ML Platform Engineer는 연구진이 알고리즘 개발에만 집중할 수 있도록 ML 파이프라인과 인프라 전반을 담당합니다.

WoRV팀 최초의 전담 ML Platform Engineer로서, 현재 운영 중인 CORE 클러스터를 기반으로 연구 환경부터 Production 배포까지 전체 ML 생태계를 함께 만들어나갈 초기 핵심 멤버를 찾고 있습니다.

ML Platform 발전 방향

1. 연구효율적 ML Pipeline 구축

  • 연구진의 빠른 실험과 반복을 지원하는 효율적인 학습 파이프라인 설계
  • 대용량 멀티모달 데이터(Vision, Language, Action) 처리 및 관리 시스템 구축
  • 실험 추적, 모델 버전 관리, 재현성 보장을 위한 MLOps 체계 확립

2. Sim2Real Integration Pipeline

  • 시뮬레이션 환경에서 학습된 모델을 실제 현장 로봇에 배포하는 파이프라인 구축
  • 농업, 국방, 물류 현장의 다양한 환경에 대응하는 Cloud or Edge Computing 인프라 설계
  • 현장 테스트 결과를 연구 개선에 활용하는 피드백 루프 시스템 구축

3. Scalable Infrastructure Operations

  • CORE 클러스터(DGX H100×12)의 효율적 운영 및 확장성 확보
  • 연구팀 성장에 따른 자원 관리 및 스케줄링 시스템 고도화
  • 모니터링, 알림, 장애 대응 등 안정적인 운영 체계 구축

전폭적인 인프라 지원

  • 초고성능 GPU 클러스터: CORE(Compute-Oriented Research Environment) 보유
    • On-premise DGX H100 12노드(H100×96), A100 30대 이상, V100 10대 이상
  • SLURM 기반 워크로드 관리 시스템 + CephFS 분산 스토리지 인프라 구축 완료
  • 200시간을 넘는 실환경 주행 데이터 + 지속적인 현장 데이터 수집 파이프라인 보유
  • Enroot + Pyxis 컨테이너 솔루션, Ansible 기반 인프라 관리 체계

핵심 업무

ML Training & Inference Pipeline 설계

  • 연구진의 요구사항을 분석하여 효율적인 학습 파이프라인 구축
  • GPU 클러스터 자원 최적화 및 분산 학습 환경 구축
  • 모델 서빙 및 실시간 추론 시스템 개발

MLOps 체계 구축 및 운영

  • 실험 관리, 모델 버전 관리, CI/CD 파이프라인 구축
  • 데이터 파이프라인 자동화 및 품질 관리 시스템 구축
  • 성능 모니터링 및 알림 시스템 구축

Research-Production 연결 인프라

  • 연구 결과를 실환경 로봇 시스템에 배포하는 파이프라인 구축
  • Edge 환경에서의 모델 최적화 및 배포 시스템 개발
  • 현장 테스트 결과 수집 및 분석 도구 개발

필수 역량

  • 주도적 문제 해결 능력: 명확하게 정의되지 않은 업무 영역에서 스스로 우선순위를 설정하고 해결책을 제안할 수 있는 분
  • MLOps/DevOps 기본 역량: Python 기반 자동화, Docker/Kubernetes, Linux 시스템 관리 경험
  • ML 워크로드 이해: GPU 기반 딥러닝 학습 및 추론 파이프라인에 대한 기본 이해
  • 시스템 사고: 전체 ML 생태계를 고려한 아키텍처 설계 및 최적화 능력
  • 협업 및 커뮤니케이션: 연구진과의 긴밀한 협업을 통해 요구사항을 파악하고 해결책을 제시할 수 있는 능력

우대사항

  • HPC/GPU 클러스터 운영 경험: SLURM, PBS 등 워크로드 매니저 운영 경험
  • ML Platform 구축 경험: MLflow, Wandb, Kubeflow 등 ML 도구 운영 경험
  • 분산 학습 경험: PyTorch DDP, DeepSpeed 등 대규모 모델 학습 경험
  • 클라우드 인프라 경험: AWS, GCP 등 클라우드 환경에서의 ML 워크로드 운영 경험
  • 모니터링 시스템 구축: Prometheus, Grafana 등을 활용한 시스템 모니터링 경험
  • Infrastructure as Code: Terraform, Ansible 등을 활용한 인프라 자동화 경험
  • 컨테이너 오케스트레이션: Kubernetes 클러스터 운영 및 관리 경험
  • Robotics/Edge ML Computing: 실시간 시스템 및 Edge 환경에서의 ML 배포 경험
  • Model Optimization: TensorRT, 양자화 등 모델 최적화 및 경량화 경험

채용 프로세스

1
서류 전형
2
기술 면접
3
시스템 설계
4
컬처핏
5
최종 합격

* 서류전형 합격 여부는 3일 이내로 개별 연락 드립니다

Physical AI 인프라의 초석을 함께 만들어갈 엔지니어를 찾습니다