|
시장보고서
상품코드
2064027
자율주행 시뮬레이션 및 세계 모델 조사 보고서(2026년)Autonomous Driving Simulation and World Model Research Report, 2026 |
||||||
자율주행 시뮬레이션 조사 - "시뮬레이션 시험 + 세계 모델" 중심의 시험 시스템이 조사 개발의 기반이 되고 있습니다.
"자율주행 시뮬레이션 및 세계 모델에 관한 조사 보고서(2026년)"은 주로 시뮬레이션 및 세계 모델 분야의 핵심 기술, 업계 동향, 주류 솔루션에 초점을 맞추고, 시뮬레이션 테스트의 완전한 시스템(MIL에서 VIL에 이르는 X-in-the-loop 테스트, 시나리오 라이브러리 구축 등)을 비롯해, OEM 및 Tier 1 공급업체의 세계 모델 솔루션 진화 현황까지 포괄적으로 다루고 있습니다. 본 보고서에서는 중국 내 14개사와 해외 13개사의 주요 시뮬레이션 플랫폼 및 세계 모델 솔루션 제공업체를 분석하고, 시뮬레이션 테스트와 세계 모델 간의 시너지 관계를 정리하는 한편, 조사를 통해 데이터 비용 절감, 시나리오 일반화, 의사결정 추론에 있어 세계 모델의 핵심적 가치를 입증하고 있습니다.
국가표준 'GB/T 47025-2026 지능형 연결 차량 - 자율주행 기능의 시뮬레이션 시험 방법 및 요구사항'이 2026년 1월 28일에 공포되어 정식으로 시행되었습니다. 본 표준은 자율주행 기능 또는 자율주행 시스템을 갖춘 카테고리 M 및 N 차량에 적용되며, 자율주행 기능에 관한 시뮬레이션 시험 방법, 시험 요건 및 종합 평가 기준을 규정하고 있습니다. 본 규격에서는 7개 범주에 걸쳐 총 48개 항목의 특별 시험 항목을 정의하고 있습니다. GB/T 47025-2026 및 이미 공표된 GB/T 41798-2022("지능형 연결 차량-자율주행 기능의 트랙 시험 방법 및 요구 사항') 및 GB/T 44719-2024("지능형 연결 차량 - 자율주행 기능의 공공 도로 시험 방법 및 요건')은 '시뮬레이션·현장·공공 도로'의 삼위일체로 구성된 완벽한 검증 시스템을 형성하고 있습니다.
L3/L4 자율주행차의 양산을 가속화하기 위해 성숙한 자율주행 알고리즘을 검증할 때는 일반적으로 '99.9%의 시뮬레이션 시험 + 0.09%의 폐쇄장 시험 + 0.01%의 일반 도로 시험'이라는 황금비가 채택되고 있습니다. 권장 국가 표준 GB/T 47025-2026에 따르면, 센서 모델과 실제 차량 간의 오차는 <=5%; 동역학 모델과 실제 차량 간의 일관성은>=95%여야 하며, 교통 참여자의 행동이 높은 충실도를 가져야 한다는 점 등이 요구되고 있습니다. 이는 자율주행 업계가 규정 준수 대응과 안전 우선이라는 새로운 발전 단계에 접어들었음을 의미합니다. 시뮬레이션 시험은 더 이상 연구 개발을 위한 보조적인 수단이 아니라, 제품의 시장 진출, 인증 및 안전성 입증에 있어 법적으로 의무화된 절차가 되었습니다.
한편, 생성형 AI 모델인 세계 모델은 내부 표현을 구축함으로써 실세계의 동적 법칙(물리적 특성과 공간적 속성을 포함)을 이해할 수 있습니다. 또한 텍스트, 이미지, 동영상, 동작 데이터 등의 입력 정보를 바탕으로 동영상 콘텐츠를 생성합니다. 이는 자율주행 및 로봇공학 등의 분야에서 급속히 큰 응용 가능성을 보여주고 있으며, 지능형 시스템을 고도의 지각·의사결정 능력으로 도약시키는 핵심적인 기술적 기반이 되고 있습니다.
시뮬레이션 시스템의 위상은 기존의 테스트 실행 도구에서 알고리즘 훈련을 뒷받침하는 핵심 데이터 인프라로 격상되었습니다. 또한 시뮬레이션 환경도 시각적 유사성에서 행동의 사실성으로 진화하고 있으며, 물리 센서 시뮬레이션(광자, 전기 신호, 멀티 에코 등), 정확한 재료 특성(반사율, 거칠기 등), 물리 법칙에 따른 차량 동역학 및 교통 흐름을 중시함으로써, 'Sim-to-Real(시뮬레이션에서 현실로)'의 격차를 해소하는 것을 목표로 하고 있습니다.
고정밀도 측면에서 볼 때, 시뮬레이션 플랫폼 업체들은 시뮬레이션 검증 기능을 지속적으로 강화하고 있으며, 신뢰성이 높은 시뮬레이션을 더욱 정교하게 만들고 있습니다. 예를 들어, Keymotek사의 aiSim6는 ASAM OpenMATERIAL 3D 규격을 준수하며, 정확한 재료의 물리적 특성을 정의함으로써 카메라(비선형 응답, CMOS 노이즈)나 LiDAR(가우스 광선, 멀티 에코, 기상 조건에 의한 감쇠) 등의 물리적 센서 시뮬레이션을 제공할 수 있습니다. 또한, 자체 개발한 PBR 스플래팅 기술을 바탕으로 3DGS 모델의 시나리오 조명을 동적으로 조정할 수 있습니다. 이를 통해 동일한 도로 구간에서 주간, 해질녘, 야간과 같은 조명 조건을 동적으로 전환하여 '동적으로 구성 가능한 훈련 환경'으로 탈바꿈시키고, '물리적 동적 신경망 렌더링'을 실현하고 있습니다.
특히, aiSim 6는 유체의 움직임을 기술하는 나비에-스토크스 방정식을 환경 입자 물리 시뮬레이션에 적용하여, 합성 데이터 링크에 물리적 환경 교란을 도입하고 있습니다. 이를 통해 차량의 기류에 의한 나뭇잎의 움직임, 우천 시 노면에서 튕겨 오르는 물보라, 맨홀 뚜껑에서 뿜어져 나오는 증기와 교통 참여자 간의 동적 상호작용 등을 사실적으로 시뮬레이션할 수 있게 되어, 엣지 시나리오에서 나타나는 물리적 사실성의 한계를 해소하고 있습니다.
물리적 일관성이라는 측면에서, PilotD Technology의 고충실도 물리 시뮬레이션을 예로 들어보겠습니다. 이 회사는 자체 진화형 듀얼 터빈 구동 데이터 훈련 플랫폼을 독자적으로 개발했습니다. 이는 고충실도 세계 모델을 활용하여 로봇 브레인의 폐쇄 루프 훈련을 위한 비전 및 포인트 클라우드와 같은 멀티모달 데이터를 생성합니다. 한편, 이 회사의 데이터 신뢰성 검증 기술인 'Physical Judge' 시스템은 생성된 데이터의 물리적 타당성을 확인하며, 데이터 선별과 세계 모델의 폐쇄 루프 재훈련을 동시에 수행합니다. 이러한 자가 진화형 데이터 듀얼 터빈을 기반으로, EAI의 'Cerebrum'은 물리적 타당성이 강화된 합성 데이터를 주입함으로써 완전 자동화된 반복 진화를 이루며, 복잡한 실제 시나리오에서 알고리즘의 적응성과 일반화 능력을 향상시킵니다.
이 회사가 독자적으로 개발한 완전 물리적 광학 코어 모델링 기술은 데이터의 광학적 물리적 특성을 고도로 재현하며, 이를 활용하여 동적 특성과 광학적 특성 양면에서 높은 충실도를 지닌 멀티모달 세계 모델 데이터 생성 아키텍처를 훈련시켜, AI 기업에 고충실도 합성 데이터 솔루션을 제공합니다.
동적 상호작용 측면에서, 예를 들어, 첨단 자율주행을 위한 교통 흐름 합성 데이터 플랫폼인 SYNKROTRON의 OASIS Traffic 솔루션은 실제 도로변 데이터를 기반으로 합니다. AI를 활용하여 60가지의 정교한 상호작용 시나리오를 아우르는 적대적 교통 흐름을 생성하고, TTC/PET를 통해 위험도를 정량화하여 롱테일 특수한 사례의 30% 이상을 포괄하고 있습니다. 또한, 대규모 동적 교통 시나리오 데이터세트(대표적인 지역, 대표적인 교통 시나리오, 동적인 참여자, 자연스럽고 대립적인 행동)를 생성할 수 있습니다.
세계 모델은 중력, 충돌, 인과관계 등의 물리 법칙을 내재화함으로써, 장기적인 일관성이나 해석 가능성 등 기존 시뮬레이션 도구가 안고 있는 문제를 해결하고, 세계의 '상식'을 이해하는 것을 목표로 하고 있습니다. 예를 들어, GigaAI의 GigaWorld-1은 뛰어난 물리 법칙 준수 능력을 갖추고 있어 중력이나 충돌과 같은 복잡한 물리적 상호작용을 정확하게 시뮬레이션할 수 있습니다. Li Auto의 MindVLA-o1은 네이티브 3D ViT와 예측적 잠재 세계 모델을 활용하여 3차원 공간 구조 내에서 물체의 위치 관계와 운동 패턴을 이해합니다. 또한, 세계 모델을 활용하여 방대하고 정밀도가 높은 다양한 훈련 데이터를 생성함으로써, 실제 물리적 상호작용 데이터의 극심한 부족 문제를 해결하는 동시에 'Sim2Real'로의 전환을 촉진합니다.
융합 동향 : VLA + 세계 모델 + 강화 학습
자율주행 분야에서 세계 모델은 단순한 데이터 생성 도구에서 자율주행 시스템의 인식 및 추론의 핵심으로 진화했으며, VLA 및 강화 학습과 깊이 통합되어 있습니다. 알고리즘 훈련 과정에서 VLA는 지각과 의미 이해를 담당하고, 세계 모델은 미래의 추론과 예측을 담당하며, 강화 학습은 가상 세계에서의 자율적인 최적화 결정을 담당합니다. 이 세 가지가 서로 연계되어 작동합니다. 예를 들어,
QCraft의 'VLA+세계 모델' 통합 아키텍처는 수백만 대 규모의 양산을 통해 검증된 엔드투엔드 기능을 통합할 수 있을 뿐만 아니라, 언어 처리 기능을 통해 환경 텍스트, 복잡한 시나리오, 음성 명령을 정확하게 이해하고, 모델의 의사결정, 원격 제어, HMI라는 세 가지 요소를 조화롭게 통합할 수 있습니다. 또한, 월드 예측 모델의 도움을 받아 교통 참여자의 행동, 도로 구조의 변화, 동적인 시나리오의 전개를 정확하게 추론함으로써 최적의 주행 궤적을 계획할 수 있습니다.
VLA 2.0의 '클라우드 매트릭스'인 XPeng X-World는 주행 시나리오에 대해 '사고'할 수 있는 물리적 AI 시뮬레이터입니다. 세계 모델을 통해 방대한 시나리오를 생성하고, 훈련 및 평가를 수행함으로써, 연구 개발의 패러다임을 '실차 테스트의 반복'에서 '계산 능력을 활용한 훈련의 반복'으로 전환합니다. 이 모델은 최첨단 영상 생성 모델인 WAN 2.2를 기반으로 하며, 맞춤형 DiT 백본 네트워크를 채택하고 있습니다. 그 주요 혁신점은 시점·시간 자기주의 메커니즘의 도입에 있습니다. 이를 통해 생성 시 모델이 시간축과 7개의 주변 뷰 카메라 시점 간의 공간적·기하학적 관계를 동시에 모델링하도록 강제함으로써, 생성된 가상 세계가 시점 간에 긴밀하게 통합되도록 보장하는 동시에, 오브젝트가 '모델을 가로지르는' 현상이나 위치 오차가 발생하는 것을 방지합니다. 기반이 되는 계층에는 높은 압축률을 가진 3D 인과적 변분 오토인코더(VAE)를 채택하여, 이를 통해 다중 채널 동영상 스트림 처리의 계산 부하를 대폭 줄이고 장기적인 모델링을 지원합니다.
세계 모델의 주요 적용 사례:
자율주행 분야에서 월드모델은 '클라우드 학습 + 차량 내 추론'이라는 듀얼 엔진 아키텍처를 채택하고 있습니다. 클라우드는 대규모 훈련과 시나리오 생성을 담당하고, 차량은 실시간 의사결정과 신속한 대응을 수행합니다. 예를 들어, 2026년 4월 24일, 화웨이는 Qiankun ADS 5를 출시했습니다. 이 시스템은 WEWA 2.0을 채택하여 게임 이론에 기반한 훈련 및 학습 효율을 10배 높이고, 충돌 위험을 50% 줄입니다. 2026년에는 클라우드의 연산 능력이 현재의 60 EFLOPS로 비약적으로 향상되어, 2023년 수준 대비 21배 증가를 달성하며, 첨단 자율주행의 연구 개발을 뒷받침하고 있습니다.
화웨이의 WEWA 아키텍처에서, 클라우드 기반의 WE(World Engine)는 가상 시나리오 훈련과 모델 매개변수 업데이트를 처리합니다. 확산 생성 모델을 기반으로 하며, 생성·학습·검증을 동시에 수행하는 모드로 작동합니다. 인접 차량의 끼어들기, 갑자기 튀어나오기, 선행 차량의 급제동 등 다양한 드문 시나리오를 제어적으로 생성할 수 있어, 인간에 의한 AI 훈련에서 AI의 자율 학습으로의 전환을 실현합니다. 자동차용 WA(World Action Model)는 실시간 경로 계획 및 제어를 담당합니다.
세계 모델로서, Pony.ai의 PonyWorld 2.0은 자가 진단 및 방향성을 갖춘 진화 기능을 갖추고 있습니다. AI는 독자적으로 과제를 진단하고, 데이터 수집을 능동적으로 유도할 수 있어, 연구 개발 및 훈련 분야의 패러다임 전환을 이끄는 핵심이 됩니다. 구체적으로, PonyWorld 2.0은 Pony.ai의 자동차 모델 의도 의미론 계층과 결합함으로써, 모든 운전 판단에 대한 자동 추적 및 원인 분석 기능을 구현합니다. 본 시스템은 문제의 근본 원인을 자동으로 파악하여, 진단 결과를 모델 훈련 과정에 정확하게 반영할 수 있습니다.
자가 진단 결과를 바탕으로, PonyWorld 2.0은 세계 모델의 정확도가 부족한 구체적인 시나리오를 자동으로 파악하고, 방향성을 갖춘 데이터 수집 작업을 능동적으로 생성합니다. 예를 들어, 시스템은 "특정 기간 동안 지정된 교차로에서 역광 조건 하에 비동력 차량과 보행자가 혼재하는 교통 시나리오에 대한 데이터 수집에 중점을 두십시오"와 같은 지시를 자동으로 전송할 수 있습니다. 이를 통해 연구개발 팀과 테스트 팀은 세계 모델의 '정확도 요건'을 중심으로 효율적으로 협력하여, AI가 제시하는 방향에 따라 체계적인 데이터 수집과 모델 반복 개선을 실현합니다.
EAI 분야에서 세계 모델은 '데이터 엔진'에서 물리적 추론, 행동 계획, 임무 결정이 가능한 EAI 에이전트의 '대뇌' 또는 '시뮬레이터'로 진화했습니다.
예를 들어, 비효율적이고 시간이 많이 소요되는 영상 예측 링크에 의존하는 기존의 WA 아키텍처와 달리, GigaAI가 개발한 GigaWorld-Policy의 액션 중심 패러다임인 World-Action Model(WAM)은 크로스모달 결합의 병목 현상을 해소하고, 아키텍처 최적화를 통해 추론 효율을 획기적으로 향상시킵니다.
이는 '복잡한 훈련과 단순화된 추론'이라는 하이브리드 패러다임 모델의 선구자 역할을 하고 있습니다:
학습 단계에서 GigaWorld-Policy는 인과 마스크 메커니즘을 활용하여 액션 토큰과 미래 시각 토큰의 통합 모델링을 실현함으로써, 액션 예측이 미래 시각 동역학이 제공하는 고밀도 지도 신호를 최대한 활용할 수 있도록 합니다.
추론 단계에서는 본 모델이 동영상 예측 분기를 완전히 배제하고, 경량화된 동작 생성 모듈만 남깁니다. 이를 통해 긴 시각 토큰 시퀀스에 대한 추론 처리를 피하고, 기존 WA 모델에서 크로스모달 아키텍처의 결합으로 인해 발생하는 구조적인 계산상의 중복을 근본적으로 해소합니다.
현재 주류를 이루는 WA 모델(Motus, Cosmos Policy 등)과 비교했을 때, GigaWorld-Policy는 정책의 품질을 유지하면서도 추론 속도를 10배 향상시켜, 로봇의 고주파수 폐루프 제어에 필요한 실시간 요구 사항을 진정으로 충족시키고 있습니다. GigaWorld-Policy의 실제 과제에서 평균 성공률은 85%에 육박합니다. Cosmos-Policy와 같은 강력한 경쟁 모델과 비교해도, 그 절대 성공률은 30% 이상 향상되었습니다.
2026년 4월 29일, GensPi Technology는 범용 월드 액션 모델 'MotuBrain'을 정식 출시했습니다. EAI 로봇을 위한 범용 대뇌로 자리매김하고 있으며, 다중 로봇 적응성, 다중 작업 일반화 능력, 장기 작업 실행 능력을 갖추고 있어 단일 뇌로 다기능성과 다양한 유형에 대한 대응을 실현하고 있습니다. MotuBrain의 핵심적인 혁신은 '인식된 세계'와 '수행해야 할 동작'을 통합적으로 모델화한 데 있으며, 이를 통해 로봇이 환경을 이해할 뿐만 아니라 변화를 예측하고 실행 가능한 동작 전략을 생성할 수 있게 합니다. MotuBrain은 두 가지 권위 있는 국제 벤치마크인 RoboTwin 2.0과 WorldArena에서 모두 1위를 차지했습니다. WorldArena에서 MotuBrain은 종합 EWM 점수 63.77점으로 1위를 차지했으며, 모션 품질, 플로우 점수, 모션의 부드러움 등 여러 주요 동작 지표에서 최고 성적을 거두었습니다.
자율주행 데이터 폐쇄 루프 및 테스트 시스템에서 시뮬레이션 테스트와 세계 모델은 서로 보완하며, 기술적 단점을 상쇄하고 서로의 능력 한계를 보완하고 있습니다.
자율주행 및 EAI 분야에서 시뮬레이션 테스트와 세계 모델은 '분리'에서 '깊은 통합'으로 전환되고 있습니다. 업계에서는 통일된 기준의 확립이 시작되었으며, '재구성 + 생성 + 시뮬레이션 + 훈련'을 통합한 플랫폼 구축이 추진되고 있어, 자율주행에서 EAI에 이르는 시뮬레이션 기능을 구현하고, 보다 광범위한 물리 AI 생태계를 구축하고자 하고 있습니다.
현재 세계 모델(특히 생성형 세계 모델)은 시뮬레이션 플랫폼의 핵심 '동력원'으로 자리 잡고 있으며, AI를 활용한 시뮬레이션 시나리오의 자동 생성을 주도하여, 저비용이면서도 고품질의 방대하고 다양한 시나리오(특히 롱테일 및 희귀 시나리오)와 고충실도 센서 데이터를 생성하고 있습니다.
2026년 4월 24일, 51Sim의 SimOne 4.0은 물리 AI 시대를 대비해 전면적으로 재구축 및 업그레이드되었으며, '4DGS 재구축 + 생성형 세계 모델'이라는 기술 기반을 구축했습니다. 이를 통해 실제 차량 데이터를 바탕으로 상호작용이 가능하고 편집이 용이하며 확장성이 뛰어난 가상 시뮬레이션 자산을 자동으로 구축하여, 대규모 시나리오 생성을 실현합니다. SimOne 4.0은 데이터, 훈련, 추론, 검증, 배포라는 5가지 핵심 프로세스를 아우르며, AI가 안전하고 효율적으로 물리적 세계로 진출할 수 있도록 포괄적으로 지원합니다. 또한 SimOne 4.0은 신경망 렌더링 기술 솔루션인 NVIDIA Omniverse NuRec을 제품 수준에서 깊이 통합하여, 실제 데이터 수집과 신경망 시나리오 재구성을 거쳐 폐쇄 루프 시뮬레이션 실행에 이르기까지 완벽한 데이터 주도형 프로세스를 구축하고 있습니다. 51Sim의 엔드투엔드 데이터 기반 폐쇄 루프 솔루션에서, 동역학, LiDAR 및 카메라 시뮬레이션의 신뢰도는 각각 95%, 95%, 90%에 달하며, 시뮬레이션 테스트와 현장 테스트의 일치율은 92%에 이릅니다.
SimOne 4.0은 여러 GPU 아키텍처를 동시에 지원합니다. Moore Threads의 주력 AI 훈련 및 추론 통합 GPU인 MTT S5000과의 체계적인 연동과 철저한 최적화를 실현했습니다. 이 플랫폼은 대규모 4DGS 및 세계 모델 훈련 작업의 고병렬 실행을 가능하게 하며, 복잡한 동적 시나리오에 대해 단시간 내에 고품질의 재구성 및 모델 훈련을 제공함으로써 세계 모델과 VLA의 지속적인 발전을 촉진합니다. 지금까지 SimOne은 자율주행, 스마트 기기, 로봇 등 다양한 EAI 분야에서 100개 이상의 고객사를 지원해 왔습니다.
2026년 1월, AGIBOT은 자사의 대규모 언어 모델을 기반으로 한 오픈 소스 시뮬레이션 플랫폼 'Genie Sim 3.0'을 출시했습니다. NVIDIA Isaac Sim을 기반으로 하는 이 플랫폼은 고충실도 시뮬레이션 환경과 자연어 기반 시나리오 생성 기능을 제공합니다. 디지털 자산 생성, 시나리오 일반화, 데이터 수집부터 자동 평가에 이르는 전 과정을 아우르는 폐쇄형 루프 솔루션을 제공하여, 모델 훈련 및 검증 과정을 대폭 가속화하는 동시에 물리적 하드웨어에 대한 의존도를 낮춥니다.
Genie Sim 3.0의 주요 특징으로는 디지털 트윈 수준의 고성능 시뮬레이션 환경을 꼽을 수 있습니다. 이는 3차원 재구성, 시각화 기술, 물리 엔진을 획기적으로 심도 있게 통합하여 시각적 사실성과 물리적 정확성의 조화를 실현하고 있습니다. 둘째, 자연어 기반 시나리오 생성 및 일반화를 최초로 실현했습니다. Genie Sim 3.0에서는 개발자가 자연어 명령을 입력하면, 플랫폼이 몇 분 이내에 수천 개의 훈련 및 테스트 시나리오를 자동으로 생성하고 일반화하여 대규모 병렬 훈련을 수행할 수 있습니다. 또한, 이 시뮬레이션 플랫폼은 종합적인 오픈 소스 시뮬레이션 데이터셋(200개 이상의 작업을 아우르며, 총 실행 시간이 수만 시간에 달함)과 효율적인 수집 솔루션도 제공합니다. 또한, 10만 건 이상의 시뮬레이션 시나리오를 바탕으로 한 3차원 평가 시스템을 구축하고 있습니다. 특히 주목할 점은, AGIBOT의 세계 모델인 'Genie Envisioner'가 NVIDIA Cosmos를 기반으로 하며, 지각에서 행동에 이르는 종단 간 폐쇄 루프를 구현하고 있다는 점입니다. GE는 통합된 동영상 생성형 세계 모델을 핵심으로 하여, 정책 학습, 평가, 시뮬레이션 기능을 동일한 프레임워크에 통합하고 있습니다. AGIBOT은 자체 개발한 행동 조건부 세계 모델 아키텍처에 Cosmos Predict 2를 깊이 통합함으로써, GE-Sim에 강력하고 범용적인 시각적·물리적 사전 지식 기능을 제공하고 있습니다.
시뮬레이션 테스트와 세계 모델의 통합은 본질적으로 '데이터 생성-알고리즘 학습-모델 검증-지속적인 진화'라는 플라이휠형 폐쇄 루프를 구축합니다. 자율주행과 EAI라는 두 분야에서, 이 둘의 통합 과정은 매우 일관적이며, 둘 다 '물리 AI'라는 궁극적인 목표를 가리키고 있습니다. 즉, 시스템이 가상 세계에서 인지부터 행동에 이르기까지의 폐쇄 루프 학습을 완료한 후, 이를 바탕으로 물리적 세계로 원활하게 전환할 수 있도록 하는 것입니다.
Autonomous driving simulation research: "Simulation test + world model"-driven test system has become R&D infrastructure.
The "Autonomous Driving Simulation and World Model Research Report, 2026" mainly focuses on core technologies, industry trends and mainstream solutions in the field of simulation and world models, covering the complete system of simulation testing (X-in-the-loop testing from MIL to VIL, scenario library construction, etc.), as well as the evolution of world model solutions of OEMs/Tier 1 suppliers. It analyzes 14 Chinese and 13 foreign mainstream simulation platforms and world model solution providers, sorts out the synergistic relationship between simulation testing and world models, and demonstrates the core value of world models in data cost reduction, scenario generalization, and decision reasoning by way of research.
The national standard GB/T 47025-2026 Intelligent and Connected Vehicle - Simulation Test Methods and Requirements for Automated Driving Function was released and officially implemented on January 28, 2026. This standard is applicable to Category M and N vehicles with autonomous driving functions or autonomous driving systems, and stipulates the simulation test methods, test requirements and overall criteria for the autonomous driving function. The standard defines a total of 48 special test items in 7 categories. The GB/T 47025-2026 and the released standards, the GB/T 41798-2022 (Intelligent and Connected Vehicles - Track Testing Methods and Requirements for Automated Driving Function) and the GB/T 44719-2024 (Intelligent and Connected Vehicle - Methods and Requirements of Road Test for Automated Driving Functions), constitute a complete verification system of "simulation-field-road" trinity.
In order to speed up the mass production of L3/L4 autonomous vehicles, mature autonomous driving algorithm verification usually follows the golden ratio of "99.9% simulation tests + 0.09% closed field tests + 0.01% public road tests". The recommended national standard GB/T 47025-2026 requires that the error between the sensor model and the actual vehicle should be <=5%; the consistency between the dynamics model and the actual vehicle should be >=95%; the behavior of traffic participants should be high-fidelity, etc. This means that the autonomous driving industry has entered a new development stage of compliance access and safety priority. Simulation testing is no longer an auxiliary means for research and development, but has become a legally required link for product access, certification, and safety evidence.
Meanwhile, as a generative AI model, the world model can understand the dynamic laws of the real world (covering physical characteristics and spatial attributes) by building internal representations. It also generates video content with input information such as text, images, videos, and motion data. It is quickly showing great application potential in fields such as autonomous driving and robotics, and is becoming the core technical pillar that drives intelligent systems to leap into high-level perception and decision capabilities.
The positioning of the simulation system has been upgraded from a traditional test execution tool to a core data infrastructure supporting algorithm training. The simulation environment is also evolving from visual resemblance to behavioral authenticity, emphasizing physical sensor simulation (such as photons, electrical signals, multi-echo), accurate material properties (such as reflectivity, roughness), vehicle dynamics and traffic flow that comply with physical laws, in a bid to bridge the "Sim-to-Real" gap.
In terms of high fidelity, simulation platform companies are continuing to upgrade their simulation verification capabilities, making high-confidence simulations more detailed. For example, Keymotek's aiSim6 can provide physical sensor simulations, such as cameras (nonlinear response, CMOS noise) and LiDAR (Gaussian rays, multi-echo, weather attenuation), following the ASAM OpenMATERIAL 3D standard and defining precise material physical properties. Furthermore, based on its self-developed PBR Splatting technology, it can dynamically adjust scenario lighting for 3DGS models, dynamically switching lighting conditions such as daytime, dusk, and nighttime on the same road segment, transforming it into a "dynamically configurable training environment" and achieving "physical dynamic neural rendering."
Notably, aiSim 6 applies the Navier-Stokes equations describing fluid motion to environmental particle physics simulations, introducing physical environmental disturbances into the synthetic data link. This allows for realistic simulations of leaf movement caused by vehicle airflow, water splashes from pavements during rain, and the dynamic interaction between manhole cover steam and traffic participants, addressing the shortcomings in physical realism of edge scenarios.
In terms of physical consistency, take the high-fidelity physical simulation of PilotD Technology as an example. The company has independently developed a self-evolving dual-turbine driven data training platform. It uses a high-fidelity world model to generate multi-modal data such as vision and point clouds for closed-loop training of the robot brain. Meanwhile, its data credibility verification technology, namely the "Physical Judge" system, checks the physical rationality of generated data, and performs data screening as well as closed-loop retraining of the world model simultaneously. Based on the self-evolving data dual-turbine, the EAI cerebrum completes fully automatic iterative evolution with the injection of increasingly physically relevant synthetic data, enhancing the algorithm's adaptability and generalization capability in complex real-world scenarios.
The company's self-developed fully physical optical core modeling technology highly restores the optical physicality of data, and uses this to train a multimodal world model data generation architecture with high fidelity in both dynamics and optics, providing AI companies with high-fidelity synthetic data solutions.
In terms of dynamic interaction, for example, SYNKROTRON's OASIS Traffic solution, a traffic flow synthesis data platform for advanced autonomous driving, is based on real roadside data. It uses AI to generate adversarial traffic flows covering 60 high-interaction scenarios, quantifies hazard levels using TTC/PET, and covers over 30% of long-tail corner cases. It can generate massive dynamic traffic scenario datasets (typical areas, typical traffic scenarios, dynamic participants, natural and confrontational behaviors).
The world model is committed to internalizing physical laws, such as gravity, collision, and causality, to solve problems with traditional simulation tools such as long-term consistency and interpretability, and to understand the "common sense" of the world. For example, GigaAI's GigaWorld-1 has excellent physics adherence capabilities and can accurately simulate complex physical interactions such as gravity and collision. Li Auto's MindVLA-o1 uses the native 3D ViT and the predictive latent world model to understand object position relationships and movement patterns in the three-dimensional space structure. It makes use of the world model to generate massive, high-fidelity, and diverse training data to handle the extreme scarcity of real physical interaction data and promote "Sim2Real" migration.
Fusion trend: VLA + world model + reinforcement learning
In the field of autonomous driving, the world model has been upgraded from a single data generator to the core cognition and deduction center of the autonomous driving system, deeply integrated with VLA and reinforcement learning. In algorithm training, VLA is responsible for perception and semantic understanding, the world model for future deduction and prediction, and reinforcement learning for autonomous optimization decision in the virtual world. The three work together. For example,
QCraft's "VLA + world model" unified architecture can not only multiplex end-to-end capabilities that have been verified in millions of mass productions, but can also accurately understand environmental text, complex scenarios and voice commands through language capabilities, achieving triple alignment of model decision, teleoperation and HMI; then with the help of the world prediction model, it can accurately deduce the behavior of traffic participants, road structure changes and dynamic scenario evolution, thereby planning the optimal driving trajectory.
As the "cloud matrix" of VLA 2.0, XPeng X-World is a physical AI simulator that can "think" about driving scenarios. It generates massive scenarios through the world model for training and evaluation, and enables the R&D paradigm to shift from "stacking real vehicle testing" to "stacking computing power training." The model is built based on the leading video generation model WAN 2.2, involving a customized DiT backbone network. Its key innovation lies in the introduction of a perspective-time self-attention mechanism, which forces the model to simultaneously model the temporal dimension and the spatial geometric relationship between the seven surround view camera perspectives during generation, thereby ensuring that the generated virtual world is tightly integrated across perspectives and avoiding objects from "crossing the model" or being misaligned. The underlying layer adopts a 3D causal variational autoencoder (VAE) with high compression ratio, which greatly reduces the computational overhead of multi-channel vide o stream processing and supports long-term modeling.
Core Foundation Cases of World Models:
In the field of autonomous driving, the world model adopts a dual-engine architecture of "cloud training + vehicle reasoning". The cloud is responsible for large-scale training and scenario generation, and the vehicle offers real-time decision and rapid response. For example, on April 24, 2026, Huawei released Qiankun ADS 5, which uses the WEWA 2.0 to improve game-theoretic training and learning efficiency by 10 times, and reduce collision risks by 50%; cloud computing power jumps to the current 60 EFLOPS in 2026, achieving a 21-fold increase from the level in 2023, supporting high-level autonomous driving research and development.
In Huawei's WEWA architecture, the cloud-based WE (World Engine) handles virtual scenario training and model parameter updates. Powered by diffusion generative models, it operates in a mode of simultaneous generation, learning and validation. It can controllably generate various rare scenarios including adjacent vehicle cut-in, dart-out, and sudden braking of leading vehicles, realizing the shift from human training AI to AI self-training. The automotive WA (World Action Model) is in charge of real-time path planning and control.
As a world model, Pony.ai's PonyWorld 2.0 has self-diagnosis and directional evolution capabilities. AI can independently diagnose shortcomings and proactively guide data collection, becoming the core of the paradigm shift in R&D training. Specifically, PonyWorld 2.0 combines the intention semantics layer of Pony.ai's automotive model to realize automated traceback and attribution analysis of every driving decision. The system can automatically identify the root cause of the problem and accurately feed the diagnosis results to the model training process.
Based on self-diagnosis results, PonyWorld 2.0 can automatically identify specific scenarios where the accuracy of the world model is insufficient, and proactively generate directional data collection tasks. For example, the system can automatically push instructions: "Please focus on collecting mixed traffic scenario data of non-motorized vehicles and pedestrians under backlight conditions at designated intersections during specific periods." The R&D and testing teams thus collaborate efficiently around the "accuracy requirements" of the world model to achieve directional data collection and model iteration guided by AI.
In the field of EAI, the world model has evolved from a "data engine" to a "cerebrum" or "simulator" of EAI agents, capable of physical deduction, action planning and mission decision.
For example, unlike the traditional WA architecture that relies on inefficient and lengthy video prediction links, the action-centric paradigm of GigaWorld-Policy, the World-Action Model (WAM) developed by GigaAI, breaks the cross-modal coupling bottleneck and delivers a dramatic improvement in inference efficiency via architectural optimization.
It has pioneered the hybrid paradigm model of "Complex Training & Simplified Inference":
During the training phase, GigaWorld-Policy uses a causal mask mechanism to achieve unified modeling of action tokens and future visual tokens, allowing action prediction to fully benefit from the high-density supervision signals provided by future visual dynamics.
During the inference phase, the model completely abandons the video prediction branch, retaining only a lightweight action generation module. It avoids the need to perform inference processes for long sequences of visual tokens, fundamentally circumventing the structural computational redundancy caused by cross-modal architecture coupling in traditional WA models.
Compared to current mainstream WA models (such as Motus and Cosmos Policy), GigaWorld-Policy achieves a 10x improvement in inference speed while maintaining policy quality, truly meeting the real-time requirements of high-frequency closed-loop control for robots. GigaWorld-Policy's average success rate in real-world tasks approaches 85%. Facing strong competitors like Cosmos-Policy, its absolute success rate is raised by more than 30%.
On April 29, 2026, GensPi Technology officially released MotuBrain, a general-purpose world-action model. Positioned as a general-purpose cerebrum for EAI robots, it possesses multi-robot adaptability, multi-task generalization, and long-term task execution capabilities, achieving multi-functionality and multi-type capabilities with a single brain. MotuBrain's core breakthrough lies in its unified modeling of the "world seen" and the "actions to be performed," allowing the robot to not only understand the environment but also predict changes and generate executable action strategies. MotuBrain won the first place on both RoboTwin 2.0 and WorldArena, two authoritative international benchmarks. In WorldArena, MotuBrain ranked first with an overall EWM score of 63.77, and led across multiple key motion dimensions, including Motion Quality, Flow Score, and Motion Smoothness.
In the autonomous driving data closed-loop and test system, simulation testing and world models complement each other, offsetting technical shortcomings and complement capability boundaries of each other.
In the fields of autonomous driving and EAI, simulation testing and world models are moving from "separation" to "deep integration." The industry has begun to establish unified standards and promote the construction of an integrated platform of "reconstruction + generation + simulation + training" to enable simulation capabilities from autonomous driving multiplexing to EAI, realizing a broader physical AI ecosystem.
Currently, world models (especially generative world models) have become the core "power plant" of simulation platforms, driving the AI-powered automatic generation of simulation scenarios and generating massive and diverse scenarios (especially long-tail and rare scenarios) and high-fidelity sensor data at low cost and with high quality.
On April 24, 2026, 51Sim's SimOne 4.0 was comprehensively reconstructed and upgraded for the physical AI era, building a "4DGS reconstruction + generative world model" technology base to automatically build interactive, editable, and scalable virtual simulation assets from real vehicle data to achieve large-scale scenario generation. SimOne 4.0 covers the five-core links of data, training, reasoning, verification and delivery, comprehensively helping AI enter the physical world safely and efficiently. Moreover, SimOne4.0 deeply integrates the neural rendering technology solution - NVIDIA Omniverse NuRec at the product level to build a complete data-driven process from real data collection, neural scenario reconstruction to closed-loop simulation execution. In 51Sim's end-to-end data-driven closed-loop solution, the confidence levels of dynamics, LiDAR, and camera simulations are as high as 95%, 95%, and 90% respectively, and the consistency between simulation testing and field testing reaches 92%.
SimOne 4.0 supports multiple GPU architectures simultaneously. It has achieved systematic adaptation and in-depth optimization with Moore Threads' flagship AI training and inference integrated GPU MTT S5000. The platform enables high-concurrency execution of large-scale 4DGS and world model training tasks, delivering high-quality reconstruction and model training for complex dynamic scenarios within a short time, and driving the continuous evolution of world models and VLA. Up to now, SimOne has empowered more than 100 customers in many EAI fields such as autonomous driving, smart equipment, and robots.
In January 2026, AGIBOT released Genie Sim 3.0, an open-source simulation platform driven by its large language model. Based on NVIDIA Isaac Sim, the platform provides a high-fidelity simulation environment and natural language-driven scenario generation capabilities. It can provide a full-process closed-loop solution from digital asset generation, scenario generalization, data collection to automatic evaluation, significantly speeding up the model training and verification process and reducing dependence on physical hardware.
Highlights of Genie Sim 3.0 include a digital twin-level high-fidelity simulation environment, which pioneeringly deeply integrates three-dimensional reconstruction, visual generation technology and physics engines to achieve the unification of visual realism and physical accuracy. Secondly, it has pioneered natural language-driven scenario generation and generalization. In Genie Sim 3.0, developers can input natural language instructions to drive the platform to automatically generate and generalize thousands of training and test scenarios within minutes, and conduct large-scale parallel training. In addition, the simulation platform also provides a full range of open-source simulation datasets (covering more than 200 tasks with a total duration of tens of thousands of hours) and efficient collection solutions; it has built a three-dimensional evaluation system based on 100,000+ simulation scenarios, etc. It is worth noting that AGIBOT's world model, Genie Envisioner, is based on NVIDIA Cosmos to realize an end-to-end closed loop from perception to action. GE uses a unified video generative world model as the core to integrate policy learning, evaluation and simulation capabilities into the same framework. AGIBOT provides GE-Sim with powerful general visual and physical prior capabilities by deeply integrating Cosmos Predict 2 into its self-developed action-conditioned world model architecture.
The integration of simulation testing and world models essentially builds a flywheel closed loop of data generation - algorithm training - model verification - continuous evolution. In the two fields of autonomous driving and EAI, the integration paths are highly consistent, both pointing to the ultimate goal of "physical AI": allowing the system to complete closed-loop learning from cognition to action in the virtual world, and then seamlessly migrate to the physical world.
Terms