OpenAI가 추상적 추론을 해결한 것일까?

2025.02.18 08:51 작성

이 기사는 해외 기사를 요약(GPT-4o mini)하여 오역이 있을 수 있습니다.

OpenAI의 o3 모델이 ARC(Abstraction and Reasoning Corpus) 테스트에서 이전 모델보다 훨씬 높은 성과를 기록하며 주목받았다. 특히, 낮은 연산 모드에서 75.7%, 높은 연산 모드에서 87.5%의 정확도를 달성했다.
ARC는 인간과 AI의 추상적 사고 능력을 평가하는 벤치마크로, 기존 AI 모델들은 최대 55% 정확도에 그쳤다. o3의 성과는 기존 한계를 넘어선 혁신적인 도약으로 평가된다.
o3는 체계적인 ‘Chain of Thought’ 방식과 많은 연산 자원을 활용한 다중 샘플링 기법을 사용하여 문제를 해결한다. 그러나 이 방식은 원래 ARC가 목표로 했던 "적은 학습과 연산으로 추론하는 능력"과 다소 어긋난다.
OpenAI는 o3의 구체적인 작동 방식에 대해 많은 정보를 공개하지 않았으며, 연구자들은 o3의 학습 방법과 추론 과정이 실제로 인간과 유사한 추론 방식을 사용하는지 논의 중이다.
ARC 창시자인 François Chollet는 기존 ARC 벤치마크가 AI 발전에 따라 한계를 보이고 있다고 판단해, 더욱 정교한 평가 기준을 갖춘 ARC-AGI-2를 준비 중이라고 밝혔다.

출처: https://aiguide.substack.com/p/did-openai-just-solve-abstract-reasoning

Fast Campus