OpenAI, GPT-4o 업데이트로 AI 벤치마크 1위 탈환
GPT-4o 업데이트 및 성능 향상
OpenAI가 챗GPT의 주력 모델인 GPT-4o를 업데이트하면서, 4개월 만에 IM아레나 인간 선호도 평가에서 1위를 탈환했다. 업데이트된 모델(chatgpt-4o-latest-20250129)은 최신 연구 및 문화적 트렌드에 대한 이해도가 향상되었으며, 시각적 입력 분석과 공간 관계 해석 능력이 개선되었다.
강화된 멀티모달 및 수학·코딩 능력
이미지 이해 강화: 복잡한 다이어그램, 차트, 그래프 분석 능력 향상.
코딩·수학·과학 문제 해결력 개선: GPQA, MATH 등 벤치마크 점수 상승.
자연어 이해 및 추론 능력 향상: MMLU에서 높은 점수를 기록하며 복잡한 문제 해결 가능.
IM아레나 벤치마크에서 1위 등극
구글 ‘제미나이 2.0’과 공동 1위, 스타일 프롬프트 제외 시 단독 1위.
코딩, 창작 글쓰기, 지시 반영, 긴 쿼리 처리, 멀티 턴 대화 부문 1위, 다만 수학 성능은 6위.
구글 및 딥시크 AI와의 경쟁
지난 4개월 동안 구글이 지속적인 업데이트로 1위를 유지했고, 딥시크-R1 모델이 추가되면서 OpenAI는 5위권까지 밀려났었다.
이번 GPT-4o 업데이트로 구글과의 경쟁에서 다시 우위를 점하려는 전략이 반영된 것으로 보인다.
퍼플렉시티와의 신경전
퍼플렉시티 CEO가 OpenAI 업데이트에 대해 시비를 걸자, 샘 알트먼 CEO는 "우리가 웹에서 최고의 검색 제품"이라며 반격.
퍼플렉시티가 OpenAI보다 10배 저렴한 AI 검색 서비스를 출시하며 견제하는 가운데, 두 회사 간 경쟁이 가열되고 있다.
출처: https://www.aitimes.com/news/articleView.html?idxno=168052