"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개
GPT-4o mini를 사용하여 요약한 글입니다.
UI 이해하고 조작하는 차세대 AI...인간과 컴퓨터 간 상호작용 방식을 근본적으로 변화시킬 것
이미지:아이스톡
AI 에이전트 시대 개막: 컴퓨터를 직접 조작하는 AI 등장
AI가 단순한 데이터 분석을 넘어 직접 컴퓨터를 조작하는 단계로 발전, 생산성과 자동화 혁신을 주도할 것으로 기대됨.
AI 에이전트, 새로운 생산성 혁신
AI가 환경과 상호작용하며 데이터를 수집하고 스스로 작업을 결정하는 AI 에이전트 시대 도래
기업들은 반복 작업 자동화 및 생산성 향상 가능
Anthropic ‘컴퓨터 사용’ 기능 공개
Claude 3.5 Sonnet에 추가된 ‘컴퓨터 사용’ 기능 → AI가 마우스 클릭, 입력 등 직접 컴퓨터 조작 가능
기존 AI 모델이 화면 인식 수준에 머물렀던 것과 차별화
OpenAI ‘Operator’ 출시
웹 브라우저 제어 및 독립적 작업 수행 가능
API 없이 그래픽 사용자 인터페이스(GUI)와 직접 상호작용
Microsoft, ‘OmniParser 2’ 오픈소스 공개
UI 분석 AI로 버튼, 메뉴 등 화면 요소 정확히 인식 및 조작 가능
OpenAI GPT-4V와 결합해 시각 정보 분석 강화, 벤치마크에서 최고 성능 기록
스크린 스팟 프로 베치마크
MS는 AI 에이전트 실험을 가속화하기 위해 도커 기반 윈도우 시스템 '옴니툴(OmniTool)을 개발하여, 다양한 최첨단 LLM(OpenAI, DeepSeek, Qwen, Anthropic) 과 함께 사용할 수 있도록 했다. 옴니툴은 UI 분석 및 자동 실행 기능을 갖춘 '옴니파서 2'를 지원하며, 사용자의 명령을 해석하고 필요한 UI 요소를 조작할 수 있다. 오픈소스로 공개된 옴니파서 2는 웹사이트 음성 제어, 소프트웨어 테스트 자동화 등 다양한 분야에서 활용될 전망이며, 인간과 AI의 상호작용 방식을 근본적으로 변화시킬 것으로 예상된다.
출처: https://www.aitimes.kr/news/articleView.html?idxno=33900