root layout

패스트캠퍼스

"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개

2025.02.24 14:22 수정

GPT-4o mini를 사용하여 요약한 글입니다.


UI 이해하고 조작하는 차세대 AI...인간과 컴퓨터 간 상호작용 방식을 근본적으로 변화시킬 것

이미지:아이스톡

이미지:아이스톡


AI 에이전트 시대 개막: 컴퓨터를 직접 조작하는 AI 등장

AI가 단순한 데이터 분석을 넘어 직접 컴퓨터를 조작하는 단계로 발전, 생산성과 자동화 혁신을 주도할 것으로 기대됨.

  1. AI 에이전트, 새로운 생산성 혁신

    • AI가 환경과 상호작용하며 데이터를 수집하고 스스로 작업을 결정하는 AI 에이전트 시대 도래

    • 기업들은 반복 작업 자동화 및 생산성 향상 가능

  2. Anthropic ‘컴퓨터 사용’ 기능 공개

    • Claude 3.5 Sonnet에 추가된 ‘컴퓨터 사용’ 기능 → AI가 마우스 클릭, 입력 등 직접 컴퓨터 조작 가능

    • 기존 AI 모델이 화면 인식 수준에 머물렀던 것과 차별화

  3. OpenAI ‘Operator’ 출시

    • 웹 브라우저 제어 및 독립적 작업 수행 가능

    • API 없이 그래픽 사용자 인터페이스(GUI)와 직접 상호작용

  4. Microsoft, ‘OmniParser 2’ 오픈소스 공개

    • UI 분석 AI로 버튼, 메뉴 등 화면 요소 정확히 인식 및 조작 가능

    • OpenAI GPT-4V와 결합해 시각 정보 분석 강화, 벤치마크에서 최고 성능 기록

다양한 에이전트 설정으로 더 빠르게 실험할 수 있도록, 에이전트를 위한 필수 도구 모음을 통합한 도커화된 Windows 시스템인 OmniTool을 만들었다. 기본적으로 OmniParser를 다양한 최첨단 LLM과 함께 사용할 수 있도록 한다. 오픈AI(4o/o1/o3-mini), 딥시크 R1,큐엔 2.5VL 및 앤트로픽 Sonnet는 화면 이해, 접지, 액션 계획 및 실행 단계를 결합한다.

스크린 스팟 프로 베치마크


MS는 AI 에이전트 실험을 가속화하기 위해 도커 기반 윈도우 시스템 '옴니툴(OmniTool)을 개발하여, 다양한 최첨단 LLM(OpenAI, DeepSeek, Qwen, Anthropic) 과 함께 사용할 수 있도록 했다. 옴니툴은 UI 분석 및 자동 실행 기능을 갖춘 '옴니파서 2'를 지원하며, 사용자의 명령을 해석하고 필요한 UI 요소를 조작할 수 있다. 오픈소스로 공개된 옴니파서 2는 웹사이트 음성 제어, 소프트웨어 테스트 자동화 등 다양한 분야에서 활용될 전망이며, 인간과 AI의 상호작용 방식을 근본적으로 변화시킬 것으로 예상된다.


출처: https://www.aitimes.kr/news/articleView.html?idxno=33900


답변