티스토리 뷰

인공지능(AI) 스타트업 앤스로픽이 오픈AI의 최신 모델 'GPT-4o'를 능가하는 새로운 AI 모델 '클로드 3.5 소네트'를 공개했다. 이 모델은 텍스트, 오디오, 이미지 등 다양한 정보를 입력으로 받아 자연스럽고 지능적인 대화를 할 수 있는 모델로, 실시간 음성 대화, 코딩 도우미, 실시간 통역 등 다양한 분야에서 활용할 수 있다.

 

출처-디지털투데이

 

 

모델 소개: 텍스트, 오디오, 이미지를 모두 이해하고 대화하는 AI

 

클로드 3.5 소네트는 앤스로픽의 클로드 3.5 모델 제품군 중 첫 번째로 출시된 모델이다. 클로드 3.5 모델 제품군은 이전 모델인 클로드 3 모델 제품군보다 한 단계 진화한 모델로, 텍스트, 오디오, 이미지 등 다양한 정보를 입력으로 받아 원하는 형태로 출력할 수 있는 모델이다.

 

클로드 3.5 소네트는 이 중에서도 중간급 모델로, 가장 강력한 모델인 클로드 3.5 오퍼스와 경량 모델인 클로드 3.5 하이쿠도 순차적으로 출시될 예정이다.

 

기존의 텍스트 기반의 AI 모델과 달리, 음성이나 이미지도 이해하고 대화할 수 있는 AI 모델이다. 이 모델은 텍스트, 오디오, 이미지를 모두 동일한 신경망으로 처리하기 때문에, 입력과 출력의 정보 손실이 적고, 다양한 정보를 종합적으로 이해하고 활용할 수 있다.

 

또한, 이 모델은 실시간 음성 대화가 가능하며, 음성의 톤이나 감정, 여러 목소리, 배경 소음 등을 인식하고, 웃음, 노래, 감정 표현 등을 출력할 수 있다.

 

모델 성능: 오픈AI의 'GPT-4o'와 경쟁하는 최고 수준의 성능

 

출처-앤스로픽

 

클로드 3.5 소네트는 오픈AI의 최신 모델인 'GPT-4o'와 경쟁하는 최고 수준의 성능을 보인다. 앤스로픽은 자체 평가 자료를 통해, 클로드 3.5 소네트가 텍스트, 추론, 코딩, 다국어, 오디오, 비전 등 여러 인공지능 기능에서 GPT-4o와 비슷하거나 더 나은 성능을 보였다고 밝혔다. 특히, 코딩 능력과 멀티모달 과제 수행에서는 GPT-4o를 크게 앞섰다.

 

앤스로픽은 코딩 능력을 평가하는 표준 벤치마크인 HumanEval에서 92.0%의 점수를 받았다고 했다. 이는 GPT-4o의 90.2%보다 1.8%포인트 높은 점수이다.

 

또한, 멀티모달 과제 수행에서는 차트 이해도와 문서 이해도 부문에서 각각 90.8%, 95.2%의 점수를 받아, GPT-4o의 85.7%, 92.8%보다 높은 점수를 기록했다. 이 외에도, 수학, 대화, 번역, 음성 인식 등의 분야에서도 GPT-4o와 유사하거나 우수한 성능을 보였다.

 

모델 활용: 실시간 음성 대화, 코딩 도우미, 실시간 통역 등 다양한 분야에서 활용 가능

 

클로드 3.5 소네트는 다양한 분야에서 활용할 수 있는 AI 모델이다. 앤스로픽은 라이브 데모를 통해 이 모델의 활용 사례를 보여주었다. 라이브 데모에서는 앤스로픽의 CTO인 미라 무라티와 개발자인 마크 첸, 바렛 조프가 다양한 장면들을 연출하고 있었다.

 

예를 들어, 실시간 음성 대화는 사용자와 자연스럽고 지능적인 대화를 할 수 있는 기능이다. 이 기능은 음성의 톤이나 감정, 여러 목소리, 배경 소음 등을 인식하고, 웃음, 노래, 감정 표현 등을 출력할 수 있다. 또한, 음성 입력에 대한 응답 시간은 평균 320 밀리초로, 인간의 응답 시간과 유사하다. 이 기능은 일상 대화, 베드타임 스토리, 노래 부르기, 농담하기 등 다양한 상황에서 사용할 수 있다.

 

코딩 도우미는 사용자가 코딩을 할 때 도움을 주는 기능이다. 이 기능은 사용자가 작성한 코드의 설명과 문제점을 알려주고, 코드의 실행 결과에 대한 질문에도 답변할 수 있다.

 

또한, 도구가 주어지면 독립적으로 코드를 작성하고 편집하고 실행할 수 있다. 이 기능은 프로그래밍 학습, 디버깅, 코드 리뷰 등 다양한 상황에서 사용할 수 있다.

 

실시간 통역은 사용자가 다른 언어로 말하면 바로 번역해주는 기능이다. 이 기능은 영어, 스페인어, 이탈리아어, 중국어, 일본어 등 다양한 언어를 인식하고 번역할 수 있다. 또한, 번역된 음성과 텍스트를 동시에 출력할 수 있다. 이 기능은 여행, 비즈니스, 교육 등 다양한 상황에서 사용할 수 있다.

반응형