오픈AI, 새로운 음성 AI 모델 3종 발표! AI 음성 기술 혁신 가속화

오픈AI, 음성 AI 기술의 새 장을 열다

오픈AI가 최신 음성 인공지능(AI) 모델 3종을 공개했다. AI 애플리케이션에 음성 기능을 쉽게 적용할 수 있도록 지원하면서, 치열한 AI 에이전트 시장에서 새로운 변화를 예고하고 있다.

오픈AI는 2025년 3월 20일(현지시간) API 서비스에 새로운 독점 음성 모델을 출시했다.

현재 사용자는 데모 사이트에서 해당 모델을 체험할 수 있지만, 챗GPT에 적용될 시기는 아직 공개되지 않았다.

이번 모델은 기존 'GPT-4o'와 'GPT-4o 미니'를 기반으로 사후 훈련(post-training)을 거쳐 개발되었다. 증류 데이터 및 강화 학습(RL) 기법을 활용해 음성 인식 및 변환 성능이 크게 향상되었다.

새로운 음성-텍스트 변환 모델은 기존 오픈AI의 '위스퍼(Whisper)' 모델보다 낮은 단어 오류율(WER)을 자랑하며, 소음이 많은 환경에서도 뛰어난 성능을 보인다.

특히, 다양한 억양과 속도의 음성을 정확하게 인식하며 100개 이상의 언어를 지원한다.

‘gpt-4o-미니-tts’는 단순히 텍스트를 음성으로 변환하는 것뿐만 아니라, 사용자의 프롬프트에 따라 억양, 피치, 톤 등을 조절할 수 있다.

또한, 감정을 반영한 자연스러운 음성 출력을 생성할 수 있어 활용도가 더욱 높아졌다.

오픈AI는 API 가격을 아래와 같이 책정했다.

이번 모델 출시는 2024년 3월 발표된 음성 복제 모델 ‘보이스 엔진’ 이후 약 1년 만으로, 음성 복제 기능은 개발자들에게 가장 많은 요청을 받은 기능 중 하나였다.

이번 모델 출시는 AI 기반 음성 서비스의 가능성을 한층 더 확장하는 계기가 될 것으로 보인다. 오픈AI는 더 강력하고 맞춤형 음성 기반 AI 에이전트 개발을 위한 기술적 기반을 마련했다는 평가를 받고 있다.

AI 에이전트가 실용적으로 활용되기 위해서는 텍스트 입력을 넘어 직관적이고 자연스러운 음성 인터페이스가 필수적이며, 이번 업데이트는 이러한 흐름을 더욱 가속화할 것으로 전망된다.

일론 머스크의 xAI, API에 이미지 생성 기능 추가! 새로운 수익 모델? (0)	2025.03.24
앤트로픽 클로드, 웹 검색 기능 추가! AI 챗봇 경쟁 구도 변화 전망 (0)	2025.03.24
AI 시대, 일자리 지형도 변화… 활용할 것인가 피할 것인가? (1)	2025.03.23
AI 디지털 교과서, 과연 우리가 원하는 교육의 미래인가? (0)	2025.03.22
유발 하라리, AI 시대의 위험과 기회: 인류의 미래를 위한 경고 (0)	2025.03.21