본문 바로가기
IT

오픈AI, 새로운 음성 AI 모델 3종 발표! AI 음성 기술 혁신 가속화

by 리뷰숲지기 2025. 3. 24.

목차

    오픈AI, 새로운 음성 AI 모델 3종 발표! AI 음성 기술 혁신 가속화

    오픈AI, 음성 AI 기술의 새 장을 열다

    오픈AI가 최신 음성 인공지능(AI) 모델 3종을 공개했다. AI 애플리케이션에 음성 기능을 쉽게 적용할 수 있도록 지원하면서, 치열한 AI 에이전트 시장에서 새로운 변화를 예고하고 있다.

    출시된 3가지 음성 AI 모델

    오픈AI는 2025년 3월 20일(현지시간) API 서비스에 새로운 독점 음성 모델을 출시했다.

    • GPT-4o-트랜스크라이브(gpt-4o-transcribe): 고급 음성-텍스트 변환 모델
    • GPT-4o-미니-스크라이브(gpt-4o-mini-transcribe): 소형 음성-텍스트 변환 모델
    • GPT-4o-미니-TTS(gpt-4o-mini-tts): 텍스트-음성 변환(TTS) 모델

    현재 사용자는 데모 사이트에서 해당 모델을 체험할 수 있지만, 챗GPT에 적용될 시기는 아직 공개되지 않았다.

    향상된 음성 인식 성능

    이번 모델은 기존 'GPT-4o'와 'GPT-4o 미니'를 기반으로 사후 훈련(post-training)을 거쳐 개발되었다. 증류 데이터 및 강화 학습(RL) 기법을 활용해 음성 인식 및 변환 성능이 크게 향상되었다.

    GPT-4o 트랜스크라이브: 음성-텍스트 변환 성능

    새로운 음성-텍스트 변환 모델은 기존 오픈AI의 '위스퍼(Whisper)' 모델보다 낮은 단어 오류율(WER)을 자랑하며, 소음이 많은 환경에서도 뛰어난 성능을 보인다.

    특히, 다양한 억양과 속도의 음성을 정확하게 인식하며 100개 이상의 언어를 지원한다.

    언어별 단어 오류율 비교

    언어 단어 오류율(WER)
    영어 2.46%
    한국어 4.07%
    일본어 3.06%
    중국어 7.03%
    희소 언어(타밀어 등) 30% 근접

    TTS 모델 ‘gpt-4o-미니-TTS’의 강점

    ‘gpt-4o-미니-tts’는 단순히 텍스트를 음성으로 변환하는 것뿐만 아니라, 사용자의 프롬프트에 따라 억양, 피치, 톤 등을 조절할 수 있다.

     

    또한, 감정을 반영한 자연스러운 음성 출력을 생성할 수 있어 활용도가 더욱 높아졌다.

    API 가격 및 제공 방식

    오픈AI는 API 가격을 아래와 같이 책정했다.

    • GPT-4o-트랜스크라이브: 음성 입력 100만 토큰당 $6
    • GPT-4o-미니-스크라이브: 음성 입력 100만 토큰당 $3
    • GPT-4o-미니-TTS: 텍스트 입력 100만 토큰당 $0.6, 음성 출력 100만 토큰당 $12

    이번 모델 출시는 2024년 3월 발표된 음성 복제 모델 ‘보이스 엔진’ 이후 약 1년 만으로, 음성 복제 기능은 개발자들에게 가장 많은 요청을 받은 기능 중 하나였다.

    오픈AI의 미래 전략과 AI 음성 기술 발전

    이번 모델 출시는 AI 기반 음성 서비스의 가능성을 한층 더 확장하는 계기가 될 것으로 보인다. 오픈AI는 더 강력하고 맞춤형 음성 기반 AI 에이전트 개발을 위한 기술적 기반을 마련했다는 평가를 받고 있다.

     

    AI 에이전트가 실용적으로 활용되기 위해서는 텍스트 입력을 넘어 직관적이고 자연스러운 음성 인터페이스가 필수적이며, 이번 업데이트는 이러한 흐름을 더욱 가속화할 것으로 전망된다.