본문 바로가기
IT

구글 제미나이 2.0, 네이티브 이미지 생성 기능으로 AI 이미지 생성의 새 시대를 열다

by 리뷰숲지기 2025. 3. 21.

목차

    구글 제미나이 2.0, 네이티브 이미지 생성 기능으로 AI 이미지 생성의 새 시대를 열다

    멀티모달 모델 내부에 탑재된 이미지 생성 기능, LLM의 혁신적 진화

    구글이 '이매진 3(Imagen 3)'와 같은 외부 이미지 생성 도구 없이, '제미나이'에 직접 내장된 이미지 생성 기능을 선보였다. 별도 이미지 생성 모델 연결 없이 멀티모달모델(LMM) 안에 이미지 생성 기능을 탑재한 '네이티브 기능'은 이번이 처음이다.

     

    구글 딥마인드는 13일(현지시간) '제미나이 2.0 플래시'에 네이티브 이미지 생성 기능을 추가한 실험 버전 '제미나이-2.0-플래시-exp(gemini-2.0-flash-exp)'를 공개했다.

     

    제미나이 2.0 플래시는 지난해 12월 발표한 모델로, 텍스트와 코드, 이미지, 오디오, 비디오 등 다양한 콘텐츠 형식을 이해하고 처리할 수 있는 LMM이다.

     

    이번에 추가된 네이티브 이미지 생성 기능을 통해 사용자는 별도 이미지 생성 도구 없이 제미나이 2.0 플래시에서 직접 이미지를 만들 수 있게 되었다.

    LLM과 이미지 생성의 혁신적 통합

    이는 트랜스포머 구조인 대형언어모델(LLM)에 '확산 모델(Diffusion)'인 이미지 생성기를 통합한 이제까지의 방식과 다르다. LLM 하나에 언어 생성과 이미지 생성이 통합된 첫 사례로 꼽힌다.

     

    이 때문에 다른 모델에 비해 유리한 점이 생긴다는 설명이다.

     

    우선, 제미나이 2.0 플래시의 언어 능력을 바탕으로 등장 인물과 설정의 일관성을 유지하며 삽화가 포함된 이야기를 생성할 수 있다.

    또 제미나이 2.0 플래시의 지식과 향상된 추론 능력을 활용, 맥락에 맞는 이미지를 만들어 낼 수 있다. 예를 들어, 실제 재료와 요리 방법에 맞는 상세한 비주얼로 레시피를 생성하는 것이 가능하다.

    여기에 사용자와 챗봇이 번갈아 대화하는 '멀티턴 대화' 기능을 통해 이미지를 자연스럽게 점진적으로 수정할 수도 있다.

    개발자를 위한 접근성과 활용 가능성

    이 모델은 '구글 AI 스튜디오'를 통해 개발자들에게 공개됐다. 또 제미나이 API를 사용해 자신의 애플리케이션에 이미지 생성 기능을 통합할 수 있다.

     

    구글은 "제미나이 2.0 플래시는 멀티모달 입력과 향상된 추론, 자연어 이해를 결합해 이미지를 생성한다"라며 "이를 AI 에이전트 구축에 활용할 수 있고, 그림으로 표현된 대화형 스토리 앱을 개발할 수 있으며, 채팅 내용에서 이미지를 생성하는 등 다양한 용도로 활용할 수 있다"라고 밝혔다.

    사용자들의 초기 반응

    초기 반응도 좋다.

     

    특히 이미지를 다양한 각도와 효과로 변형하는 과정에서 뛰어난 일관성을 유지했다는 평이 많다. 한 사용자는 이에 대해 "이건 넥스트 레벨"이라는 짧막한 멘트를 남겼다.

     

    이번 네이티브 이미지 생성 기능의 통합은 언어 모델과 이미지 생성 모델 사이의 경계를 허물고, 보다 통합된 AI 경험을 제공한다는 점에서 큰 의미가 있다. 앞으로 AI 기술이 어떻게 발전하고 우리의 일상과 창작 활동에 영향을 미칠지 기대된다.

     

    구글의 이번 혁신은 단순히 기술적 진보를 넘어 AI 시스템이 인간의 창의성과 의사소통 방식에 더 가까워지는 중요한 이정표가 될 것으로 보인다. 특히 AI 시스템이 텍스트와 이미지를 동시에 이해하고 생성하는 능력은 다양한 산업 분야에서 새로운 응용 가능성을 열어줄 것이다.

     

    이러한 발전 속도로 볼 때, 멀지 않은 미래에 더욱 정교하고 맥락을 이해하는 AI 시스템이 등장할 것으로 예상된다. 구글의 제미나이 2.0 플래시는 그 여정의 중요한 한 걸음을 내디뎠다고 할 수 있다.