Microsoft VASA-1: AI biến ảnh chân dung thành video nói chuyện tự nhiên

Microsoft vừa ra mắt VASA 1, một cách mới đáng kinh ngạc để thêm chuyển động video và âm thanh dựa trên AI vào ảnh tĩnh. Bản demo sử dụng một số khuôn mặt do AI tạo ra và thêm âm thanh MP3 cũng như các chuyển động giống như thật.
Giới thiệu về công cụ VASA-1 của Microsoft

Microsoft vừa công bố một công cụ AI mới có tên là VASA-1. Cho phép biến các bức ảnh chân dung thành video nói chuyện với biểu cảm tự nhiên.

Khả năng của công cụ VASA-1

Công nghệ này không chỉ tạo ra các cử động môi “đồng bộ một cách tinh tế” kèm theo âm thanh. Mà còn tái hiện được thần thái của nhân vật thông qua chuyển động tự nhiên của khuôn mặt và đầu. Từ đó tạo ra hiệu ứng chân thực hơn.

Microsoft VASA-1 được xây dựng dựa trên một “hệ thống động học cho khuôn mặt” được huấn luyện thông qua một mô hình tạo chuyển động hiệu quả hơn so với các phương pháp trước đó.

Công cụ này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân. Tái tạo các biểu cảm như vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.

Đánh giá và ứng dụng của VASA-1

Trong một video giới thiệu trên YouTube. AI của Microsoft đã biến các bức ảnh, tạo bởi Dall-E 3 và StyleGAN2, thành video nói chuyện tự nhiên. Người dùng cũng có thể điều chỉnh thông số khuôn mặt, biểu cảm, giọng nói và nhiều chi tiết khác.

PetaPixel, một trang web chuyên về hình ảnh, đánh giá VASA-1 có khả năng tái hiện tốt hơn so với các AI tương tự. Khiến cho việc nhận biết nếu xem lần đầu trở nên khó khăn.

Hạn chế và tương lai của VASA-1

Tuy nhiên, Microsoft từ chối tiết lộ mô hình đứng sau VASA-1 và không có kế hoạch phát hành sản phẩm riêng. Cũng như cung cấp API cho nhà phát triển. Họ giới thiệu VASA-1 nhằm phô diễn một trong những khả năng AI của mình.

Microsoft cũng nhấn mạnh rằng nghiên cứu của họ tập trung vào việc phát triển cảm xúc trực quan cho ảnh đại diện AI. Hướng tới các ứng dụng tích cực. Họ cũng lưu ý rằng mặc dù không nhằm tạo nội dung gây hiểu lầm hoặc lừa dối. Nhưng cũng như bất kỳ mô hình AI khác, Microsoft VASA-1 vẫn có thể bị lạm dụng để mạo danh con người. Và đây là điều mà họ không muốn.

Sự phát triển trong lĩnh vực AI

Ngoài ra, trong lĩnh vực AI, cũng đang diễn ra cuộc đua giữa các mô hình có khả năng tạo video như thật từ ảnh tĩnh. Tháng trước, Alibaba đã giới thiệu công cụ tương tự là EMO (Emotive Portrait Alive). EMO không chỉ làm biến đổi miệng và một phần mặt như các AI trước đó. Mà còn tái hiện được nét mặt, tư thế, cử chỉ như nhíu mắt hay lắc lư theo điệu nhạc. Đặc biệt, phần miệng được EMO thể hiện tự nhiên, đồng bộ với những gì được nói.

Nguồn: VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time