محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنیبر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحلهای برای همگامسازی صوت و تصویر وجود دارد.
نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking
The media could not be loaded, either because the server or network failed or because the format is not supported.
Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا کامل با صدا منطبق شود.
یکی از چالشهای اساسی در حوزه گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روشهای قبلی برای حفظ واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی مثل 3DMM یا FLAME استفاده میکردند اما این روشها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی ناکارآمد بودند.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
در ویدیو زیر میتوانید برخی نمونههای ساخته این مدل و مدلهای دیگر را با هم مقایسه کنید:
FantasyTalking همچنین از ماژول ویژه برای کنترل شدت حرکات بهره میبرد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم میکند. این ویژگی تولید ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف بسیاری از مدلهای دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنیبر چهره استفاده میکند که نتایج طبیعیتر و یکپارچهتری ارائه میدهد.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
از دیگر تواناییهای این مدل میتوان به تولید ویدیوهای حرفزدن شخصیتها با زوایای مختلف (نمای نزدیک، نیمتنه، تمامقد، از روبهرو یا زاویهدار)، پشتیبانی از استایلهای گرافیکی مختلف (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در مقایسه با روشهای بسته و پیشرفتهای مانند OmniHuman-1، مدل FantasyTalking از نظر واقعگرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری کیفیت بالاتری ارائه میدهد.
دوران حرفهای من توی دنیای فناوری تقریبا به ۱۰ سال قبل برمیگرده؛ مسیری که با سختافزار شروع شد، با نرمافزار ادامه پیدا کرد و حالا با خبرنگاری حوزه فناوری توی دیجیاتو داره ادامه پیدا میکنه. من جوادم و نزدیک به سه دهه از عمرم میگذره و علاوه بر دنیای فناوری عاشق فیلموسینما، موسیقی کلاسیکراک و رئال مادریدم.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.