شرکت Stability AI از مدل هوش مصنوعی جدیدی تحت گفتن Stable Video Diffusion رونمایی کرده است که با متحرکسازی تصاویر میتواند ویدیو تشکیل کند. Stable Video Diffusion بر پایه مدل متن به عکس جاری Stable Diffusion ساخته شده است و یکی از معدود مدلهای تولیدکننده ویدیو محسوب میبشود که بهصورت منبع باز اراعه شده است.
Stable Video Diffusion اکنون مطابق حرف های Stability بهگفتن نسخه «پیشنمایش تحقیقاتی» توصیف شده است و افرادی که تصمیم منفعت گیری از آن را دارند باید با شرایط خاصی موافقت کنند. این چنین این مدل در دو شکل با عناوین SVD و SVD-XT اراعه میبشود. اولین مورد (SVD) تصاویر ثابت را به ویدیوهای ۱۴ فریم ۱۰۲۴ در ۵۷۶ پیکسل تبدیل میکند و هرچند SVD-XT از معماری یکسانی منفعت میبرد، اما میتواند ویدیوهایی با ۲۴ فریم تشکیل کند.
کارکرد هوش مصنوعی Stable Video Diffusion
هر دو مدل Stable Video Diffusion در ابتدا روی مجموعه دادهای متشکل از میلیونها ویدیو آموزش داده شدهاند و سپس تنظیم دقیق آنها بر پایه مجموعهای زیاد کوچکتر از صدها هزار تا نزدیک به یک میلیون ویدیو انجام شده است.
یقیناً Stable Video Diffusion با محدودیتهایی همراه است. بهگفتن مثال، ویدیوهای تولیدشده توسط آن نسبتاً مختصر می باشند (زیر ۴ ثانیه) و خروجی آن واقعگرایی کاملی را اراعه نمیکنند. این چنین این مدل امکان پذیر ویدیوهای بدون حرکت یا با حرکت زیاد آهسته دوربین تشکیل کند و نمیتوان آن را از طریق متن کنترل کرد. بااینحال، این مدل در روزهای اولیه خود قرار دارد، و Stability AI مدعی شده که از آن میتوان در مواردی از جمله تشکیل نمایشهای ۳۶۰ درجهای منفعت گیری کرد.
Stability AI در حال برنامهریزی برای تشکیل مدلهای مختلفی است که روی SVD و SVD-XT ساخته خواهد شد و Stable Video Diffusion کاربردهای بالقوهای در عرصه «تبلیغات، آموزش، سرگرمی و فراتر از آن» خواهد داشت. این شرکت اخیراً ۲۵ میلیون دلار اندوختهگذاری دریافت کرده است تا مجموع اندوختهگذاریهای انجامشده روی آن به بیشتر از ۱۲۵ میلیون دلار برسد.