آخرین بروزرسانی در ۱۳ اسفند ۱۴۰۳ توسط Dr.Arman
در این مقاله کاربردی، به بررسی مدل هوش مصنوعی Wan که در گروه Alibaba (سازنده هوش مصنوعی کوئن Qwen) توسعه یافته و به عنوان یک ابزار جامع و منبع باز در زمینه تولید ویدیو شناخته میشود، خواهیم پرداخت.
هوش مصنوعی ساخت ویدیو Wan چیست؟
وان یک مدل پیشرفته تولید محتوای بصری است که توسط آزمایشگاه Tongyi از گروه Alibaba توسعه یافته است. این مدل قادر است با استفاده از ورودیهایی مانند متن، تصاویر و سیگنالهای کنترلی، ویدئوهایی با کیفیت بالا تولید کند. سری مدلهای Wan2.1 اکنون به صورت کاملاً متنباز (open-source) در دسترس قرار گرفتهاند و به کاربران امکان میدهند تا از قابلیتهای بینظیر آن بهره ببرند. این مدل با شعار “تصورش کن، خلقش کن” (Imagine It, Create It)، نویدبخش تحولی در دنیای تولید محتواست.
ویژگیها و قابلیتهای اصلی هوش مصنوعی Wan2.1
مدل Wan2.1 با بهرهگیری از تکنیکهای نوین و معماریهای پیشرفته، امکانات چندمنظورهای در زمینه تولید ویدیو ارائه میدهد. از مهمترین قابلیتهای این مدل میتوان به موارد زیر اشاره کرد:
- تولید ویدیو از متن (Text-to-Video): امکان تولید ویدیوهای سینمایی با کیفیتهای 480P و 720P تنها با دریافت توضیحات متنی. به عنوان مثال، تولید صحنههای رقص هیپهاپ، مسابقات موتورسیکلت و حتی صحنههای سینمایی زیر آب.
- تولید ویدیو از تصویر (Image-to-Video): استفاده از یک تصویر به عنوان فریم اولیه و تکمیل ویدیو بر اساس توضیحات متنی، که امکان کنترل دقیقتر بر خروجی نهایی را فراهم میکند.
- ویرایش ویدیو و تولید افکتهای متنی بصری: قابلیت افزودن جلوههای بصری و متنی به ویدیو، که میتواند برای ایجاد افکتهای هنری یا تاکید بر جزئیات خاص به کار رود.
- پشتیبانی از تولید چندزبانه: توانایی تولید متن و محتوای بصری به هر دو زبان انگلیسی و چینی، که کاربردهای بینالمللی این مدل را تضمین میکند.
نوآوریهای معماری و فناوریهای بهکار رفته
مدل Wan2.1 بر پایه معماریهای پیشرفته و تکنیکهای نوآورانه طراحی شده است:
- VAE سهبعدی (3D Variational Autoencoder): این معماری به منظور فشردهسازی اطلاعات فضایی-زمانی و کاهش مصرف حافظه به کار میرود. با استفاده از استراتژیهای تقسیمبندی و پردازش چانکی، مدل قادر است ویدیوهای طولانی را بدون ایجاد مشکل حافظه تولید کند.
- دیفیوژن ترنسفورمر (Diffusion Transformer – DiT): استفاده از چارچوب Flow Matching همراه با T5 Encoder برای پردازش متنی، باعث بهبود قابلتوجه عملکرد مدل در درک و تبدیل ورودیهای متنی به نمای بصری شده است. این معماری، از تکنیکهای پیشرفتهای مانند Cross-Attention و Context Parallel بهره میبرد.
- استراتژیهای بهینهسازی مدل: بهکارگیری تکنیکهای مدلشیرینگ (FSDP) و همزمانی (Context Parallel) در حین آموزش و استنتاج، به مدل اجازه میدهد تا در محیطهای سختافزاری متنوع، از جمله GPUهای مصرفی مانند RTX 4090، عملکرد مطلوبی ارائه دهد.
کاربردهای عملی و نمونههای تولیدی
متنهای ورودی و نمونههای تولید شده توسط مدل Wan2.1، نشاندهنده گستره وسیعی از کاربردهای عملی این سیستم هستند. برخی از کاربردهای برجسته عبارتند از:
- صحنههای ورزشی: تولید ویدیوهایی با حرکات بدنی پیچیده نظیر مسابقات موتورسیکلت و مسابقات بوکس با افکتهای بصری دینامیک و زوایای مختلف دوربین.
- تصاویر نوستالژیک و هنری: ایجاد صحنههایی با حس نوستالژیک مانند عکسهای سیپیا تون قدیمی یا صحنههای باروک در قصرهای اروپایی با استفاده از افکتهای نوری و بافتهای دقیق.
- سکانسهای سینمایی و اکشن: تولید صحنههای سینمایی با جلوههای ویژه، از جمله انفجارهای زیر آب، صحنههای تعقیب و گریز و حتی انیمیشنهای 8-بیتی به سبک بازیهای کلاسیک.
- افزودن جلوههای صوتی و موسیقی متن: همگامسازی دقیق افکتهای صوتی و موسیقی زمینه با تصاویر تولید شده، که حس سینمایی و جذابیت بیشتری به خروجی نهایی میبخشد.
ارزیابی عملکرد و مزایای عملی
مدل Wan2.1 از لحاظ کارایی و بهرهوری، عملکردی قابل رقابت با مدلهای بسته و تجاری ارائه میدهد. برخی از نکات کلیدی ارزیابی عبارتند از:
- سرعت تولید: توانایی تولید یک ویدیو 5 ثانیهای با کیفیت 480P در حدود 4 دقیقه بر روی یک GPU پیشرفته مانند RTX 4090.
- بهینهسازی مصرف حافظه: استفاده از استراتژیهای پردازش چانکی و مدلشیرینگ باعث شده تا مدل در محیطهای سختافزاری مصرفی نیز به خوبی عمل کند.
- کیفیت بصری و دقت حرکتی: آزمایشهای داخلی نشان دادهاند که مدل Wan2.1 در ابعاد کیفیت بصری، دقت حرکتی و تنوع سبک، عملکردی حتی فراتر از برخی مدلهای بسته به خود ارائه میدهد.
مدلهای مختلف Wan2.1
چند نسخه مختلف از این مدل وجود دارد:
- Wan2.1-I2V-14B: قادر به تولید ویدئوهای 720P و 480P با کیفیت بسیار بالا.
- Wan2.1-T2V-14B: عملکردی فوقالعاده در تولید ویدئوهای 480P و 720P دارد و میتواند متنهای انگلیسی و چینی را داخل ویدئو نمایش دهد.
- Wan2.1-T2V-1.3B: این مدل تنها به 8.19 گیگابایت VRAM نیاز دارد و میتواند روی کارتهای گرافیک معمولی اجرا شود. در یک کارت گرافیک RTX 4090 میتواند یک ویدئوی 5 ثانیهای 480P را در 4 دقیقه تولید کند.
گزارش فنی نحوه عملکرد
Wan2.1 از روشهای نوین دیفیوژن ترانسفورمر (Diffusion Transformer) و بهینهسازیهای جدیدی مانند کدگذار-رمزگشاهای متغیر سهبعدی (3D Variational Autoencoders) بهره میبرد. این تکنیکها باعث بهبود کیفیت و سرعت تولید ویدئو میشوند.
کدگذار-رمزگشاهای متغیر سهبعدی (3D Variational Autoencoders)
این بخش از مدل برای فشردهسازی بهتر اطلاعات ویدئویی و کاهش میزان حافظه مورد نیاز طراحی شده است.
مدل قادر است ویدئوهای طولانی را بخشبندی کرده و بهصورت قطعهقطعه پردازش کند، که این باعث جلوگیری از پر شدن حافظه کارت گرافیک (VRAM Overflow) میشود.
نتایج آزمایشی نشان میدهد که سرعت بازسازی ویدئو در این مدل ۲.۵ برابر سریعتر از سایر روشهای پیشرفته (SOTA) است.
مدل انتشار ویدئویی (Video Diffusion DiT)
مدل از ترانسفورمر دیفیوژن (Diffusion Transformer) استفاده میکند که بر اساس رمزگذار T5 طراحی شده است.
این مدل دارای قابلیت تعبیه متن چندزبانه است، که امکان دریافت و تولید ویدئو بر اساس متنهای چینی و انگلیسی را فراهم میکند.
نتایج آزمایشی نشان داده است که این روش باعث بهبود قابلتوجه کیفیت ویدئو در مقایسه با مدلهای دیگر میشود.
دادهها (Data)
برای ساخت این هوش مصنوعی، یک مجموعه داده بزرگ شامل ۱.۵ میلیارد ویدئو و ۱۰ میلیارد تصویر را گردآوری و پالایش شد. این دادهها از منابع داخلی دارای حق نشر و همچنین دادههای عمومی در دسترس استخراج شدهاند.
در مرحله پیشآموزش (Pretraining)، هدف انتخاب دادههای باکیفیت و متنوع از این مجموعه عظیم اما دارای نویز است تا مدل بتواند به صورت مؤثر آموزش ببیند.
در فرآیند استخراج دادهها (Data Mining)، ما یک فرآیند چهار مرحلهای پاکسازی دادهها را طراحی کردهایم که بر سه جنبه اصلی تمرکز دارد:
- ابعاد بنیادی دادهها
- کیفیت بصری ویدئوها و تصاویر
- کیفیت حرکتی در ویدئوها
این مراحل باعث میشود که مدل روی دادههای تمیز و مناسب آموزش ببیند و کیفیت خروجی آن به حداکثر برسد.
مقایسه با مدلهای پیشرفته (Comparisons vs SOTA)
برای ارزیابی عملکرد مدل Wan2.1، آن را با بهترین مدلهای متنباز و مدلهای تجاری بسته مقایسه کردهایم.
این مقایسه بر اساس مجموعهای از ۱۰۳۵ تست داخلی انجام شده که شامل ۱۴ معیار اصلی و ۲۶ زیرمعیار است. برخی از این معیارها شامل:
- کیفیت حرکت در ویدئوها
- کیفیت بصری و وضوح تصاویر
- سبک هنری ویدئوها
- توانایی پردازش چندین هدف در یک صحنه
در نهایت، امتیاز نهایی مدل بر اساس میانگین وزنی هر معیار محاسبه شده است تا تأثیر هر معیار بهدرستی در ارزیابی لحاظ شود.
نتایج این تستها نشان میدهد که مدل Wan2.1 در مقایسه با اغلب مدلهای متنباز و تجاری، عملکرد بهتری دارد.
همچنین، کارایی محاسباتی مدلهای مختلف Wan2.1 روی پردازندههای گرافیکی (GPU) مختلف بررسی شده است. نتایج این آزمایشها در قالب مدتزمان کلی اجرا (ثانیه) و بیشترین حافظه مصرفی GPU (گیگابایت) نمایش داده شده است.
به طور کلی، این بررسیها ثابت میکنند که مدل Wan2.1 از نظر کیفیت و بازدهی از بسیاری از مدلهای موجود برتر است:
| Wan-Bench Dimension | CNTopB | CNTopC | Mochi | CNTopA | USTopA | Wan-14B |
| تولید حرکت بزرگ | 0.405 | 0.413 | 0.420 | 0.284 | 0.482 | 0.415 |
| آرتیفکتهای انسانی | 0.712 | 0.734 | 0.622 | 0.833 | 0.786 | 0.691 |
| ثبات در سطح پیکسل | 0.977 | 0.983 | 0.981 | 0.974 | 0.952 | 0.972 |
| سازگاری شناسه | 0.940 | 0.935 | 0.930 | 0.936 | 0.925 | 0.946 |
| قابلیت باورپذیری فیزیکی | 0.836 | 0.898 | 0.728 | 0.759 | 0.933 | 0.939 |
| نرمی و روانی | 0.765 | 0.890 | 0.530 | 0.880 | 0.930 | 0.910 |
| کیفیت جامع تصویر | 0.621 | 0.605 | 0.530 | 0.668 | 0.665 | 0.640 |
| کیفیت تولید صحنه | 0.369 | 0.373 | 0.368 | 0.386 | 0.388 | 0.386 |
| توانایی سبکپردازی | 0.623 | 0.386 | 0.403 | 0.346 | 0.606 | 0.328 |
| دقت شیء منفرد | 0.987 | 0.912 | 0.949 | 0.942 | 0.932 | 0.952 |
| دقت چند شیء | 0.840 | 0.850 | 0.693 | 0.880 | 0.882 | 0.860 |
| دقت موقعیت مکانی | 0.518 | 0.464 | 0.512 | 0.434 | 0.458 | 0.590 |
| کنترل دوربین | 0.465 | 0.406 | 0.605 | 0.529 | 0.380 | 0.527 |
| پیروی از دستورالعملهای عملی | 0.917 | 0.735 | 0.907 | 0.783 | 0.721 | 0.860 |
| امتیاز وزندار | 0.690 | 0.673 | 0.639 | 0.693 | 0.700 | 0.724 |
جمعبندی
هوش مصنوعی Wan2.1 با بهرهگیری از تکنولوژیهای پیشرفتهای نظیر 3D VAE و Diffusion Transformer، گامی بزرگ در راستای تولید ویدیوهای هوشمند و سینمایی برداشته است. این مدل به عنوان یک پلتفرم جامع منبع باز، نه تنها قابلیتهای متنوعی از جمله تولید ویدیو از متن و تصویر، ویرایش دقیق ویدیو و تولید افکتهای بصری و صوتی را فراهم میکند، بلکه با بهینهسازیهای انجام شده امکان استفاده در محیطهای سختافزاری مصرفی را نیز تضمین میکند.
با توجه به مزایا و کاربردهای گستردهای که هوش مصنوعی Wan2.1 ارائه میدهد، این مدل میتواند به عنوان یک ابزار قدرتمند در صنایع مختلف، از تولید محتوا و تبلیغات تا هنرهای تجسمی و سینما، به کار گرفته شود. نوآوریهای به کار رفته در معماری و استراتژیهای بهینهسازی آن، نه تنها مرزهای تولید ویدیو با هوش مصنوعی را گسترش میدهد، بلکه افقهای جدیدی را در خلق آثار هنری و سینمایی به روی پژوهشگران و صنعتگران میگشاید.



مطالب مرتبط