هوش مصنوعی Wan یا وان علی‌بابا، ساخت ویدیوی حرفه‌ای، این بار هم چینی و متن باز!

هوش مصنوعی wan علی بابا ساخت ویدیوهای حرفه‌ای بصورت متن باز ai-7.ir 00
5/5 - (3 امتیاز)

آخرین بروزرسانی در ۱۳ اسفند ۱۴۰۳ توسط Dr.Arman

در این مقاله کاربردی، به بررسی مدل هوش مصنوعی Wan که در گروه Alibaba (سازنده هوش مصنوعی کوئن Qwen) توسعه یافته و به عنوان یک ابزار جامع و منبع باز در زمینه تولید ویدیو شناخته می‌شود، خواهیم پرداخت.

هوش مصنوعی ساخت ویدیو Wan چیست؟

وان یک مدل پیشرفته تولید محتوای بصری است که توسط آزمایشگاه Tongyi از گروه Alibaba توسعه یافته است. این مدل قادر است با استفاده از ورودی‌هایی مانند متن، تصاویر و سیگنال‌های کنترلی، ویدئوهایی با کیفیت بالا تولید کند. سری مدل‌های Wan2.1 اکنون به صورت کاملاً متن‌باز (open-source) در دسترس قرار گرفته‌اند و به کاربران امکان می‌دهند تا از قابلیت‌های بی‌نظیر آن بهره ببرند. این مدل با شعار “تصورش کن، خلقش کن” (Imagine It, Create It)، نویدبخش تحولی در دنیای تولید محتواست.

 

ویژگی‌ها و قابلیت‌های اصلی هوش مصنوعی Wan2.1

مدل Wan2.1 با بهره‌گیری از تکنیک‌های نوین و معماری‌های پیشرفته، امکانات چندمنظوره‌ای در زمینه تولید ویدیو ارائه می‌دهد. از مهم‌ترین قابلیت‌های این مدل می‌توان به موارد زیر اشاره کرد:

  • تولید ویدیو از متن (Text-to-Video): امکان تولید ویدیوهای سینمایی با کیفیت‌های 480P و 720P تنها با دریافت توضیحات متنی. به عنوان مثال، تولید صحنه‌های رقص هیپ‌هاپ، مسابقات موتورسیکلت و حتی صحنه‌های سینمایی زیر آب.
  • تولید ویدیو از تصویر (Image-to-Video): استفاده از یک تصویر به عنوان فریم اولیه و تکمیل ویدیو بر اساس توضیحات متنی، که امکان کنترل دقیق‌تر بر خروجی نهایی را فراهم می‌کند.
  • ویرایش ویدیو و تولید افکت‌های متنی بصری: قابلیت افزودن جلوه‌های بصری و متنی به ویدیو، که می‌تواند برای ایجاد افکت‌های هنری یا تاکید بر جزئیات خاص به کار رود.
  • پشتیبانی از تولید چندزبانه: توانایی تولید متن و محتوای بصری به هر دو زبان انگلیسی و چینی، که کاربردهای بین‌المللی این مدل را تضمین می‌کند.

تصویری از ویدیوی ساخته شده با هوش مصنوعی wan ai-7.ir 01

نوآوری‌های معماری و فناوری‌های به‌کار رفته

مدل Wan2.1 بر پایه معماری‌های پیشرفته و تکنیک‌های نوآورانه طراحی شده است:

  1. VAE سه‌بعدی (3D Variational Autoencoder): این معماری به منظور فشرده‌سازی اطلاعات فضایی-زمانی و کاهش مصرف حافظه به کار می‌رود. با استفاده از استراتژی‌های تقسیم‌بندی و پردازش چانکی، مدل قادر است ویدیوهای طولانی را بدون ایجاد مشکل حافظه تولید کند.
  2. دیفیوژن ترنسفورمر (Diffusion Transformer – DiT): استفاده از چارچوب Flow Matching همراه با T5 Encoder برای پردازش متنی، باعث بهبود قابل‌توجه عملکرد مدل در درک و تبدیل ورودی‌های متنی به نمای بصری شده است. این معماری، از تکنیک‌های پیشرفته‌ای مانند Cross-Attention و Context Parallel بهره می‌برد.
  3. استراتژی‌های بهینه‌سازی مدل: به‌کارگیری تکنیک‌های مدل‌شیرینگ (FSDP) و همزمانی (Context Parallel) در حین آموزش و استنتاج، به مدل اجازه می‌دهد تا در محیط‌های سخت‌افزاری متنوع، از جمله GPUهای مصرفی مانند RTX 4090، عملکرد مطلوبی ارائه دهد.

کاربردهای عملی و نمونه‌های تولیدی

متن‌های ورودی و نمونه‌های تولید شده توسط مدل Wan2.1، نشان‌دهنده گستره وسیعی از کاربردهای عملی این سیستم هستند. برخی از کاربردهای برجسته عبارتند از:

  • صحنه‌های ورزشی: تولید ویدیوهایی با حرکات بدنی پیچیده نظیر مسابقات موتورسیکلت و مسابقات بوکس با افکت‌های بصری دینامیک و زوایای مختلف دوربین.
  • تصاویر نوستالژیک و هنری: ایجاد صحنه‌هایی با حس نوستالژیک مانند عکس‌های سیپیا تون قدیمی یا صحنه‌های باروک در قصرهای اروپایی با استفاده از افکت‌های نوری و بافت‌های دقیق.
  • سکانس‌های سینمایی و اکشن: تولید صحنه‌های سینمایی با جلوه‌های ویژه، از جمله انفجارهای زیر آب، صحنه‌های تعقیب و گریز و حتی انیمیشن‌های 8-بیتی به سبک بازی‌های کلاسیک.

تصویری از ویدیوی ساخته شده با هوش مصنوعی wan وان ai-7.ir 02

  • افزودن جلوه‌های صوتی و موسیقی متن: همگام‌سازی دقیق افکت‌های صوتی و موسیقی زمینه با تصاویر تولید شده، که حس سینمایی و جذابیت بیشتری به خروجی نهایی می‌بخشد.

ارزیابی عملکرد و مزایای عملی

مدل Wan2.1 از لحاظ کارایی و بهره‌وری، عملکردی قابل رقابت با مدل‌های بسته و تجاری ارائه می‌دهد. برخی از نکات کلیدی ارزیابی عبارتند از:

  1. سرعت تولید: توانایی تولید یک ویدیو 5 ثانیه‌ای با کیفیت 480P در حدود 4 دقیقه بر روی یک GPU پیشرفته مانند RTX 4090.
  2. بهینه‌سازی مصرف حافظه: استفاده از استراتژی‌های پردازش چانکی و مدل‌شیرینگ باعث شده تا مدل در محیط‌های سخت‌افزاری مصرفی نیز به خوبی عمل کند.
  3. کیفیت بصری و دقت حرکتی: آزمایش‌های داخلی نشان داده‌اند که مدل Wan2.1 در ابعاد کیفیت بصری، دقت حرکتی و تنوع سبک، عملکردی حتی فراتر از برخی مدل‌های بسته به خود ارائه می‌دهد.

مدل‌های مختلف Wan2.1

چند نسخه مختلف از این مدل وجود دارد:

  • Wan2.1-I2V-14B: قادر به تولید ویدئوهای 720P و 480P با کیفیت بسیار بالا.
  • Wan2.1-T2V-14B: عملکردی فوق‌العاده در تولید ویدئوهای 480P و 720P دارد و می‌تواند متن‌های انگلیسی و چینی را داخل ویدئو نمایش دهد.
  • Wan2.1-T2V-1.3B: این مدل تنها به 8.19 گیگابایت VRAM نیاز دارد و می‌تواند روی کارت‌های گرافیک معمولی اجرا شود. در یک کارت گرافیک RTX 4090 می‌تواند یک ویدئوی 5 ثانیه‌ای 480P را در 4 دقیقه تولید کند.

گزارش فنی نحوه عملکرد

Wan2.1 از روش‌های نوین دیفیوژن ترانسفورمر (Diffusion Transformer) و بهینه‌سازی‌های جدیدی مانند کدگذار-رمزگشاهای متغیر سه‌بعدی (3D Variational Autoencoders) بهره می‌برد. این تکنیک‌ها باعث بهبود کیفیت و سرعت تولید ویدئو می‌شوند.

کدگذار-رمزگشاهای متغیر سه‌بعدی (3D Variational Autoencoders)

این بخش از مدل برای فشرده‌سازی بهتر اطلاعات ویدئویی و کاهش میزان حافظه مورد نیاز طراحی شده است.
مدل قادر است ویدئوهای طولانی را بخش‌بندی کرده و به‌صورت قطعه‌قطعه پردازش کند، که این باعث جلوگیری از پر شدن حافظه کارت گرافیک (VRAM Overflow) می‌شود.
نتایج آزمایشی نشان می‌دهد که سرعت بازسازی ویدئو در این مدل ۲.۵ برابر سریع‌تر از سایر روش‌های پیشرفته (SOTA) است.

مدل انتشار ویدئویی (Video Diffusion DiT)

مدل از ترانسفورمر دیفیوژن (Diffusion Transformer) استفاده می‌کند که بر اساس رمزگذار T5 طراحی شده است.
این مدل دارای قابلیت تعبیه متن چندزبانه است، که امکان دریافت و تولید ویدئو بر اساس متن‌های چینی و انگلیسی را فراهم می‌کند.
نتایج آزمایشی نشان داده است که این روش باعث بهبود قابل‌توجه کیفیت ویدئو در مقایسه با مدل‌های دیگر می‌شود.

داده‌ها (Data)

برای ساخت این هوش مصنوعی، یک مجموعه داده بزرگ شامل ۱.۵ میلیارد ویدئو و ۱۰ میلیارد تصویر را گردآوری و پالایش شد. این داده‌ها از منابع داخلی دارای حق نشر و همچنین داده‌های عمومی در دسترس استخراج شده‌اند.
در مرحله پیش‌آموزش (Pretraining)، هدف انتخاب داده‌های باکیفیت و متنوع از این مجموعه عظیم اما دارای نویز است تا مدل بتواند به صورت مؤثر آموزش ببیند.

در فرآیند استخراج داده‌ها (Data Mining)، ما یک فرآیند چهار مرحله‌ای پاک‌سازی داده‌ها را طراحی کرده‌ایم که بر سه جنبه اصلی تمرکز دارد:

  1. ابعاد بنیادی داده‌ها
  2. کیفیت بصری ویدئوها و تصاویر
  3. کیفیت حرکتی در ویدئوها

این مراحل باعث می‌شود که مدل روی داده‌های تمیز و مناسب آموزش ببیند و کیفیت خروجی آن به حداکثر برسد.

مقایسه با مدل‌های پیشرفته (Comparisons vs SOTA)

برای ارزیابی عملکرد مدل Wan2.1، آن را با بهترین مدل‌های متن‌باز و مدل‌های تجاری بسته مقایسه کرده‌ایم.
این مقایسه بر اساس مجموعه‌ای از ۱۰۳۵ تست داخلی انجام شده که شامل ۱۴ معیار اصلی و ۲۶ زیرمعیار است. برخی از این معیارها شامل:

  • کیفیت حرکت در ویدئوها
  • کیفیت بصری و وضوح تصاویر
  • سبک هنری ویدئوها
  • توانایی پردازش چندین هدف در یک صحنه

در نهایت، امتیاز نهایی مدل بر اساس میانگین وزنی هر معیار محاسبه شده است تا تأثیر هر معیار به‌درستی در ارزیابی لحاظ شود.

نتایج این تست‌ها نشان می‌دهد که مدل Wan2.1 در مقایسه با اغلب مدل‌های متن‌باز و تجاری، عملکرد بهتری دارد.

همچنین، کارایی محاسباتی مدل‌های مختلف Wan2.1 روی پردازنده‌های گرافیکی (GPU) مختلف بررسی شده است. نتایج این آزمایش‌ها در قالب مدت‌زمان کلی اجرا (ثانیه) و بیشترین حافظه مصرفی GPU (گیگابایت) نمایش داده شده است.

به طور کلی، این بررسی‌ها ثابت می‌کنند که مدل Wan2.1 از نظر کیفیت و بازدهی از بسیاری از مدل‌های موجود برتر است:

Wan-Bench Dimension CNTopB CNTopC Mochi CNTopA USTopA Wan-14B
تولید حرکت بزرگ 0.405 0.413 0.420 0.284 0.482 0.415
آرتیفکت‌های انسانی 0.712 0.734 0.622 0.833 0.786 0.691
ثبات در سطح پیکسل 0.977 0.983 0.981 0.974 0.952 0.972
سازگاری شناسه 0.940 0.935 0.930 0.936 0.925 0.946
قابلیت باورپذیری فیزیکی 0.836 0.898 0.728 0.759 0.933 0.939
نرمی و روانی 0.765 0.890 0.530 0.880 0.930 0.910
کیفیت جامع تصویر 0.621 0.605 0.530 0.668 0.665 0.640
کیفیت تولید صحنه 0.369 0.373 0.368 0.386 0.388 0.386
توانایی سبک‌پردازی 0.623 0.386 0.403 0.346 0.606 0.328
دقت شیء منفرد 0.987 0.912 0.949 0.942 0.932 0.952
دقت چند شیء 0.840 0.850 0.693 0.880 0.882 0.860
دقت موقعیت مکانی 0.518 0.464 0.512 0.434 0.458 0.590
کنترل دوربین 0.465 0.406 0.605 0.529 0.380 0.527
پیروی از دستورالعمل‌های عملی 0.917 0.735 0.907 0.783 0.721 0.860
امتیاز وزن‌دار 0.690 0.673 0.639 0.693 0.700 0.724

جمع‌بندی

هوش مصنوعی Wan2.1 با بهره‌گیری از تکنولوژی‌های پیشرفته‌ای نظیر 3D VAE و Diffusion Transformer، گامی بزرگ در راستای تولید ویدیوهای هوشمند و سینمایی برداشته است. این مدل به عنوان یک پلتفرم جامع منبع باز، نه تنها قابلیت‌های متنوعی از جمله تولید ویدیو از متن و تصویر، ویرایش دقیق ویدیو و تولید افکت‌های بصری و صوتی را فراهم می‌کند، بلکه با بهینه‌سازی‌های انجام شده امکان استفاده در محیط‌های سخت‌افزاری مصرفی را نیز تضمین می‌کند.

با توجه به مزایا و کاربردهای گسترده‌ای که هوش مصنوعی Wan2.1 ارائه می‌دهد، این مدل می‌تواند به عنوان یک ابزار قدرتمند در صنایع مختلف، از تولید محتوا و تبلیغات تا هنرهای تجسمی و سینما، به کار گرفته شود. نوآوری‌های به کار رفته در معماری و استراتژی‌های بهینه‌سازی آن، نه تنها مرزهای تولید ویدیو با هوش مصنوعی را گسترش می‌دهد، بلکه افق‌های جدیدی را در خلق آثار هنری و سینمایی به روی پژوهشگران و صنعتگران می‌گشاید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *