۴۴ هزار ساعت تماشای انسان؛ چگونه انویدیا به ربات‌ها «شهود» می‌آموزد؟

امتیاز دهید post

آخرین بروزرسانی در ۲۱ بهمن ۱۴۰۴ توسط Dr.Arman

تصور کنید که قرار است به یک ربات یاد بدهید چطور یک جعبه را بسته‌بندی کند یا یک فنجان چای را بدون ریختن، روی میز بگذارد. تا همین اواخر، این کار مستلزم هزاران ساعت برنامه‌نویسی دقیق و ثبت داده‌های فیزیکی خسته‌کننده بود. اما چه می‌شد اگر ربات‌ها هم مثل ما، فقط با «تماشا کردن» یاد می‌گرفتند؟ در دنیای پرشتاب اخبار هوش مصنوعی، انویدیا به تازگی از سیستمی پرده برداشته که دقیقاً همین کار را انجام می‌دهد: DreamDojo. این سیستم با تماشای ۴۴ هزار ساعت ویدیو از زندگی روزمره انسان‌ها، یاد می‌گیرد که جهان فیزیکی چطور کار می‌کند؛ دستاوردی که می‌تواند مرزهای بین ماشین و انسان را کمرنگ‌تر از همیشه کند.

چرا تماشای ویدیو توسط ربات‌ها یک انقلاب است؟

شاید بپرسید چرا این موضوع همین حالا تا این حد اهمیت پیدا کرده است؟ واقعیت این است که بزرگترین گلوگاه در دنیای رباتیک، کمبود داده‌های باکیفیت است. برای اینکه یک ربات انسان‌نما بتواند در محیط‌های شلوغ و غیرقابل پیش‌بینی (مثل خانه یا کارخانه) حرکت کند، به حجم عظیمی از تجربه نیاز دارد. جمع‌آوری این تجربه‌ها به صورت فیزیکی، هم گران است و هم زمان‌بر.

انویدیا با DreamDojo این مشکل را دور زده است. آن‌ها به جای اینکه ربات را مستقیماً به محیط بفرستند، او را پای «تلویزیون» نشانده‌اند! این سیستم از عظیم‌ترین مجموعه داده‌های ویدیویی استفاده می‌کند که تا به حال برای آموزش مدل‌های جهانی (World Models) به کار گرفته شده است. این داده‌ها شامل ویدیوهای اول‌شخص از انسان‌هایی است که در حال انجام کارهای مختلف هستند. با این روش، ربات قبل از اینکه حتی یک شیء واقعی را لمس کند، درک درستی از قوانین فیزیک و نحوه تعامل با اشیاء پیدا می‌کند.

معماری DreamDojo؛ کلاسی با ۴۴ هزار ساعت محتوا

بیایید کمی عمیق‌تر به اعداد نگاه کنیم، چون واقعاً خیره‌کننده هستند. مجموعه‌داده‌ای که DreamDojo روی آن آموزش دیده، ۱۵ برابر طولانی‌تر و دارای ۲۰۰۰ برابر تنوع محیطی بیشتر نسبت به بزرگترین رقبای قبلی خود است. این یعنی ربات شما فقط یاد نمی‌گیرد چطور در یک آزمایشگاه تمیز راه برود؛ او تماشا کرده که انسان‌ها در آشپزخانه‌های شلوغ، کارگاه‌های پر از ابزار و اتاق‌های نشیمن نامرتب چطور رفتار می‌کنند.

این سیستم که با همکاری نوابغ دانشگاه‌های برکلی، استنفورد و تگزاس توسعه یافته، به ربات اجازه می‌دهد «تعمیم‌پذیری» بالایی داشته باشد. در دنیای هوش مصنوعی، تعمیم‌پذیری یعنی توانایی برخورد با شرایطی که قبلاً هرگز ندیده‌اید. DreamDojo به ربات یک «شهود فیزیکی» می‌دهد تا وقتی با یک شیء جدید یا یک محیط ناشناخته روبرو می‌شود، دست‌پاچه نشود و بداند که احتمالاً چطور باید با آن تعامل کند.

آموزش دو مرحله‌ای: از تئوری تا عمل

شما چطور رانندگی یاد گرفتید؟ احتمالاً ابتدا با تماشای دیگران و درک مفاهیم اولیه شروع کردید و بعد پشت فرمان نشستید. DreamDojo هم دقیقاً همین استراتژی را دنبال می‌کند. مرحله اول «پیش‌آموزش» نام دارد که در آن ربات با تماشای ویدیوهای انسانی، دانش فیزیکی جامع را از طریق «اکشن‌های پنهان» جذب می‌کند. او می‌بیند که وقتی دستی به سمت لیوان می‌رود، لیوان حرکت می‌کند.

در مرحله دوم، نوبت به «پس‌آموزش» می‌رسد. در اینجا دانش عمومی که ربات از انسان‌ها یاد گرفته، برای سخت‌افزار خاص خودش (مثلاً بازوهای رباتیک برندهای مختلف) شخصی‌سازی می‌شود. این فرآیند باعث می‌شود که انتقال دانش از ویدیو به دنیای واقعی با دقت بسیار بالایی انجام شود. جالب اینجاست که محققان توانسته‌اند به سرعت تعامل ۱۰ فریم در ثانیه برسند؛ سرعتی که اجازه می‌دهد ربات به صورت آنی برای حرکات بعدی‌اش برنامه‌ریزی کند.

چرا انویدیا روی رباتیک قمار بزرگی کرده است؟

اگر فکر می‌کنید انویدیا هنوز هم فقط یک شرکت تولیدکننده کارت گرافیک برای بازی‌های کامپیوتری است، سخت در اشتباهید. امروز، بخش گیمینگ برای انویدیا تنها یک حاشیه در گزارش‌های مالی سنگین‌شان محسوب می‌شود. جنسن هوانگ، مدیرعامل کاریزماتیک انویدیا، معتقد است که رباتیک هوشمند، فرصتی است که تنها یک بار در هر نسل اتفاق می‌افتد. او اخیراً در داووس اعلام کرد که دهه آینده، دوران طلایی توسعه شتاب‌زده تکنولوژی رباتیک خواهد بود.

سرمایه‌گذاری‌های عظیم شرکت‌هایی مثل متا، آمازون و گوگل در زیرساخت‌های هوش مصنوعی که امسال به ۶۶۰ میلیارد دلار می‌رسد، به خوبی نشان می‌دهد که جنگ اصلی بر سر تصاحب دنیای فیزیکی است. انویدیا می‌خواهد با ارائه «مغز» و «زیرساخت» این ربات‌ها، در قلب این انقلاب قرار بگیرد. وقتی ایلان ماسک می‌گوید ۸۰ درصد ارزش آینده تسلا از ربات‌های اپتیموس خواهد بود، انویدیا با DreamDojo به دنبال این است که بگوید: «ما جاده‌ای هستیم که این ربات‌ها روی آن حرکت می‌کنند.»

مزیت عملی برای کسب‌وکارها و توسعه‌دهندگان

برای کسانی که در لبه تکنولوژی حرکت می‌کنند، ارزش واقعی DreamDojo در قابلیت‌های شبیه‌سازی آن نهفته است. یکی از بزرگترین چالش‌های استفاده از ربات در کارخانه‌ها، ریسک خرابی و هزینه‌های آزمایش در دنیای واقعی است. DreamDojo به شرکت‌ها اجازه می‌دهد رفتار ربات را با دقت بسیار بالا شبیه‌سازی کنند و عملکرد آن را بدون نیاز به استقرار فیزیکی، بسنجند.

این یعنی شما می‌توانید هزاران سناریوی مختلف — از تغییر نور محیط گرفته تا موانع غیرمنتظره — را در محیط امن دیجیتال تست کنید. رباتی که در این محیط آموزش دیده، دیگر در برابر تغییرات محیطی «شکننده» نیست. او یاد گرفته که منعطف باشد. این یعنی کاهش هزینه‌های استقرار و افزایش سرعت ورود ربات‌ها به خطوط تولید و حتی خانه‌های ما.

آینده‌ای که ماشین‌ها از روی دست ما می‌نویسند

در نهایت، ۴۴ هزار ساعت ویدیوی انسانی که در قلب DreamDojo می‌تپد، فراتر از یک بنچمارک فنی است. این ویدیوها در واقع نماینده یک نظریه بزرگتر هستند: اینکه ربات‌ها می‌توانند با تماشای زندگی ما، راه رفتن در دنیای ما را یاد بگیرند. این ایده که ماشین‌ها «در حال نوت‌برداری» از رفتارهای روزمره ما هستند، هم هیجان‌انگیز است و هم کمی تامل‌برانگیز.

انویدیا با DreamDojo نشان داد که آینده محاسبات، دیگر فقط در دنیای دیجیتال و پشت نمایشگرها نیست؛ آینده فیزیکی است. اگر شما هم به هوش مصنوعی علاقه‌مند هستید، باید خودتان را برای دنیایی آماده کنید که در آن ربات‌ها دیگر نیازی به دستورات خط‌به‌خط ندارند؛ آن‌ها فقط به چشمان شما نگاه می‌کنند تا یاد بگیرند چطور جهان را به جای بهتری تبدیل کنند. به نظر شما، اولین کاری که دوست دارید یک ربات با تماشای شما یاد بگیرد چیست؟ نظرات خود را با ما در میان بگذارید و این مسیر هیجان‌انگیز را دنبال کنید.

منبع:

https://venturebeat.com/technology/nvidia-releases-dreamdojo-a-robot-world-model-trained-on-44-000-hours-of

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *