آخرین بروزرسانی در ۲۱ بهمن ۱۴۰۴ توسط Dr.Arman
تصور کنید که قرار است به یک ربات یاد بدهید چطور یک جعبه را بستهبندی کند یا یک فنجان چای را بدون ریختن، روی میز بگذارد. تا همین اواخر، این کار مستلزم هزاران ساعت برنامهنویسی دقیق و ثبت دادههای فیزیکی خستهکننده بود. اما چه میشد اگر رباتها هم مثل ما، فقط با «تماشا کردن» یاد میگرفتند؟ در دنیای پرشتاب اخبار هوش مصنوعی، انویدیا به تازگی از سیستمی پرده برداشته که دقیقاً همین کار را انجام میدهد: DreamDojo. این سیستم با تماشای ۴۴ هزار ساعت ویدیو از زندگی روزمره انسانها، یاد میگیرد که جهان فیزیکی چطور کار میکند؛ دستاوردی که میتواند مرزهای بین ماشین و انسان را کمرنگتر از همیشه کند.
چرا تماشای ویدیو توسط رباتها یک انقلاب است؟
شاید بپرسید چرا این موضوع همین حالا تا این حد اهمیت پیدا کرده است؟ واقعیت این است که بزرگترین گلوگاه در دنیای رباتیک، کمبود دادههای باکیفیت است. برای اینکه یک ربات انساننما بتواند در محیطهای شلوغ و غیرقابل پیشبینی (مثل خانه یا کارخانه) حرکت کند، به حجم عظیمی از تجربه نیاز دارد. جمعآوری این تجربهها به صورت فیزیکی، هم گران است و هم زمانبر.
انویدیا با DreamDojo این مشکل را دور زده است. آنها به جای اینکه ربات را مستقیماً به محیط بفرستند، او را پای «تلویزیون» نشاندهاند! این سیستم از عظیمترین مجموعه دادههای ویدیویی استفاده میکند که تا به حال برای آموزش مدلهای جهانی (World Models) به کار گرفته شده است. این دادهها شامل ویدیوهای اولشخص از انسانهایی است که در حال انجام کارهای مختلف هستند. با این روش، ربات قبل از اینکه حتی یک شیء واقعی را لمس کند، درک درستی از قوانین فیزیک و نحوه تعامل با اشیاء پیدا میکند.
معماری DreamDojo؛ کلاسی با ۴۴ هزار ساعت محتوا
بیایید کمی عمیقتر به اعداد نگاه کنیم، چون واقعاً خیرهکننده هستند. مجموعهدادهای که DreamDojo روی آن آموزش دیده، ۱۵ برابر طولانیتر و دارای ۲۰۰۰ برابر تنوع محیطی بیشتر نسبت به بزرگترین رقبای قبلی خود است. این یعنی ربات شما فقط یاد نمیگیرد چطور در یک آزمایشگاه تمیز راه برود؛ او تماشا کرده که انسانها در آشپزخانههای شلوغ، کارگاههای پر از ابزار و اتاقهای نشیمن نامرتب چطور رفتار میکنند.
این سیستم که با همکاری نوابغ دانشگاههای برکلی، استنفورد و تگزاس توسعه یافته، به ربات اجازه میدهد «تعمیمپذیری» بالایی داشته باشد. در دنیای هوش مصنوعی، تعمیمپذیری یعنی توانایی برخورد با شرایطی که قبلاً هرگز ندیدهاید. DreamDojo به ربات یک «شهود فیزیکی» میدهد تا وقتی با یک شیء جدید یا یک محیط ناشناخته روبرو میشود، دستپاچه نشود و بداند که احتمالاً چطور باید با آن تعامل کند.
آموزش دو مرحلهای: از تئوری تا عمل
شما چطور رانندگی یاد گرفتید؟ احتمالاً ابتدا با تماشای دیگران و درک مفاهیم اولیه شروع کردید و بعد پشت فرمان نشستید. DreamDojo هم دقیقاً همین استراتژی را دنبال میکند. مرحله اول «پیشآموزش» نام دارد که در آن ربات با تماشای ویدیوهای انسانی، دانش فیزیکی جامع را از طریق «اکشنهای پنهان» جذب میکند. او میبیند که وقتی دستی به سمت لیوان میرود، لیوان حرکت میکند.
در مرحله دوم، نوبت به «پسآموزش» میرسد. در اینجا دانش عمومی که ربات از انسانها یاد گرفته، برای سختافزار خاص خودش (مثلاً بازوهای رباتیک برندهای مختلف) شخصیسازی میشود. این فرآیند باعث میشود که انتقال دانش از ویدیو به دنیای واقعی با دقت بسیار بالایی انجام شود. جالب اینجاست که محققان توانستهاند به سرعت تعامل ۱۰ فریم در ثانیه برسند؛ سرعتی که اجازه میدهد ربات به صورت آنی برای حرکات بعدیاش برنامهریزی کند.
چرا انویدیا روی رباتیک قمار بزرگی کرده است؟
اگر فکر میکنید انویدیا هنوز هم فقط یک شرکت تولیدکننده کارت گرافیک برای بازیهای کامپیوتری است، سخت در اشتباهید. امروز، بخش گیمینگ برای انویدیا تنها یک حاشیه در گزارشهای مالی سنگینشان محسوب میشود. جنسن هوانگ، مدیرعامل کاریزماتیک انویدیا، معتقد است که رباتیک هوشمند، فرصتی است که تنها یک بار در هر نسل اتفاق میافتد. او اخیراً در داووس اعلام کرد که دهه آینده، دوران طلایی توسعه شتابزده تکنولوژی رباتیک خواهد بود.
سرمایهگذاریهای عظیم شرکتهایی مثل متا، آمازون و گوگل در زیرساختهای هوش مصنوعی که امسال به ۶۶۰ میلیارد دلار میرسد، به خوبی نشان میدهد که جنگ اصلی بر سر تصاحب دنیای فیزیکی است. انویدیا میخواهد با ارائه «مغز» و «زیرساخت» این رباتها، در قلب این انقلاب قرار بگیرد. وقتی ایلان ماسک میگوید ۸۰ درصد ارزش آینده تسلا از رباتهای اپتیموس خواهد بود، انویدیا با DreamDojo به دنبال این است که بگوید: «ما جادهای هستیم که این رباتها روی آن حرکت میکنند.»
مزیت عملی برای کسبوکارها و توسعهدهندگان
برای کسانی که در لبه تکنولوژی حرکت میکنند، ارزش واقعی DreamDojo در قابلیتهای شبیهسازی آن نهفته است. یکی از بزرگترین چالشهای استفاده از ربات در کارخانهها، ریسک خرابی و هزینههای آزمایش در دنیای واقعی است. DreamDojo به شرکتها اجازه میدهد رفتار ربات را با دقت بسیار بالا شبیهسازی کنند و عملکرد آن را بدون نیاز به استقرار فیزیکی، بسنجند.
این یعنی شما میتوانید هزاران سناریوی مختلف — از تغییر نور محیط گرفته تا موانع غیرمنتظره — را در محیط امن دیجیتال تست کنید. رباتی که در این محیط آموزش دیده، دیگر در برابر تغییرات محیطی «شکننده» نیست. او یاد گرفته که منعطف باشد. این یعنی کاهش هزینههای استقرار و افزایش سرعت ورود رباتها به خطوط تولید و حتی خانههای ما.
آیندهای که ماشینها از روی دست ما مینویسند
در نهایت، ۴۴ هزار ساعت ویدیوی انسانی که در قلب DreamDojo میتپد، فراتر از یک بنچمارک فنی است. این ویدیوها در واقع نماینده یک نظریه بزرگتر هستند: اینکه رباتها میتوانند با تماشای زندگی ما، راه رفتن در دنیای ما را یاد بگیرند. این ایده که ماشینها «در حال نوتبرداری» از رفتارهای روزمره ما هستند، هم هیجانانگیز است و هم کمی تاملبرانگیز.
انویدیا با DreamDojo نشان داد که آینده محاسبات، دیگر فقط در دنیای دیجیتال و پشت نمایشگرها نیست؛ آینده فیزیکی است. اگر شما هم به هوش مصنوعی علاقهمند هستید، باید خودتان را برای دنیایی آماده کنید که در آن رباتها دیگر نیازی به دستورات خطبهخط ندارند؛ آنها فقط به چشمان شما نگاه میکنند تا یاد بگیرند چطور جهان را به جای بهتری تبدیل کنند. به نظر شما، اولین کاری که دوست دارید یک ربات با تماشای شما یاد بگیرد چیست؟ نظرات خود را با ما در میان بگذارید و این مسیر هیجانانگیز را دنبال کنید.
منبع:
https://venturebeat.com/technology/nvidia-releases-dreamdojo-a-robot-world-model-trained-on-44-000-hours-of

مطالب مرتبط