تکنولوژی TTT-Discover؛ وقتی هوش مصنوعی در حین اجرا استاد می‌شود!

امتیاز دهید post

آخرین بروزرسانی در ۱۸ بهمن ۱۴۰۴ توسط Dr.Arman

تصور کنید که در حال حل یک مسئله بسیار پیچیده ریاضی هستید؛ مسئله‌ای که سال‌هاست بهترین متخصصان دنیا را کلافه کرده است. شما به جای اینکه فقط به دانسته‌های قبلی خود تکیه کنید، شروع به امتحان کردن راه‌حل‌های مختلف می‌کنید، از شکست‌هایتان درس می‌گیرید و در همان لحظه، دانش خود را به‌روز می‌کنید. این دقیقاً همان اتفاقی است که در دنیای هوش مصنوعی برنامه‌نویسی رخ داده است؛ جایی که مدل‌ها دیگر فقط «فکر» نمی‌کنند، بلکه در حین پاسخ دادن، آموزش می‌بینند.

فهرست مطالب

چرا پارادایم فعلی هوش مصنوعی به بن‌بست رسیده است؟

می‌دانید بزرگترین مشکل مدل‌های هوش مصنوعی فعلی چیست؟ آن‌ها «منجمد» هستند. چه از چت‌جی‌پی‌تی استفاده کنید و چه از مدل‌های متن‌باز پیشرفته، پارامترهای این مدل‌ها ثابت است. وقتی سؤالی از آن‌ها می‌پرسید، آن‌ها فقط در میان داده‌هایی که قبلاً یاد گرفته‌اند جستجو می‌کنند. این روش برای کارهای روزمره عالی است، اما وقتی پای «کشف» به میان می‌آید، مدل‌های منجمد کم می‌آورند.

کشف واقعی، یعنی اختراع یک الگوریتم کاملاً جدید یا اثبات یک قضیه ریاضی که قبلاً وجود نداشته است. این مسائل طبق تعریف، خارج از توزیع داده‌های آموزشی هستند. اگر راه‌حل به جهشی منطقی نیاز داشته باشد که در داده‌های آموزشی وجود ندارد، مدل‌های فعلی هر چقدر هم که «فکر» کنند، در نهایت شکست می‌خورند. اینجاست که همکاری جدید استنفورد، انویدیا و Together AI وارد بازی می‌شود تا قوانین را تغییر دهد.

داستان اندرو وایلز و درس بزرگی که به ماشین‌ها داد

مرت یوکسک‌گونول، یکی از نویسندگان این مقاله از دانشگاه استنفورد، مثال جالبی می‌زند. او به اندرو وایلز اشاره می‌کند، ریاضیدانی که «قضیه آخر فرما» را پس از ۳۰۰ سال حل کرد. وایلز ۷ سال در انزوا روی این مسئله کار کرد. او بارها شکست خورد، از اشتباهاتش درس گرفت و دانش خود را در حین مسیر تکمیل کرد. یوکسک‌گونول معتقد است بدون این فرآیند یادگیری مداوم، حتی باهوش‌ترین انسان‌ها هم نمی‌توانستند چنین کشفی کنند.

تکنیک جدید آن‌ها که TTT-Discover نام دارد، با مسئله نه به عنوان یک پرسش ساده، بلکه به عنوان محیطی برای «تسلط» برخورد می‌کند. در این روش، مدل در حالی که سعی می‌کند مسئله را حل کند، داده تولید می‌کند؛ داده‌هایی از شکست‌ها، موفقیت‌های جزئی و خطاها. مدل به جای دور ریختن این اطلاعات، از آن‌ها برای به‌روزرسانی وزن‌های خود در لحظه استفاده می‌کند. این یعنی مدل تمام تمرکز خود را روی آن چالش خاص لیزر می‌کند.

تکنولوژی TTT-Discover چطور کار می‌کند؟

این سیستم با یادگیری تقویت‌شده (RL) استاندارد متفاوت است. در RL معمولی، هدف ساختن مدلی است که در همه کارها به طور متوسط خوب باشد. اما در TTT-Discover، هدف فقط و فقط پیدا کردن بهترین راه برای یک مسئله خاص است. وقتی مدل به آن کد بهینه یا فرمول شیمیایی جدید دست پیدا کرد، خود شبکه عصبی که آن را تولید کرده می‌تواند دور انداخته شود؛ چون ما به «نتیجه» رسیده‌ایم.

برای رسیدن به این هدف، محققان دو جزء کلیدی طراحی کرده‌اند. اولی «هدف آنتروپیک» نام دارد. برخورد این سیستم با ریسک برعکس مدل‌های معمولی است. مدل‌های عادی برای مسیرهای خطرناک تنبیه می‌شوند، اما TTT-Discover به دنبال «Eureka» یا همان لحظات یافتم-یافتم است. این سیستم به شدت به دنبال راه‌حل‌های پرت و نایابی می‌گردد که احتمال پیدا شدنشان کم است اما پاداش عظیمی دارند.

جستجوی درختی؛ وقتی ماشین‌ها شطرنج‌باز می‌شوند

دومین جزء، الگوریتم جستجوی PUCT است که از آلفازیرو (AlphaZero) الهام گرفته شده. این سیستم مسیرهای مختلف را بررسی می‌کند و مجموعه‌ای از تلاش‌ها را می‌سازد. مدل در زمان واقعی روی این داده‌ها آموزش می‌بیند تا بفهمد کدام گام‌های کوچک به نتایج بزرگ منجر می‌شوند. البته یک شرط مهم وجود دارد: این روش زمانی بهتر عمل می‌کند که سیگنال پاداش پیوسته باشد.

یعنی شما باید بتوانید پیشرفت را اندازه‌گیری کنید؛ مثلاً بگویید «سرعت اجرای این کد ۵ میکروثانیه بهتر شد». این سیگنال‌های کوچک به مدل اجازه می‌دهند تا مثل یک ردیاب، بوی موفقیت را دنبال کند و به تدریج به راه‌حل بهینه برسد. این همان رازی است که باعث شد این مدل بتواند هسته‌های پردازشی GPU را ۲ برابر سریع‌تر از نسخه‌های نوشته شده توسط نوابغ انسانی بهینه کند.

اقتصاد هوش مصنوعی سنگین: ۵۰۰ دلار برای یک پاسخ!

احتمالاً عادت کرده‌اید که برای هر بار استفاده از API هوش مصنوعی، کسری از سنت بپردازید. اما TTT-Discover این بازی را تغییر می‌دهد. در آزمایش‌های انجام شده، هر بار تلاش برای کشف یک راه‌حل حدود ۵۰۰ دلار هزینه داشته است. شاید در نگاه اول گران به نظر برسد، اما بیایید از زاویه دیگری نگاه کنیم. اگر شما یک خط لوله داده عظیم داشته باشید که سالانه میلیون‌ها دلار هزینه پردازش دارد، بهینه‌سازی فقط ۱ درصدی آن کد می‌تواند صدها هزار دلار صرفه‌جویی به همراه داشته باشد.

بنابراین، هزینه ۵۰۰ دلاری برای یافتن کدی که ۵۰ درصد سریع‌تر است، یک سرمایه‌گذاری بی‌نهایت سودآور است. این تکنولوژی برای مسائل «کم‌تکرار اما پرارزش» ساخته شده است. چیزهایی مثل طراحی دارو، کشف مواد جدید یا مسیریابی زنجیره تأمین که یک بار کشف درست در آن‌ها، ارزش هزینه‌های محاسباتی سنگین را دارد. در واقع ما در حال تبدیل کردن قدرت پردازشی به یک آزمایشگاه تحقیق و توسعه خودکار هستیم.

پیاده‌سازی در دنیای واقعی: خبر خوب برای شرکت‌ها

یکی از هیجان‌انگیزترین بخش‌های این تحقیق این است که TTT-Discover به مدل‌های انحصاری و گران‌قیمت نیازی ندارد. محققان این نتایج خیره‌کننده را با استفاده از مدل متن‌باز OpenAI (gpt-oss-120b) به دست آورده‌اند. این یعنی شرکت‌ها می‌توانند این چرخه کشف را به طور کامل درون سرورهای امن خودشان اجرا کنند، بدون اینکه نگران نشت داده‌های محرمانه به سرورهای شرکت‌های ثالث باشند.

اگر شرکتی از قبل زیرساخت‌های یادگیری تقویت‌شده را داشته باشد، برای اجرای TTT-Discover به هیچ تجهیزات اضافه‌ای نیاز ندارد. حتی ابزارهایی مثل Tinker API عرضه شده‌اند تا پیچیدگی‌های مدیریت آموزش توزیع‌شده را برای تیم‌ها ساده کنند. این یعنی مانع اصلی برای ورود به این دنیای جدید، دیگر دانش فنی پیچیده نیست، بلکه شناسایی همان «مسائل میلیون دلاری» است که ارزش این حجم از پردازش را دارند.

آینده؛ از تقلید تا اختراع واقعی

تا به امروز، ما از هوش مصنوعی می‌خواستیم که مثل ما بنویسد یا مثل ما کد بزند. اما TTT-Discover نشان داد که ماشین‌ها می‌توانند از محدودیت‌های انسانی فراتر بروند. وقتی این مدل توانست در بهینه‌سازی هسته‌های گرافیکی TriMul (که در AlphaFold استفاده می‌شود) رکورد انسان‌ها را بشکند، ثابت کرد که آینده هوش مصنوعی در «تقلید» نیست، بلکه در «اختراع» است.

در نهایت، باید بدانیم که این ابزار برای همه چیز نیست. کارهای کیفی مثل «نوشتن یک استراتژی بازاریابی بهتر» هنوز برای این سیستم سخت است، چون معیار دقیقی برای اندازه‌گیری پیشرفت ندارند. اما برای مهندسی، تدارکات و علوم پایه، ما وارد عصری شده‌ایم که در آن مدل‌های هوش مصنوعی در حین حل مسئله، هوشمندتر می‌شوند و راه‌حل‌هایی را می‌بینند که چشمان ما هرگز قادر به دیدنشان نبود. آیا شما هم مسئله‌ای دارید که حل کردنش ارزش یک سرمایه‌گذاری ۵۰۰ دلاری را داشته باشد؟

منبع:

https://venturebeat.com/infrastructure/ttt-discover-optimizes-gpu-kernels-2x-faster-than-human-experts-by-training