آخرین بروزرسانی در ۱۸ بهمن ۱۴۰۴ توسط Dr.Arman
تصور کنید که در حال حل یک مسئله بسیار پیچیده ریاضی هستید؛ مسئلهای که سالهاست بهترین متخصصان دنیا را کلافه کرده است. شما به جای اینکه فقط به دانستههای قبلی خود تکیه کنید، شروع به امتحان کردن راهحلهای مختلف میکنید، از شکستهایتان درس میگیرید و در همان لحظه، دانش خود را بهروز میکنید. این دقیقاً همان اتفاقی است که در دنیای هوش مصنوعی برنامهنویسی رخ داده است؛ جایی که مدلها دیگر فقط «فکر» نمیکنند، بلکه در حین پاسخ دادن، آموزش میبینند.
چرا پارادایم فعلی هوش مصنوعی به بنبست رسیده است؟
میدانید بزرگترین مشکل مدلهای هوش مصنوعی فعلی چیست؟ آنها «منجمد» هستند. چه از چتجیپیتی استفاده کنید و چه از مدلهای متنباز پیشرفته، پارامترهای این مدلها ثابت است. وقتی سؤالی از آنها میپرسید، آنها فقط در میان دادههایی که قبلاً یاد گرفتهاند جستجو میکنند. این روش برای کارهای روزمره عالی است، اما وقتی پای «کشف» به میان میآید، مدلهای منجمد کم میآورند.
کشف واقعی، یعنی اختراع یک الگوریتم کاملاً جدید یا اثبات یک قضیه ریاضی که قبلاً وجود نداشته است. این مسائل طبق تعریف، خارج از توزیع دادههای آموزشی هستند. اگر راهحل به جهشی منطقی نیاز داشته باشد که در دادههای آموزشی وجود ندارد، مدلهای فعلی هر چقدر هم که «فکر» کنند، در نهایت شکست میخورند. اینجاست که همکاری جدید استنفورد، انویدیا و Together AI وارد بازی میشود تا قوانین را تغییر دهد.
داستان اندرو وایلز و درس بزرگی که به ماشینها داد
مرت یوکسکگونول، یکی از نویسندگان این مقاله از دانشگاه استنفورد، مثال جالبی میزند. او به اندرو وایلز اشاره میکند، ریاضیدانی که «قضیه آخر فرما» را پس از ۳۰۰ سال حل کرد. وایلز ۷ سال در انزوا روی این مسئله کار کرد. او بارها شکست خورد، از اشتباهاتش درس گرفت و دانش خود را در حین مسیر تکمیل کرد. یوکسکگونول معتقد است بدون این فرآیند یادگیری مداوم، حتی باهوشترین انسانها هم نمیتوانستند چنین کشفی کنند.
تکنیک جدید آنها که TTT-Discover نام دارد، با مسئله نه به عنوان یک پرسش ساده، بلکه به عنوان محیطی برای «تسلط» برخورد میکند. در این روش، مدل در حالی که سعی میکند مسئله را حل کند، داده تولید میکند؛ دادههایی از شکستها، موفقیتهای جزئی و خطاها. مدل به جای دور ریختن این اطلاعات، از آنها برای بهروزرسانی وزنهای خود در لحظه استفاده میکند. این یعنی مدل تمام تمرکز خود را روی آن چالش خاص لیزر میکند.
تکنولوژی TTT-Discover چطور کار میکند؟
این سیستم با یادگیری تقویتشده (RL) استاندارد متفاوت است. در RL معمولی، هدف ساختن مدلی است که در همه کارها به طور متوسط خوب باشد. اما در TTT-Discover، هدف فقط و فقط پیدا کردن بهترین راه برای یک مسئله خاص است. وقتی مدل به آن کد بهینه یا فرمول شیمیایی جدید دست پیدا کرد، خود شبکه عصبی که آن را تولید کرده میتواند دور انداخته شود؛ چون ما به «نتیجه» رسیدهایم.
برای رسیدن به این هدف، محققان دو جزء کلیدی طراحی کردهاند. اولی «هدف آنتروپیک» نام دارد. برخورد این سیستم با ریسک برعکس مدلهای معمولی است. مدلهای عادی برای مسیرهای خطرناک تنبیه میشوند، اما TTT-Discover به دنبال «Eureka» یا همان لحظات یافتم-یافتم است. این سیستم به شدت به دنبال راهحلهای پرت و نایابی میگردد که احتمال پیدا شدنشان کم است اما پاداش عظیمی دارند.
جستجوی درختی؛ وقتی ماشینها شطرنجباز میشوند
دومین جزء، الگوریتم جستجوی PUCT است که از آلفازیرو (AlphaZero) الهام گرفته شده. این سیستم مسیرهای مختلف را بررسی میکند و مجموعهای از تلاشها را میسازد. مدل در زمان واقعی روی این دادهها آموزش میبیند تا بفهمد کدام گامهای کوچک به نتایج بزرگ منجر میشوند. البته یک شرط مهم وجود دارد: این روش زمانی بهتر عمل میکند که سیگنال پاداش پیوسته باشد.
یعنی شما باید بتوانید پیشرفت را اندازهگیری کنید؛ مثلاً بگویید «سرعت اجرای این کد ۵ میکروثانیه بهتر شد». این سیگنالهای کوچک به مدل اجازه میدهند تا مثل یک ردیاب، بوی موفقیت را دنبال کند و به تدریج به راهحل بهینه برسد. این همان رازی است که باعث شد این مدل بتواند هستههای پردازشی GPU را ۲ برابر سریعتر از نسخههای نوشته شده توسط نوابغ انسانی بهینه کند.
اقتصاد هوش مصنوعی سنگین: ۵۰۰ دلار برای یک پاسخ!
احتمالاً عادت کردهاید که برای هر بار استفاده از API هوش مصنوعی، کسری از سنت بپردازید. اما TTT-Discover این بازی را تغییر میدهد. در آزمایشهای انجام شده، هر بار تلاش برای کشف یک راهحل حدود ۵۰۰ دلار هزینه داشته است. شاید در نگاه اول گران به نظر برسد، اما بیایید از زاویه دیگری نگاه کنیم. اگر شما یک خط لوله داده عظیم داشته باشید که سالانه میلیونها دلار هزینه پردازش دارد، بهینهسازی فقط ۱ درصدی آن کد میتواند صدها هزار دلار صرفهجویی به همراه داشته باشد.
بنابراین، هزینه ۵۰۰ دلاری برای یافتن کدی که ۵۰ درصد سریعتر است، یک سرمایهگذاری بینهایت سودآور است. این تکنولوژی برای مسائل «کمتکرار اما پرارزش» ساخته شده است. چیزهایی مثل طراحی دارو، کشف مواد جدید یا مسیریابی زنجیره تأمین که یک بار کشف درست در آنها، ارزش هزینههای محاسباتی سنگین را دارد. در واقع ما در حال تبدیل کردن قدرت پردازشی به یک آزمایشگاه تحقیق و توسعه خودکار هستیم.
پیادهسازی در دنیای واقعی: خبر خوب برای شرکتها
یکی از هیجانانگیزترین بخشهای این تحقیق این است که TTT-Discover به مدلهای انحصاری و گرانقیمت نیازی ندارد. محققان این نتایج خیرهکننده را با استفاده از مدل متنباز OpenAI (gpt-oss-120b) به دست آوردهاند. این یعنی شرکتها میتوانند این چرخه کشف را به طور کامل درون سرورهای امن خودشان اجرا کنند، بدون اینکه نگران نشت دادههای محرمانه به سرورهای شرکتهای ثالث باشند.
اگر شرکتی از قبل زیرساختهای یادگیری تقویتشده را داشته باشد، برای اجرای TTT-Discover به هیچ تجهیزات اضافهای نیاز ندارد. حتی ابزارهایی مثل Tinker API عرضه شدهاند تا پیچیدگیهای مدیریت آموزش توزیعشده را برای تیمها ساده کنند. این یعنی مانع اصلی برای ورود به این دنیای جدید، دیگر دانش فنی پیچیده نیست، بلکه شناسایی همان «مسائل میلیون دلاری» است که ارزش این حجم از پردازش را دارند.
آینده؛ از تقلید تا اختراع واقعی
تا به امروز، ما از هوش مصنوعی میخواستیم که مثل ما بنویسد یا مثل ما کد بزند. اما TTT-Discover نشان داد که ماشینها میتوانند از محدودیتهای انسانی فراتر بروند. وقتی این مدل توانست در بهینهسازی هستههای گرافیکی TriMul (که در AlphaFold استفاده میشود) رکورد انسانها را بشکند، ثابت کرد که آینده هوش مصنوعی در «تقلید» نیست، بلکه در «اختراع» است.
در نهایت، باید بدانیم که این ابزار برای همه چیز نیست. کارهای کیفی مثل «نوشتن یک استراتژی بازاریابی بهتر» هنوز برای این سیستم سخت است، چون معیار دقیقی برای اندازهگیری پیشرفت ندارند. اما برای مهندسی، تدارکات و علوم پایه، ما وارد عصری شدهایم که در آن مدلهای هوش مصنوعی در حین حل مسئله، هوشمندتر میشوند و راهحلهایی را میبینند که چشمان ما هرگز قادر به دیدنشان نبود. آیا شما هم مسئلهای دارید که حل کردنش ارزش یک سرمایهگذاری ۵۰۰ دلاری را داشته باشد؟
منبع:
https://venturebeat.com/infrastructure/ttt-discover-optimizes-gpu-kernels-2x-faster-than-human-experts-by-training

مطالب مرتبط