پایان فراموشی هوش مصنوعی؛ تکنیک جدید MIT برای یادگیری دائمی

5/5 - (1 امتیاز)

آخرین بروزرسانی در ۲۳ بهمن ۱۴۰۴ توسط Dr.Arman

تصور کنید یک کارمند نابغه استخدام کرده‌اید که هر روز یک مهارت جدید یاد می‌گیرد، اما به محض اینکه روش نوشتن گزارش‌های مالی را به او می‌آموزید، ناگهان فراموش می‌کند چطور باید ایمیل‌های اداری ساده بنویسد. این دقیقاً همان چالشی است که دنیای اخبار تکنولوژی آن را «فراموشی فاجعه‌بار» در مدل‌های زبانی بزرگ (LLM) می‌نامد؛ مشکلی که تا همین اواخر، شرکت‌های بزرگ را مجبور می‌کرد برای هر وظیفه کوچک، یک مدل جداگانه و سنگین نگهداری کنند. اما حالا محققان MIT با همکاری آزمایشگاه Improbable AI و دانشگاه ETH زوریخ، راهکاری پیدا کرده‌اند که اجازه می‌دهد هوش مصنوعی مثل یک انسان، مهارت‌های جدید را روی دانش قبلی‌اش انبار کند، بدون اینکه حتی یک بیت از اطلاعات گذشته را از دست بدهد.

فهرست مطالب

چرا این تحول بزرگ در حال حاضر حیاتی است؟

شما احتمالاً دیده‌اید که چقدر سریع مدل‌های جدید وارد بازار می‌شوند، اما حقیقت این است که وقتی یک شرکت می‌خواهد هوش مصنوعی را برای نیازهای خاص خودش (مثلاً پروتکل‌های حقوقی یا محصولات جدیدش) شخصی‌سازی کند، با یک دیوار بلند روبرو می‌شود. اگر مدل را آموزش دهید، دانش عمومی‌اش آسیب می‌بیند؛ اگر آموزش ندهید، مدل در محیط‌های تجاری پویا بی‌مصرف می‌ماند. حل این مشکل به معنای عبور از مدل‌های استاتیک و رسیدن به «یادگیری مستمر» است؛ چیزی که هوش مصنوعی را از یک ابزار ساده به یک همکار واقعی تبدیل می‌کند که همگام با کسب‌وکار شما رشد می‌کند.

وقتی هوش مصنوعی دچار آلزایمر می‌شود

بیایید کمی عمیق‌تر شویم. تا به امروز، دو راه اصلی برای آموزش مدل‌ها وجود داشت: یادگیری تحت نظارت (SFT) و یادگیری تقویت‌شده (RL). در SFT، ما یک مجموعه داده ثابت به مدل می‌دهیم و می‌گوییم «فقط از روی این تقلید کن». مشکل اینجاست که مدل مثل طوطی فقط یاد می‌گیرد و اگر با سوالی خارج از آن داده‌ها روبرو شود، گیج می‌شود و بدتر از آن، دانش قبلی‌اش را پاک می‌کند تا جا برای داده‌های جدید باز شود.

روش RL یا یادگیری تقویت‌شده کمی هوشمندانه‌تر است؛ مدل خودش تلاش می‌کند و اگر درست پاسخ داد، پاداش می‌گیرد. اما یک مشکل بزرگ وجود دارد: چطور می‌خواهید برای نوشتن یک خلاصه جلسه عالی یا یک لایحه حقوقی، فرمول ریاضی «پاداش» بنویسید؟ در دنیای واقعی، بسیاری از مهارت‌ها تابع صفر و یک نیستند. علاوه بر این، اگر مدل هیچ‌چیز درباره یک محصول جدید نداند، هرچقدر هم تلاش کند، هرگز به پاسخ درست نمی‌رسد که بخواهد پاداش بگیرد و یادگیری را شروع کند. اینجاست که روش SDFT وارد بازی می‌شود تا این بن‌بست را بشکند.

معلم و شاگرد: درون قلب SDFT چه می‌گذرد؟

تکنیک جدید محققان MIT که «Fine-tuning خود-تقطیری» (SDFT) نام دارد، از یک ایده درخشان استفاده می‌کند: استفاده از قابلیت «یادگیری در متن» (In-context Learning) که در مدل‌های پیشرفته امروزی وجود دارد. در این روش، یک مدل واحد همزمان دو نقش را ایفا می‌کند. اجازه بدهید با یک مثال ساده توضیح دهم. فرض کنید می‌خواهید به هوش مصنوعی یاد بدهید که چطور به سوالات پیچیده علمی پاسخ دهد.

در نقش اول، ما یک نسخه «منجمد» از مدل داریم که نقش «معلم» را بازی می‌کند. به این معلم، سوال و چند نمونه از پاسخ‌های صحیح داده می‌شود. معلم با نگاه کردن به این نمونه‌ها، منطق پشت پاسخ را کشف می‌کند. در نقش دوم، نسخه «دانشجو» قرار دارد که فقط سوال را می‌بیند (دقیقاً مثل شرایطی که قرار است در دنیای واقعی کار کند). وقتی دانشجو پاسخی می‌دهد، معلم که به پاسخ‌های صحیح دسترسی دارد، به او بازخورد می‌دهد. شاگرد سپس پارامترهای خود را تغییر می‌دهد تا به توزیع دانش معلم نزدیک‌تر شود. این چرخه باعث می‌شود مدل بدون نیاز به پاداش‌های پیچیده ریاضی، از اشتباهات خودش درس بگیرد.

داستان یک آزمایش: فراتر از حفظ کردن طوطی‌وار

تیم تحقیقاتی برای ثابت کردن ادعای خود، مدل متن‌باز Qwen 2.5 را برداشتند و آن را با سه مهارت سخت روبرو کردند: پرسش و پاسخ علمی، استفاده از ابزارهای نرم‌افزاری و استدلال پزشکی. نتایج شگفت‌انگیز بود. در حالی که مدل‌های معمولی پس از یادگیری مهارت‌های علمی، قدرت استدلال عمومی و منطق خود را از دست می‌دادند (نمره‌شان به شدت افت می‌کرد)، مدل آموزش‌دیده با روش SDFT نه تنها در علم قوی‌تر شد، بلکه نمره دانش قبلی خود را در سطح ۶۴.۵ درصد ثابت نگه داشت.

یکی از جالب‌ترین بخش‌های این تحقیق، آزمایش «بلایای طبیعی ۲۰۲۵» بود. آن‌ها مجموعه‌ای از داده‌های ساختگی درباره حوادثی که هنوز اتفاق نیفتاده ایجاد کردند تا ببینند مدل چطور دانش جدید را جذب می‌کند. مدل‌های معمولی فقط فکت‌ها را حفظ کردند، اما وقتی از آن‌ها سوالات استدلالی غیرمستقیم پرسیده شد (مثلاً: با توجه به سیل‌های ۲۰۲۵، کدام کشورها به کمک نیاز دارند؟)، شکست خوردند. اما مدل SDFT با امتیاز خیره‌کننده ۹۸ درصد نشان داد که نه تنها اطلاعات را حفظ کرده، بلکه منطق پشت آن‌ها را هم درک کرده است.

خداحافظی با «باغ‌وحش مدل‌ها» در شرکت‌ها

اگر شما در یک محیط سازمانی کار می‌کنید، می‌دانید که مدیریت ده‌ها مدل مختلف برای بخش‌های مختلف (حقوقی، منابع انسانی، فنی) یک کابوس است. هر مدل نیاز به سرور جداگانه و هزینه‌های گزاف دارد. ایدان شنفلد، یکی از نویسندگان اصلی این مقاله، می‌گوید: «ما توانایی نگهداری تنها یک مدل واحد برای تمام نیازهای شرکت را فراهم می‌کنیم.» این یعنی کاهش شدید هزینه‌های زیرساختی و حذف فرآیندهای بازآموزی گران‌قیمت که هر چند ماه یک‌بار برای اصلاح مدل‌های فراموشکار انجام می‌شد.

البته باید واقع‌بین باشیم؛ این روش بدون هزینه نیست. SDFT حدود ۲.۵ برابر توان پردازشی بیشتری نسبت به روش‌های سنتی نیاز دارد و فرآیند آموزش آن کمی کندتر است، چون مدل باید مدام پاسخ‌های خودش را تولید و بررسی کند. اما وقتی این هزینه را با هزینه از دست رفتن دانش کلیدی شرکت یا نیاز به آموزش مجدد از صفر مقایسه می‌کنید، متوجه می‌شوید که این یک سرمایه‌گذاری کاملاً منطقی است.

آینده در دستان مدل‌های کوچک اما دانا

شاید بپرسید آیا من هم می‌توانم از این تکنیک استفاده کنم؟ پاسخ مثبت است. کدهای SDFT در گیت‌هاب منتشر شده و در حال ادغام با کتابخانه‌های محبوبی مثل Hugging Face است. در حال حاضر، برای اینکه یک مدل بتواند نقش معلم خودش را بازی کند، باید حداقل ۴ میلیارد پارامتر داشته باشد (مثل مدل Qwen 3 4B). اما شنفلد معتقد است که با سرعت فعلی پیشرفت هوش مصنوعی، به زودی حتی مدل‌های کوچک ۱ میلیارد پارامتری که روی گوشی‌های موبایل اجرا می‌شوند هم می‌توانند از این روش برای یادگیری همیشگی استفاده کنند.

هدف نهایی این است که هوش مصنوعی دیگر یک موجود ایستا نباشد که در یک لحظه خاص منجمد شده است. ما به دنبال سیستم‌هایی هستیم که از هر تعامل با کاربر، درس جدیدی بگیرند و هر روز بهتر از دیروز شوند. همان‌طور که شنفلد اشاره می‌کند، بخش بزرگی از پردازش‌های دنیا صرف «استفاده» از هوش مصنوعی می‌شود، نه «آموزش» آن؛ پس چرا از همین انرژی برای هوشمندتر کردن دائمی آن‌ها استفاده نکنیم؟

سخن پایانی: شما و هوش مصنوعی که هرگز فراموش نمی‌کند

در نهایت، SDFT فقط یک الگوریتم جدید نیست؛ بلکه یک تغییر پارادایم در نحوه تعامل ما با ماشین‌هاست. دیگر لازم نیست نگران باشید که با یاد دادن یک موضوع جدید به هوش مصنوعی، توانایی‌های قبلی‌اش را از بین می‌برید. این تکنیک راه را برای ساخت «دستیاران دیجیتال مادام‌العمر» هموار می‌کند که با شما بزرگ می‌شوند و دانش اختصاصی‌تان را حفظ می‌کنند. پیشنهاد می‌کنم اگر توسعه‌دهنده هستید، سری به مخزن گیت‌هاب این پروژه بزنید و اگر علاقه‌مند به این حوزه هستید، منتظر بمانید؛ چون به زودی مدل‌هایی را خواهید دید که هیچ‌گاه از یادگیری خسته نمی‌شوند و هیچ مهارتی را به دست فراموشی نمی‌سپارند.

منبع:

https://venturebeat.com/orchestration/mits-new-fine-tuning-method-lets-llms-learn-new-skills-without-losing-old