آخرین بروزرسانی در ۲۳ بهمن ۱۴۰۴ توسط Dr.Arman
تصور کنید یک کارمند نابغه استخدام کردهاید که هر روز یک مهارت جدید یاد میگیرد، اما به محض اینکه روش نوشتن گزارشهای مالی را به او میآموزید، ناگهان فراموش میکند چطور باید ایمیلهای اداری ساده بنویسد. این دقیقاً همان چالشی است که دنیای اخبار تکنولوژی آن را «فراموشی فاجعهبار» در مدلهای زبانی بزرگ (LLM) مینامد؛ مشکلی که تا همین اواخر، شرکتهای بزرگ را مجبور میکرد برای هر وظیفه کوچک، یک مدل جداگانه و سنگین نگهداری کنند. اما حالا محققان MIT با همکاری آزمایشگاه Improbable AI و دانشگاه ETH زوریخ، راهکاری پیدا کردهاند که اجازه میدهد هوش مصنوعی مثل یک انسان، مهارتهای جدید را روی دانش قبلیاش انبار کند، بدون اینکه حتی یک بیت از اطلاعات گذشته را از دست بدهد.
چرا این تحول بزرگ در حال حاضر حیاتی است؟
شما احتمالاً دیدهاید که چقدر سریع مدلهای جدید وارد بازار میشوند، اما حقیقت این است که وقتی یک شرکت میخواهد هوش مصنوعی را برای نیازهای خاص خودش (مثلاً پروتکلهای حقوقی یا محصولات جدیدش) شخصیسازی کند، با یک دیوار بلند روبرو میشود. اگر مدل را آموزش دهید، دانش عمومیاش آسیب میبیند؛ اگر آموزش ندهید، مدل در محیطهای تجاری پویا بیمصرف میماند. حل این مشکل به معنای عبور از مدلهای استاتیک و رسیدن به «یادگیری مستمر» است؛ چیزی که هوش مصنوعی را از یک ابزار ساده به یک همکار واقعی تبدیل میکند که همگام با کسبوکار شما رشد میکند.
وقتی هوش مصنوعی دچار آلزایمر میشود
بیایید کمی عمیقتر شویم. تا به امروز، دو راه اصلی برای آموزش مدلها وجود داشت: یادگیری تحت نظارت (SFT) و یادگیری تقویتشده (RL). در SFT، ما یک مجموعه داده ثابت به مدل میدهیم و میگوییم «فقط از روی این تقلید کن». مشکل اینجاست که مدل مثل طوطی فقط یاد میگیرد و اگر با سوالی خارج از آن دادهها روبرو شود، گیج میشود و بدتر از آن، دانش قبلیاش را پاک میکند تا جا برای دادههای جدید باز شود.
روش RL یا یادگیری تقویتشده کمی هوشمندانهتر است؛ مدل خودش تلاش میکند و اگر درست پاسخ داد، پاداش میگیرد. اما یک مشکل بزرگ وجود دارد: چطور میخواهید برای نوشتن یک خلاصه جلسه عالی یا یک لایحه حقوقی، فرمول ریاضی «پاداش» بنویسید؟ در دنیای واقعی، بسیاری از مهارتها تابع صفر و یک نیستند. علاوه بر این، اگر مدل هیچچیز درباره یک محصول جدید نداند، هرچقدر هم تلاش کند، هرگز به پاسخ درست نمیرسد که بخواهد پاداش بگیرد و یادگیری را شروع کند. اینجاست که روش SDFT وارد بازی میشود تا این بنبست را بشکند.
معلم و شاگرد: درون قلب SDFT چه میگذرد؟
تکنیک جدید محققان MIT که «Fine-tuning خود-تقطیری» (SDFT) نام دارد، از یک ایده درخشان استفاده میکند: استفاده از قابلیت «یادگیری در متن» (In-context Learning) که در مدلهای پیشرفته امروزی وجود دارد. در این روش، یک مدل واحد همزمان دو نقش را ایفا میکند. اجازه بدهید با یک مثال ساده توضیح دهم. فرض کنید میخواهید به هوش مصنوعی یاد بدهید که چطور به سوالات پیچیده علمی پاسخ دهد.
در نقش اول، ما یک نسخه «منجمد» از مدل داریم که نقش «معلم» را بازی میکند. به این معلم، سوال و چند نمونه از پاسخهای صحیح داده میشود. معلم با نگاه کردن به این نمونهها، منطق پشت پاسخ را کشف میکند. در نقش دوم، نسخه «دانشجو» قرار دارد که فقط سوال را میبیند (دقیقاً مثل شرایطی که قرار است در دنیای واقعی کار کند). وقتی دانشجو پاسخی میدهد، معلم که به پاسخهای صحیح دسترسی دارد، به او بازخورد میدهد. شاگرد سپس پارامترهای خود را تغییر میدهد تا به توزیع دانش معلم نزدیکتر شود. این چرخه باعث میشود مدل بدون نیاز به پاداشهای پیچیده ریاضی، از اشتباهات خودش درس بگیرد.
داستان یک آزمایش: فراتر از حفظ کردن طوطیوار
تیم تحقیقاتی برای ثابت کردن ادعای خود، مدل متنباز Qwen 2.5 را برداشتند و آن را با سه مهارت سخت روبرو کردند: پرسش و پاسخ علمی، استفاده از ابزارهای نرمافزاری و استدلال پزشکی. نتایج شگفتانگیز بود. در حالی که مدلهای معمولی پس از یادگیری مهارتهای علمی، قدرت استدلال عمومی و منطق خود را از دست میدادند (نمرهشان به شدت افت میکرد)، مدل آموزشدیده با روش SDFT نه تنها در علم قویتر شد، بلکه نمره دانش قبلی خود را در سطح ۶۴.۵ درصد ثابت نگه داشت.
یکی از جالبترین بخشهای این تحقیق، آزمایش «بلایای طبیعی ۲۰۲۵» بود. آنها مجموعهای از دادههای ساختگی درباره حوادثی که هنوز اتفاق نیفتاده ایجاد کردند تا ببینند مدل چطور دانش جدید را جذب میکند. مدلهای معمولی فقط فکتها را حفظ کردند، اما وقتی از آنها سوالات استدلالی غیرمستقیم پرسیده شد (مثلاً: با توجه به سیلهای ۲۰۲۵، کدام کشورها به کمک نیاز دارند؟)، شکست خوردند. اما مدل SDFT با امتیاز خیرهکننده ۹۸ درصد نشان داد که نه تنها اطلاعات را حفظ کرده، بلکه منطق پشت آنها را هم درک کرده است.
خداحافظی با «باغوحش مدلها» در شرکتها
اگر شما در یک محیط سازمانی کار میکنید، میدانید که مدیریت دهها مدل مختلف برای بخشهای مختلف (حقوقی، منابع انسانی، فنی) یک کابوس است. هر مدل نیاز به سرور جداگانه و هزینههای گزاف دارد. ایدان شنفلد، یکی از نویسندگان اصلی این مقاله، میگوید: «ما توانایی نگهداری تنها یک مدل واحد برای تمام نیازهای شرکت را فراهم میکنیم.» این یعنی کاهش شدید هزینههای زیرساختی و حذف فرآیندهای بازآموزی گرانقیمت که هر چند ماه یکبار برای اصلاح مدلهای فراموشکار انجام میشد.
البته باید واقعبین باشیم؛ این روش بدون هزینه نیست. SDFT حدود ۲.۵ برابر توان پردازشی بیشتری نسبت به روشهای سنتی نیاز دارد و فرآیند آموزش آن کمی کندتر است، چون مدل باید مدام پاسخهای خودش را تولید و بررسی کند. اما وقتی این هزینه را با هزینه از دست رفتن دانش کلیدی شرکت یا نیاز به آموزش مجدد از صفر مقایسه میکنید، متوجه میشوید که این یک سرمایهگذاری کاملاً منطقی است.
آینده در دستان مدلهای کوچک اما دانا
شاید بپرسید آیا من هم میتوانم از این تکنیک استفاده کنم؟ پاسخ مثبت است. کدهای SDFT در گیتهاب منتشر شده و در حال ادغام با کتابخانههای محبوبی مثل Hugging Face است. در حال حاضر، برای اینکه یک مدل بتواند نقش معلم خودش را بازی کند، باید حداقل ۴ میلیارد پارامتر داشته باشد (مثل مدل Qwen 3 4B). اما شنفلد معتقد است که با سرعت فعلی پیشرفت هوش مصنوعی، به زودی حتی مدلهای کوچک ۱ میلیارد پارامتری که روی گوشیهای موبایل اجرا میشوند هم میتوانند از این روش برای یادگیری همیشگی استفاده کنند.
هدف نهایی این است که هوش مصنوعی دیگر یک موجود ایستا نباشد که در یک لحظه خاص منجمد شده است. ما به دنبال سیستمهایی هستیم که از هر تعامل با کاربر، درس جدیدی بگیرند و هر روز بهتر از دیروز شوند. همانطور که شنفلد اشاره میکند، بخش بزرگی از پردازشهای دنیا صرف «استفاده» از هوش مصنوعی میشود، نه «آموزش» آن؛ پس چرا از همین انرژی برای هوشمندتر کردن دائمی آنها استفاده نکنیم؟
سخن پایانی: شما و هوش مصنوعی که هرگز فراموش نمیکند
در نهایت، SDFT فقط یک الگوریتم جدید نیست؛ بلکه یک تغییر پارادایم در نحوه تعامل ما با ماشینهاست. دیگر لازم نیست نگران باشید که با یاد دادن یک موضوع جدید به هوش مصنوعی، تواناییهای قبلیاش را از بین میبرید. این تکنیک راه را برای ساخت «دستیاران دیجیتال مادامالعمر» هموار میکند که با شما بزرگ میشوند و دانش اختصاصیتان را حفظ میکنند. پیشنهاد میکنم اگر توسعهدهنده هستید، سری به مخزن گیتهاب این پروژه بزنید و اگر علاقهمند به این حوزه هستید، منتظر بمانید؛ چون به زودی مدلهایی را خواهید دید که هیچگاه از یادگیری خسته نمیشوند و هیچ مهارتی را به دست فراموشی نمیسپارند.
منبع:
https://venturebeat.com/orchestration/mits-new-fine-tuning-method-lets-llms-learn-new-skills-without-losing-old

مطالب مرتبط