آخرین بروزرسانی در ۲۴ بهمن ۱۴۰۴ توسط Dr.Arman
تصور کنید در حال حل یک مسئله پیچیده ریاضی هستید و تمام مراحل را روی یک تختهسیاه مینویسید. ناگهان متوجه میشوید که تخته پر شده و دیگر جایی برای نوشتن ندارید. یا باید بخشی از راهحلهای قبلی را پاک کنید و ریسک اشتباه را بپذیرید، یا باید یک تختهسیاه گرانقیمت دیگر بخرید. این دقیقاً همان چالشی است که هوش مصنوعی امروز با آن دستوپنجه نرم میکند. اما خبر خوب اینجاست که در دنیای «اخبار داغ» تکنولوژی، انویدیا راهی پیدا کرده که بدون خرید تخته جدید، ۸ برابر بیشتر روی همان فضای قبلی بنویسید و حتی باهوشتر از قبل عمل کنید!
چرا این تحول همین حالا برای شما اهمیت دارد؟
اگر شما هم از آن دسته افرادی هستید که ساعتها با مدلهای زبانی بزرگ (LLM) سروکله میزنید، احتمالاً متوجه شدهاید که وقتی از هوش مصنوعی میخواهید «عمیقتر فکر کند» یا یک متن طولانی را تحلیل کند، سرعتش بهشدت افت میکند. این موضوع فقط یک کندی ساده نیست؛ بلکه یک بحران اقتصادی برای شرکتهای هوش مصنوعی است. پردازش هر کلمه اضافی، هزینهای سرسامآور روی دست توسعهدهندگان میگذارد.
انویدیا با معرفی تکنیک DMS (Dynamic Memory Sparsification) نشان داد که مشکل از کمبود سختافزار نیست، بلکه مشکل در نحوه مدیریت حافظه است. این تکنیک نهتنها هزینهها را به یکهشتم کاهش میدهد، بلکه اجازه میدهد مدلهای هوش مصنوعی بدون گیج شدن، برای مدت طولانیتری روی یک مسئله متمرکز بمانند. یعنی همان هوش، با هزینه بسیار کمتر و سرعتی که تا پیش از این غیرممکن به نظر میرسید.
غولی به نام KV Cache: گلوگاه استدلال هوش مصنوعی
بیایید کمی وارد جزئیات شویم، اما به زبان ساده. وقتی شما با مدلی مثل ChatGPT یا Llama چت میکنید، هوش مصنوعی باید تمام کلمات قبلی شما و پاسخهای خودش را در حافظهای موقت به نام KV Cache نگه دارد. این حافظه مثل «حافظه کوتاهمدت» انسان عمل میکند. مشکل اینجاست که هرچه مکالمه طولانیتر شود یا مدل بخواهد گامهای استدلالی بیشتری (Chain-of-Thought) بردارد، این حافظه بهصورت خطی رشد میکند.
این رشد تا جایی ادامه مییابد که حافظه گرافیکی (VRAM) پر میشود. در این لحظه، یا سیستم کرش میکند یا سرعت تولید کلمات به قدری کند میشود که عملاً بلااستفاده میگردد. تا امروز، راهحل این بود که بخشهایی از حافظه را به صورت تصادفی یا با قوانین صلب (مثل پاک کردن کلمات قدیمی) حذف کنیم. اما این کار مثل این بود که وسط حل یک معما، صفحات اول دفترچهتان را پاره کنید؛ مدل حافظهاش را از دست میداد و دقتش پایین میآمد.
جادوی DMS: هوش مصنوعی که میآموزد چه چیزی را فراموش کند
تکنیک جدید انویدیا یعنی DMS، به جای استفاده از قوانین خشک، به خود مدل یاد میدهد که چه چیزی را فراموش کند. محققان انویدیا متوجه شدند که همه کلمات (یا توکنها) در یک جمله به یک اندازه مهم نیستند. برخی توکنها فقط نقش دستوری دارند و برخی دیگر کلید حل معما هستند.
DMS مثل یک ویراستار باهوش عمل میکند. این سیستم به مدل یاد میدهد که به هر قطعه از اطلاعات در حافظهاش نگاه کند و تصمیم بگیرد: «آیا این برای استدلالهای بعدی من لازم است یا میتوانم آن را دور بیندازم؟». نکته جالب اینجاست که این فرآیند باعث میشود مدل به جای غرق شدن در نویزها و اطلاعات بیهوده، فقط روی هسته اصلی مسئله تمرکز کند. در آزمایشهای انویدیا، مدلهایی که از DMS استفاده کردند، در تستهای ریاضی و کدنویسی حتی از مدلهای اصلی هم دقیقتر عمل کردند!
مکانیسم «اخراج تأخیری»: فرصتی دوباره برای اطلاعات
یکی از درخشانترین بخشهای این تکنیک، مفهومی به نام Delayed Eviction یا اخراج تأخیری است. در روشهای قدیمی، وقتی تصمیم گرفته میشد چیزی پاک شود، بلافاصله حذف میشد. اما در DMS، وقتی سیستم تشخیص میدهد یک توکن دیگر لازم نیست، آن را بلافاصله نمیکشد! بلکه آن را برای چند لحظه کوتاه در یک «پنجره انتظار» نگه میدارد.
این کار به مدل اجازه میدهد تا در آخرین لحظات، اگر اطلاعات مفیدی در آن توکن باقی مانده، آن را استخراج کرده و با بقیه اطلاعاتش ترکیب کند. پیر نورت، مهندس ارشد انویدیا، میگوید این دقیقاً مثل این است که قبل از دور انداختن یک یادداشت قدیمی، یک بار دیگر نگاهی به آن بیندازید تا مطمئن شوید نکته مهمی را از قلم نینداختهاید. همین ترفند ساده باعث شده تا دقت مدل در متنهای بسیار طولانی حفظ شود.
چگونه مدل خود را در چند ساعت ارتقا دهید؟
شاید فکر کنید پیادهسازی چنین سیستمی ماهها زمان و میلیونها دلار هزینه میبرد. اما واقعیت کاملاً برعکس است. انویدیا این روش را به گونهای طراحی کرده که نیازی به آموزش مدل از ابتدا نباشد. شما میتوانید یک مدل آماده مثل Llama 3 یا Qwen را بردارید و با استفاده از روشی شبیه به LoRA، آن را در عرض چند ساعت روی یک پردازنده گرافیکی قدرتمند (مثل H100) به قابلیت DMS مجهز کنید.
این یعنی شرکتهای کوچک و توسعهدهندگان مستقل هم میتوانند مدلهای خود را بهینه کنند. برای شما که به عنوان یک علاقهمند به هوش مصنوعی این متن را میخوانید، این یعنی به زودی شاهد اپلیکیشنهایی خواهید بود که با همان سختافزار قبلی، ۵ تا ۸ برابر سریعتر پاسخ میدهند و میتوانند به جای یک نفر، به ۸ نفر همزمان سرویسدهی کنند بدون اینکه کیفیت پاسخها افت کند.
ارزش عملیاتی: از دنیای تحقیق تا واقعیت بازار
در دنیای کسبوکار، همه چیز به هزینه ختم میشود. نورت از انویدیا سوالی را مطرح میکند که ذهن هر مدیر زیرساختی را به خود مشغول کرده است: «سوال این نیست که چقدر سختافزار دارید؛ سوال این است که آیا با همان هزینه، ۱۰۰ رشته استدلالی را پردازش میکنید یا ۸۰۰ رشته را؟».
وقتی ظرفیت پردازش شما ۸ برابر شود، قیمت تمامشده برای کاربر نهایی کاهش مییابد. این تکنیک باعث میشود هوش مصنوعی در موبایلها، گجتهای پوشیدنی و سیستمهای لوکال بسیار روانتر اجرا شود. همچنین در تستهای «سوزن در انبار کاه» (پیدا کردن یک اطلاعات خاص در یک کتاب قطور)، مدلهای مجهز به DMS بهتر از مدلهای اصلی عمل کردند، چون حافظه خلوتتر و تمیزتری داشتند.
سخن پایانی: آیندهای که با حافظه هوشمند ساخته میشود
انویدیا با انتشار کتابخانه KVPress، درهای این تکنولوژی را به روی همه باز کرده است. این حرکت نشاندهنده یک تغییر پارادایم است: ما از دوران «بزرگتر کردن مدلها» به دوران «هوشمندتر کردن مدیریت منابع» منتقل شدهایم. حافظه هوشمند، لایه جدیدی در پشته تکنولوژی AI خواهد بود که مرزهای ممکن را جابجا میکند.
اگر توسعهدهنده هستید یا به دنیای مدلهای زبانی علاقه دارید، حتماً سری به مخزن گیتهاب KVPress بزنید. این تکنولوژی نشان میدهد که حتی وقتی به بنبستهای سختافزاری میخوریم، خلاقیت در نرمافزار میتواند راهی نو باز کند. آیا آمادهاید تا مدلهای هوش مصنوعی خود را با یکهشتم هزینه قبلی به پرواز درآورید؟ آینده استدلال هوش مصنوعی همینجا شروع شده است.
منبع:
https://venturebeat.com/orchestration/nvidias-new-technique-cuts-llm-reasoning-costs-by-8x-without-losing-accuracy

مطالب مرتبط