تکنیک جدید انویدیا با جادوی DMS؛ چگونه هزینه استدلال هوش مصنوعی ۸ برابر کمتر شد؟

5/5 - (1 امتیاز)

آخرین بروزرسانی در ۲۴ بهمن ۱۴۰۴ توسط Dr.Arman

تصور کنید در حال حل یک مسئله پیچیده ریاضی هستید و تمام مراحل را روی یک تخته‌سیاه می‌نویسید. ناگهان متوجه می‌شوید که تخته پر شده و دیگر جایی برای نوشتن ندارید. یا باید بخشی از راه‌حل‌های قبلی را پاک کنید و ریسک اشتباه را بپذیرید، یا باید یک تخته‌سیاه گران‌قیمت دیگر بخرید. این دقیقاً همان چالشی است که هوش مصنوعی امروز با آن دست‌وپنجه نرم می‌کند. اما خبر خوب اینجاست که در دنیای «اخبار داغ» تکنولوژی، انویدیا راهی پیدا کرده که بدون خرید تخته جدید، ۸ برابر بیشتر روی همان فضای قبلی بنویسید و حتی باهوش‌تر از قبل عمل کنید!

چرا این تحول همین حالا برای شما اهمیت دارد؟

اگر شما هم از آن دسته افرادی هستید که ساعت‌ها با مدل‌های زبانی بزرگ (LLM) سر‌و‌کله می‌زنید، احتمالاً متوجه شده‌اید که وقتی از هوش مصنوعی می‌خواهید «عمیق‌تر فکر کند» یا یک متن طولانی را تحلیل کند، سرعتش به‌شدت افت می‌کند. این موضوع فقط یک کندی ساده نیست؛ بلکه یک بحران اقتصادی برای شرکت‌های هوش مصنوعی است. پردازش هر کلمه اضافی، هزینه‌ای سرسام‌آور روی دست توسعه‌دهندگان می‌گذارد.

انویدیا با معرفی تکنیک DMS (Dynamic Memory Sparsification) نشان داد که مشکل از کمبود سخت‌افزار نیست، بلکه مشکل در نحوه مدیریت حافظه است. این تکنیک نه‌تنها هزینه‌ها را به یک‌هشتم کاهش می‌دهد، بلکه اجازه می‌دهد مدل‌های هوش مصنوعی بدون گیج شدن، برای مدت طولانی‌تری روی یک مسئله متمرکز بمانند. یعنی همان هوش، با هزینه بسیار کمتر و سرعتی که تا پیش از این غیرممکن به نظر می‌رسید.

غولی به نام KV Cache: گلوگاه استدلال هوش مصنوعی

بیایید کمی وارد جزئیات شویم، اما به زبان ساده. وقتی شما با مدلی مثل ChatGPT یا Llama چت می‌کنید، هوش مصنوعی باید تمام کلمات قبلی شما و پاسخ‌های خودش را در حافظه‌ای موقت به نام KV Cache نگه دارد. این حافظه مثل «حافظه کوتاه‌مدت» انسان عمل می‌کند. مشکل اینجاست که هرچه مکالمه طولانی‌تر شود یا مدل بخواهد گام‌های استدلالی بیشتری (Chain-of-Thought) بردارد، این حافظه به‌صورت خطی رشد می‌کند.

این رشد تا جایی ادامه می‌یابد که حافظه گرافیکی (VRAM) پر می‌شود. در این لحظه، یا سیستم کرش می‌کند یا سرعت تولید کلمات به قدری کند می‌شود که عملاً بلااستفاده می‌گردد. تا امروز، راه‌حل این بود که بخش‌هایی از حافظه را به صورت تصادفی یا با قوانین صلب (مثل پاک کردن کلمات قدیمی) حذف کنیم. اما این کار مثل این بود که وسط حل یک معما، صفحات اول دفترچه‌تان را پاره کنید؛ مدل حافظه‌اش را از دست می‌داد و دقتش پایین می‌آمد.

جادوی DMS: هوش مصنوعی که می‌آموزد چه چیزی را فراموش کند

تکنیک جدید انویدیا یعنی DMS، به جای استفاده از قوانین خشک، به خود مدل یاد می‌دهد که چه چیزی را فراموش کند. محققان انویدیا متوجه شدند که همه کلمات (یا توکن‌ها) در یک جمله به یک اندازه مهم نیستند. برخی توکن‌ها فقط نقش دستوری دارند و برخی دیگر کلید حل معما هستند.

DMS مثل یک ویراستار باهوش عمل می‌کند. این سیستم به مدل یاد می‌دهد که به هر قطعه از اطلاعات در حافظه‌اش نگاه کند و تصمیم بگیرد: «آیا این برای استدلال‌های بعدی من لازم است یا می‌توانم آن را دور بیندازم؟». نکته جالب اینجاست که این فرآیند باعث می‌شود مدل به جای غرق شدن در نویزها و اطلاعات بیهوده، فقط روی هسته اصلی مسئله تمرکز کند. در آزمایش‌های انویدیا، مدل‌هایی که از DMS استفاده کردند، در تست‌های ریاضی و کدنویسی حتی از مدل‌های اصلی هم دقیق‌تر عمل کردند!

مکانیسم «اخراج تأخیری»: فرصتی دوباره برای اطلاعات

یکی از درخشان‌ترین بخش‌های این تکنیک، مفهومی به نام Delayed Eviction یا اخراج تأخیری است. در روش‌های قدیمی، وقتی تصمیم گرفته می‌شد چیزی پاک شود، بلافاصله حذف می‌شد. اما در DMS، وقتی سیستم تشخیص می‌دهد یک توکن دیگر لازم نیست، آن را بلافاصله نمی‌کشد! بلکه آن را برای چند لحظه کوتاه در یک «پنجره انتظار» نگه می‌دارد.

این کار به مدل اجازه می‌دهد تا در آخرین لحظات، اگر اطلاعات مفیدی در آن توکن باقی مانده، آن را استخراج کرده و با بقیه اطلاعاتش ترکیب کند. پیر نورت، مهندس ارشد انویدیا، می‌گوید این دقیقاً مثل این است که قبل از دور انداختن یک یادداشت قدیمی، یک بار دیگر نگاهی به آن بیندازید تا مطمئن شوید نکته مهمی را از قلم نینداخته‌اید. همین ترفند ساده باعث شده تا دقت مدل در متن‌های بسیار طولانی حفظ شود.

چگونه مدل خود را در چند ساعت ارتقا دهید؟

شاید فکر کنید پیاده‌سازی چنین سیستمی ماه‌ها زمان و میلیون‌ها دلار هزینه می‌برد. اما واقعیت کاملاً برعکس است. انویدیا این روش را به گونه‌ای طراحی کرده که نیازی به آموزش مدل از ابتدا نباشد. شما می‌توانید یک مدل آماده مثل Llama 3 یا Qwen را بردارید و با استفاده از روشی شبیه به LoRA، آن را در عرض چند ساعت روی یک پردازنده گرافیکی قدرتمند (مثل H100) به قابلیت DMS مجهز کنید.

این یعنی شرکت‌های کوچک و توسعه‌دهندگان مستقل هم می‌توانند مدل‌های خود را بهینه کنند. برای شما که به عنوان یک علاقه‌مند به هوش مصنوعی این متن را می‌خوانید، این یعنی به زودی شاهد اپلیکیشن‌هایی خواهید بود که با همان سخت‌افزار قبلی، ۵ تا ۸ برابر سریع‌تر پاسخ می‌دهند و می‌توانند به جای یک نفر، به ۸ نفر همزمان سرویس‌دهی کنند بدون اینکه کیفیت پاسخ‌ها افت کند.

ارزش عملیاتی: از دنیای تحقیق تا واقعیت بازار

در دنیای کسب‌وکار، همه چیز به هزینه ختم می‌شود. نورت از انویدیا سوالی را مطرح می‌کند که ذهن هر مدیر زیرساختی را به خود مشغول کرده است: «سوال این نیست که چقدر سخت‌افزار دارید؛ سوال این است که آیا با همان هزینه، ۱۰۰ رشته استدلالی را پردازش می‌کنید یا ۸۰۰ رشته را؟».

وقتی ظرفیت پردازش شما ۸ برابر شود، قیمت تمام‌شده برای کاربر نهایی کاهش می‌یابد. این تکنیک باعث می‌شود هوش مصنوعی در موبایل‌ها، گجت‌های پوشیدنی و سیستم‌های لوکال بسیار روان‌تر اجرا شود. همچنین در تست‌های «سوزن در انبار کاه» (پیدا کردن یک اطلاعات خاص در یک کتاب قطور)، مدل‌های مجهز به DMS بهتر از مدل‌های اصلی عمل کردند، چون حافظه خلوت‌تر و تمیزتری داشتند.

سخن پایانی: آینده‌ای که با حافظه هوشمند ساخته می‌شود

انویدیا با انتشار کتابخانه KVPress، درهای این تکنولوژی را به روی همه باز کرده است. این حرکت نشان‌دهنده یک تغییر پارادایم است: ما از دوران «بزرگ‌تر کردن مدل‌ها» به دوران «هوشمندتر کردن مدیریت منابع» منتقل شده‌ایم. حافظه هوشمند، لایه جدیدی در پشته تکنولوژی AI خواهد بود که مرزهای ممکن را جابجا می‌کند.

اگر توسعه‌دهنده هستید یا به دنیای مدل‌های زبانی علاقه دارید، حتماً سری به مخزن گیت‌هاب KVPress بزنید. این تکنولوژی نشان می‌دهد که حتی وقتی به بن‌بست‌های سخت‌افزاری می‌خوریم، خلاقیت در نرم‌افزار می‌تواند راهی نو باز کند. آیا آماده‌اید تا مدل‌های هوش مصنوعی خود را با یک‌هشتم هزینه قبلی به پرواز درآورید؟ آینده استدلال هوش مصنوعی همین‌جا شروع شده است.

منبع:

https://venturebeat.com/orchestration/nvidias-new-technique-cuts-llm-reasoning-costs-by-8x-without-losing-accuracy

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *