آخرین بروزرسانی در ۲۹ بهمن ۱۴۰۴ توسط Dr.Arman
تصور کنید در حال ساختن یک ابرکامپیوتر هستید و تمام تمرکزتان روی خرید قویترین پردازندههای دنیاست، اما ناگهان متوجه میشوید که قیمت قطعهای ساده به نام رم، ۷ برابر شده است. این روزها در لابلای اخبار هوش مصنوعی، همه از انویدیا و قدرت گرافیکی حرف میزنند، اما واقعیت این است که رقابت اصلی به جای دیگری منتقل شده: «بازی حافظه». اگر شما هم مثل من عاشق دنیای تکنولوژی باشید، میدانید که در این حوزه، گاهی جزئیاتی که نادیده گرفته میشوند، همانهایی هستند که برنده و بازنده را تعیین میکنند.
چرا حافظه ناگهان به اولویت اول تبدیل شد؟
شاید بپرسید چرا حالا؟ مگر سالها نیست که ما با رم و حافظه سر و کار داریم؟ موضوع اینجاست که وقتی غولهای تکنولوژی (Hyperscalers) شروع به ساخت دیتاسنترهایی با ارزش میلیاردها دلار میکنند، تقاضا برای تراشههای DRAM به شکلی انفجاری بالا میرود. در واقع، در طول سال گذشته، قیمت این تراشهها حدود ۷ برابر شده است. این یعنی زیرساخت هوش مصنوعی دیگر فقط درباره «سرعت پردازش» نیست، بلکه درباره این است که چقدر فضا برای نگه داشتن دادهها در نزدیکی پردازنده دارید.
وقتی ما از مدلهای زبانی بزرگ حرف میزنیم، در واقع از حجم عظیمی از دادهها حرف میزنیم که باید در لحظه جابهجا شوند. اگر حافظه کافی یا مدیریت درستی وجود نداشته باشد، بهترین پردازندههای گرافیکی انویدیا هم عملاً بیکار میمانند. اینجاست که میبینیم شرکتهای بزرگ به جای تمرکز صرف بر خرید سختافزار، به سراغ «ارکستراسیون حافظه» یا همان مدیریت هماهنگ حافظه رفتهاند.
معمای آنتروپیک: وقتی مستندات حرف میزنند
یکی از جالبترین بخشهای این بازی، تغییری است که در رفتار شرکتهای پیشرو مثل آنتروپیک (سازنده مدل کلود) دیده میشود. داگ اولافلین، تحلیلگر صنعت نیمههادی، در گفتگو با وال برکوویچی از شرکت Weka، به نکته بسیار ظریفی اشاره کرده است. او میگوید اگر به صفحه قیمتگذاری «کش کردن پرومپتها» (Prompt Caching) در آنتروپیک نگاه کنید، متوجه یک تغییر بزرگ میشوید.
شش یا هفت ماه پیش، این صفحه بسیار ساده بود؛ پیامی کوتاه که میگفت: «از کش استفاده کنید تا هزینههایتان کمتر شود.» اما امروز، این صفحه شبیه به یک دایرهالمعارف پیچیده از توصیههای فنی شده است. آنها حالا پکیجهای ۵ دقیقهای و ۱ ساعته برای خرید ظرفیت کش ارائه میدهند. این یک «نشانه» بزرگ است؛ نشانهای که به ما میگوید مدیریت حافظه در هوش مصنوعی چقدر بحرانی و البته پیچیده شده است.
استراتژی پنج دقیقهای: بازی با زمان و هزینه
حالا بیایید کمی عمیقتر شویم. چرا آنتروپیک باید روی پنج دقیقه یا یک ساعت تاکید کند؟ در دنیای هوش مصنوعی، وقتی شما یک سوال (پرومپت) میپرسید، مدل باید دادههای مرتبط را فراخوانی کند. اگر این دادهها در «حافظه موقت» یا همان کش بمانند، پاسخدهی بسیار ارزانتر و سریعتر تمام میشود. اما نگه داشتن داده در این فضا هزینه دارد.
شما میتوانید برای یک پنجره ۵ دقیقهای پول بدهید یا هزینه بیشتری بپردازید تا دادههایتان یک ساعت در حافظه بمانند. اما یک چالش بزرگ وجود دارد: حافظه محدود است. هر تکه داده جدیدی که به کوئری خود اضافه میکنید، ممکن است داده قبلی را از پنجره حافظه به بیرون پرتاب کند. این دقیقاً شبیه به یک بازی صندلیبازی دیجیتال است که در آن، هر بایت داده برای بقا در حافظه میجنگد.
فرصتهای آربیتاژ در دل کدهای هوش مصنوعی
نکته هیجانانگیز برای توسعهدهندگان و شرکتها این است که این پیچیدگی، فرصتهای جدیدی برای کاهش هزینه ایجاد کرده است. اگر شما بتوانید مدیریت کنید که چه زمانی دادهها را در کش بنویسید و چه زمانی از آنها بخوانید، میتوانید هزینههای خود را به شدت کاهش دهید. در واقع، یک نوع «آربیتاژ» در قیمتگذاری حافظه به وجود آمده است.
شرکتهایی که بتوانند با تعداد توکن کمتر، همان پاسخ باکیفیت را بگیرند، برندههای نهایی این بازار خواهند بود. این تفاوت میتواند مرز بین سوددهی یک استارتاپ و ورشکستگی کامل آن باشد. ما در دورانی هستیم که هوشمندی در مدیریت منابع سختافزاری، به اندازه هوشمندی خودِ مدلهای AI اهمیت پیدا کرده است.
از کف دیتاسنتر تا سقف نرمافزار
این تحول در تمامی لایههای تکنولوژی در حال رخ دادن است. در پایینترین لایهها، مهندسان دیتاسنتر در حال تصمیمگیری هستند که چه زمانی از تراشههای DRAM معمولی و چه زمانی از حافظههای بسیار گرانقیمت HBM استفاده کنند. این بحثها شاید خیلی فنی و سختافزاری به نظر برسند، اما تاثیرشان را در اپلیکیشنی که روی گوشی شما نصب است نشان میدهند.
کمی بالاتر در این هرم، استارتاپهایی مثل Tensormesh در حال کار روی لایههای بهینهسازی کش هستند. آنها سعی میکنند به نرمافزارها یاد بدهند که چگونه از حافظه بهینهتر استفاده کنند. و در بالاترین لایه، ما به عنوان کاربران نهایی باید یاد بگیریم که چگونه «دستههای مدل» (Model Swarms) خود را ساختاردهی کنیم تا از حافظه اشتراکی بهترین بهره را ببریم.
چرا این موضوع برای شما به عنوان یک عاشق AI مهم است؟
شاید بپرسید اینها چه سودی برای من دارد؟ پاسخ ساده است: ارزانتر شدن هوش مصنوعی. هر چقدر مدیریت حافظه و ارکستراسیون آن بهتر شود، هزینه تولید هر «توکن» پایینتر میآید. این یعنی مدلهای هوش مصنوعی کارآمدتر میشوند و استارتاپها میتوانند خدماتی را ارائه دهند که تا دیروز به دلیل هزینههای بالای سرور، غیرممکن به نظر میرسید.
بسیاری از اپلیکیشنهایی که امروز به نظر ما سودده نیستند یا بیش از حد گران هستند، به زودی با بهینهسازی همین «بازی حافظه» وارد محدوده سودآوری میشوند. ما در حال حرکت به سمتی هستیم که هوش مصنوعی نه تنها باهوشتر، بلکه از نظر اقتصادی هم منطقیتر میشود.
نتیجهگیری: برنده کسی است که حافظه را بشناسد
در نهایت، باید گفت که دوران تمرکز صرف بر قدرت پردازش (Compute) رو به پایان است و ما وارد عصر «اقتصاد حافظه» شدهایم. درست مثل همان مثالی که در ابتدای متن زدم، داشتن سریعترین ماشین دنیا فایدهای ندارد اگر باک بنزین (حافظه) شما نشتی داشته باشد یا نتوانید سوخت را به موقع به موتور برسانید.
شرکتهایی که مدیریت حافظه را جدی میگیرند، کسانی هستند که در صدر جدول رقابت باقی میمانند. پیشنهاد من به شما این است که از این به بعد، به جای دنبال کردن صرفِ تعداد پارامترهای یک مدل، به نحوه مدیریت حافظه و هزینههای استنتاج (Inference) آن هم توجه کنید. اینجاست که آینده واقعی هوش مصنوعی رقم میخورد. شما در مورد این جهش قیمتها و پیچیدگیهای جدید چه فکر میکنید؟ آیا فکر میکنید مدیریت نرمافزاری میتواند کمبود سختافزار را جبران کند؟
منبع:

مطالب مرتبط