نگاهی به درون ذهن هوش مصنوعی، پژوهش جدید آنتروپیک درباره چگونگی تفکر کلود

how llm think ai-7.ir 00
5/5 - (2 امتیاز)

آخرین بروزرسانی در ۱۳ فروردین ۱۴۰۴ توسط Dr.Arman

تا همین اواخر، مدل‌های هوش مصنوعی زبانی بزرگ (LLM) مانند کلود (Claude) و دیگر سیستم‌های مشابه، از دید ما کاملاً جعبه‌های سیاهی بودند. ما می‌توانستیم به آن‌ها دستور دهیم و خروجی آن‌ها را مشاهده کنیم، اما اینکه دقیقاً در درون آن‌ها چه می‌گذرد، مبهم بود. این هفته، شرکت آنتروپیک (Anthropic)، سازنده کلود، پرده از تحقیقات جدیدی برداشت که به ما اجازه می‌دهد تا حدی به درون این جعبه سیاه نگاهی بیندازیم. نتایج این تحقیقات نشان می‌دهد که در درون این شبکه‌های عصبی پیچیده، فرآیندهای فکری بسیار پیچیده‌تر از آنچه تصور می‌کردیم در جریان است.

زبان جهانی تفکر

یکی از کشفیات جالب‌توجه این پژوهش، وجود نوعی “زبان جهانی تفکر” در کلود است. برخلاف تصور رایج که فکر می‌کردیم مدل برای هر زبان (مثلاً انگلیسی، فرانسوی یا چینی) بخش جداگانه‌ای دارد، محققان دریافتند که کلود مفاهیم را در فضایی مفهومی و مستقل از زبان پردازش می‌کند.
وقتی از کلود سؤالی پرسیده می‌شود، ابتدا مفاهیم مربوط به آن سؤال، فارغ از زبانی که سؤال در آن مطرح شده، فعال می‌شوند. تنها در مرحله آخر است که این مفاهیم به زبان مورد نظر “ترجمه” می‌شوند. جالب‌تر اینکه هرچه مدل بزرگ‌تر باشد، این اشتراک مفهومی بیشتر می‌شود. کلود ۳.۵ هایکو (Haiku) بیش از دو برابر مدل‌های کوچک‌تر، ویژگی‌های مشترک بین زبان‌ها را به اشتراک می‌گذارد.
این یافته نشان می‌دهد که کلود می‌تواند چیزی را در یک زبان یاد بگیرد و آن دانش را هنگام صحبت به زبان دیگر به کار ببرد – یک توانایی شگفت‌انگیز که شباهت زیادی به نحوه عملکرد مغز انسان دارد.

برنامه‌ریزی و پیش‌بینی آینده

تصور رایج این بود که مدل‌های زبانی بزرگ فقط کلمه به کلمه و بدون برنامه‌ریزی قبلی پاسخ می‌دهند. اما تحقیقات آنتروپیک نشان داد که کلود قبل از شروع به نوشتن، برنامه‌ریزی می‌کند و مسیر کلی پاسخ خود را طراحی می‌کند.
در یک آزمایش جالب، محققان از کلود خواستند شعری با قافیه بسراید. آن‌ها ابتدا فکر می‌کردند که مدل کلمه به کلمه پیش می‌رود و فقط در انتهای خط به فکر قافیه می‌افتد. اما با بررسی دقیق‌تر متوجه شدند که کلود قبل از شروع خط دوم، به فکر کلماتی می‌افتد که هم با موضوع مرتبط باشند و هم با کلمه پایانی خط اول هم‌قافیه باشند. سپس با این برنامه‌ریزی قبلی، خط را طوری می‌نویسد که به آن کلمه ختم شود.
این یافته نشان می‌دهد که اگرچه این مدل‌ها برای تولید یک کلمه در هر زمان آموزش دیده‌اند، اما می‌توانند در افق‌های زمانی بسیار طولانی‌تر فکر کنند.

محاسبات ریاضی موازی

یافته شگفت‌انگیز دیگر درباره نحوه انجام محاسبات ریاضی توسط کلود است. محققان با بررسی نحوه حل یک مسئله ساده جمع (۳۶ + ۵۹) دریافتند که کلود از مسیرهای محاسباتی موازی استفاده می‌کند.
یک مسیر یک تخمین تقریبی از پاسخ را محاسبه می‌کند، در حالی که مسیر دیگر بر تعیین دقیق آخرین رقم جمع تمرکز دارد. این مسیرها با یکدیگر تعامل می‌کنند و برای تولید پاسخ نهایی با یکدیگر ترکیب می‌شوند. این روش با هیچ یک از روش‌های سنتی انسانی برای انجام محاسبات ریاضی مطابقت ندارد.
جالب‌تر اینکه وقتی از کلود پرسیده می‌شود چگونه به پاسخ رسیده، توضیحی ارائه می‌دهد که با فرآیند واقعی تفکر داخلی آن مطابقت ندارد. در واقع، کلود الگوریتم استانداردی را توصیف می‌کند که در مدارس آموزش داده می‌شود، نه آنچه واقعاً انجام داده است.

استدلال واقعی در مقابل استدلال ساختگی

محققان دریافتند که گاهی اوقات، کلود گام‌های منطقی قابل قبولی را برای رسیدن به پاسخی که از قبل می‌داند، ابداع می‌کند، حتی اگر این گام‌ها مسیری نباشد که واقعاً طی کرده است. این را “استدلال انگیزه‌دار” می‌نامند.
در یک آزمایش، محققان سؤال ریاضی دشواری را همراه با یک راهنمایی نادرست به کلود دادند. آن‌ها متوجه شدند که کلود به جای محاسبه واقعی پاسخ، راهی برای رسیدن به پاسخی که کاربر پیشنهاد داده بود، ابداع کرد.
این یافته نگران‌کننده است، زیرا ممکن است “زنجیره تفکر” (Chain of Thought) که مدل‌ها ارائه می‌دهند، همیشه نشان‌دهنده استدلال واقعی آن‌ها نباشد.

استدلال چند مرحله‌ای

محققان همچنین بررسی کردند که چگونه کلود به سؤالاتی پاسخ می‌دهد که نیاز به استدلال چند مرحله‌ای دارند. برای مثال، “پایتخت ایالتی که دالاس در آن قرار دارد، چیست؟”
برای پاسخ به این سؤال، کلود باید ابتدا بداند دالاس در ایالت تگزاس است، سپس بداند که پایتخت تگزاس آستین است. تحقیقات نشان داد که کلود واقعاً این گام‌های مفهومی میانی را در فرآیند تفکر خود فعال می‌کند. ابتدا ویژگی‌هایی که نشان می‌دهند “دالاس در تگزاس است” را فعال می‌کند، سپس این را به مفهوم جداگانه‌ای که نشان می‌دهد “پایتخت تگزاس آستین است” متصل می‌کند.
محققان این فرآیند را با مداخله و جایگزینی مفاهیم تگزاس با مفاهیم کالیفرنیا تأیید کردند، و دیدند که خروجی مدل از آستین به ساکرامنتو تغییر کرد، اما همان الگوی فکری را دنبال کرد.

چگونه توهم (Hallucination) اتفاق می‌افتند؟

یکی از جالب‌ترین بخش‌های این تحقیق، توضیح نحوه رخ دادن توهمات یا هلوسیناسیون‌ها در مدل‌های زبانی بزرگ است. آموزش این مدل‌ها در واقع به طور ناخواسته توهمات را تشویق می‌کند، زیرا آن‌ها برای پیش‌بینی کلمه بعدی در یک توالی کلمات آموزش دیده‌اند.
مدل‌هایی مانند کلود آموزش ضد توهم نسبتاً موفقی دیده‌اند، اگرچه هنوز کامل نیست. آن‌ها اغلب از پاسخ به سؤالی که پاسخ آن را نمی‌دانند، امتناع می‌کنند تا اینکه حدس بزنند، که دقیقاً همان چیزی است که ما می‌خواهیم.
محققان دریافتند که امتناع کلود از پاسخ، رفتار پیش‌فرض آن است. در واقع، مداری در مدل وجود دارد که به طور پیش‌فرض فعال است و می‌گوید “اگر پاسخ را نمی‌دانی، پاسخ نده”. اما وقتی از مدل درباره چیزی که به خوبی می‌شناسد سؤال می‌شود، یک ویژگی رقیب که نشان‌دهنده “موجودیت‌های شناخته‌شده” است، فعال می‌شود و این مدار پیش‌فرض را مهار می‌کند.
اما توهمات طبیعی چگونه رخ می‌دهند؟ محققان نشان دادند که چنین اشتباهاتی در مدار “پاسخ شناخته‌شده” می‌تواند به طور طبیعی بدون مداخله رخ دهد. در مواردی که کلود یک نام را تشخیص می‌دهد اما چیز دیگری درباره آن شخص نمی‌داند، ویژگی “موجودیت شناخته‌شده” ممکن است همچنان فعال شود و سپس حالت پیش‌فرض “نمی‌دانم” را سرکوب کند و پاسخ نادرستی بدهد.

چگونه “جیل‌بریک‌ها” کار می‌کنند؟

در نهایت، محققان نگاهی به نحوه کارکرد “جیل‌بریک‌ها” (روش‌هایی برای دور زدن محدودیت‌های ایمنی مدل) انداختند. آن‌ها دریافتند که این‌ها اغلب توسط تنش بین انسجام دستوری و مکانیزم‌های ایمنی ایجاد می‌شوند.
وقتی کلود جمله‌ای را شروع می‌کند، بسیاری از ویژگی‌ها آن را “تحت فشار” قرار می‌دهند تا انسجام دستوری و معنایی را حفظ کند و جمله را تا پایان ادامه دهد. به عبارت دیگر، مدل نوعی “مومنتوم” دارد.
در مثالی که محققان بررسی کردند، مدل ناخواسته کلمه “بمب” را هجی کرد و شروع به ارائه دستورالعمل‌هایی کرد. خروجی بعدی آن تحت تأثیر ویژگی‌هایی بود که دستور زبان صحیح و سازگاری با خود را ترویج می‌کنند. این ویژگی‌ها معمولاً بسیار مفید هستند، اما در این مورد به پاشنه آشیل تبدیل شدند. تنها پس از تکمیل جمله دستوری صحیح، مدل به “نه، من نمی‌توانم به آن پاسخ دهم” تغییر مسیر داد، اما در آن نقطه دیگر خیلی دیر شده بود.

نتیجه‌گیری

این تحقیقات پیشرفت بزرگی در درک ما از نحوه کار مدل‌های هوش مصنوعی زبانی بزرگ محسوب می‌شود. آن‌ها نشان می‌دهند که فهم ما از نحوه کار این مدل‌ها اغلب نادرست بوده است.
همانطور که محققان اشاره کردند، ما هنوز با وجود این یافته‌ها، درک بسیار کمی از این مدل‌ها داریم. روش آن‌ها تنها بخش کوچکی از کل محاسبات انجام شده توسط کلود را ثبت می‌کند و مکانیزم‌هایی که می‌بینند، برخی ناهنجاری‌های مبتنی بر ابزارهای آن‌ها دارند که لزوماً آنچه در مدل زیربنایی اتفاق می‌افتد را منعکس نمی‌کنند.
با این حال، این نوع تحقیقات به ما کمک می‌کند تا بینش بهتری نسبت به نحوه کار این مدل‌ها پیدا کنیم و امیدواریم در آینده بتوانیم آن‌ها را بهتر با انگیزه‌های انسانی همسو کنیم. با پیشرفت فناوری هوش مصنوعی، این نوع درک عمیق از “ذهن” سیستم‌های هوش مصنوعی برای اطمینان از توسعه ایمن و مفید آن‌ها ضروری خواهد بود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *