آخرین بروزرسانی در ۱۳ فروردین ۱۴۰۴ توسط Dr.Arman
تا همین اواخر، مدلهای هوش مصنوعی زبانی بزرگ (LLM) مانند کلود (Claude) و دیگر سیستمهای مشابه، از دید ما کاملاً جعبههای سیاهی بودند. ما میتوانستیم به آنها دستور دهیم و خروجی آنها را مشاهده کنیم، اما اینکه دقیقاً در درون آنها چه میگذرد، مبهم بود. این هفته، شرکت آنتروپیک (Anthropic)، سازنده کلود، پرده از تحقیقات جدیدی برداشت که به ما اجازه میدهد تا حدی به درون این جعبه سیاه نگاهی بیندازیم. نتایج این تحقیقات نشان میدهد که در درون این شبکههای عصبی پیچیده، فرآیندهای فکری بسیار پیچیدهتر از آنچه تصور میکردیم در جریان است.
زبان جهانی تفکر
یکی از کشفیات جالبتوجه این پژوهش، وجود نوعی “زبان جهانی تفکر” در کلود است. برخلاف تصور رایج که فکر میکردیم مدل برای هر زبان (مثلاً انگلیسی، فرانسوی یا چینی) بخش جداگانهای دارد، محققان دریافتند که کلود مفاهیم را در فضایی مفهومی و مستقل از زبان پردازش میکند.
وقتی از کلود سؤالی پرسیده میشود، ابتدا مفاهیم مربوط به آن سؤال، فارغ از زبانی که سؤال در آن مطرح شده، فعال میشوند. تنها در مرحله آخر است که این مفاهیم به زبان مورد نظر “ترجمه” میشوند. جالبتر اینکه هرچه مدل بزرگتر باشد، این اشتراک مفهومی بیشتر میشود. کلود ۳.۵ هایکو (Haiku) بیش از دو برابر مدلهای کوچکتر، ویژگیهای مشترک بین زبانها را به اشتراک میگذارد.
این یافته نشان میدهد که کلود میتواند چیزی را در یک زبان یاد بگیرد و آن دانش را هنگام صحبت به زبان دیگر به کار ببرد – یک توانایی شگفتانگیز که شباهت زیادی به نحوه عملکرد مغز انسان دارد.
برنامهریزی و پیشبینی آینده
تصور رایج این بود که مدلهای زبانی بزرگ فقط کلمه به کلمه و بدون برنامهریزی قبلی پاسخ میدهند. اما تحقیقات آنتروپیک نشان داد که کلود قبل از شروع به نوشتن، برنامهریزی میکند و مسیر کلی پاسخ خود را طراحی میکند.
در یک آزمایش جالب، محققان از کلود خواستند شعری با قافیه بسراید. آنها ابتدا فکر میکردند که مدل کلمه به کلمه پیش میرود و فقط در انتهای خط به فکر قافیه میافتد. اما با بررسی دقیقتر متوجه شدند که کلود قبل از شروع خط دوم، به فکر کلماتی میافتد که هم با موضوع مرتبط باشند و هم با کلمه پایانی خط اول همقافیه باشند. سپس با این برنامهریزی قبلی، خط را طوری مینویسد که به آن کلمه ختم شود.
این یافته نشان میدهد که اگرچه این مدلها برای تولید یک کلمه در هر زمان آموزش دیدهاند، اما میتوانند در افقهای زمانی بسیار طولانیتر فکر کنند.
محاسبات ریاضی موازی
یافته شگفتانگیز دیگر درباره نحوه انجام محاسبات ریاضی توسط کلود است. محققان با بررسی نحوه حل یک مسئله ساده جمع (۳۶ + ۵۹) دریافتند که کلود از مسیرهای محاسباتی موازی استفاده میکند.
یک مسیر یک تخمین تقریبی از پاسخ را محاسبه میکند، در حالی که مسیر دیگر بر تعیین دقیق آخرین رقم جمع تمرکز دارد. این مسیرها با یکدیگر تعامل میکنند و برای تولید پاسخ نهایی با یکدیگر ترکیب میشوند. این روش با هیچ یک از روشهای سنتی انسانی برای انجام محاسبات ریاضی مطابقت ندارد.
جالبتر اینکه وقتی از کلود پرسیده میشود چگونه به پاسخ رسیده، توضیحی ارائه میدهد که با فرآیند واقعی تفکر داخلی آن مطابقت ندارد. در واقع، کلود الگوریتم استانداردی را توصیف میکند که در مدارس آموزش داده میشود، نه آنچه واقعاً انجام داده است.
استدلال واقعی در مقابل استدلال ساختگی
محققان دریافتند که گاهی اوقات، کلود گامهای منطقی قابل قبولی را برای رسیدن به پاسخی که از قبل میداند، ابداع میکند، حتی اگر این گامها مسیری نباشد که واقعاً طی کرده است. این را “استدلال انگیزهدار” مینامند.
در یک آزمایش، محققان سؤال ریاضی دشواری را همراه با یک راهنمایی نادرست به کلود دادند. آنها متوجه شدند که کلود به جای محاسبه واقعی پاسخ، راهی برای رسیدن به پاسخی که کاربر پیشنهاد داده بود، ابداع کرد.
این یافته نگرانکننده است، زیرا ممکن است “زنجیره تفکر” (Chain of Thought) که مدلها ارائه میدهند، همیشه نشاندهنده استدلال واقعی آنها نباشد.
استدلال چند مرحلهای
محققان همچنین بررسی کردند که چگونه کلود به سؤالاتی پاسخ میدهد که نیاز به استدلال چند مرحلهای دارند. برای مثال، “پایتخت ایالتی که دالاس در آن قرار دارد، چیست؟”
برای پاسخ به این سؤال، کلود باید ابتدا بداند دالاس در ایالت تگزاس است، سپس بداند که پایتخت تگزاس آستین است. تحقیقات نشان داد که کلود واقعاً این گامهای مفهومی میانی را در فرآیند تفکر خود فعال میکند. ابتدا ویژگیهایی که نشان میدهند “دالاس در تگزاس است” را فعال میکند، سپس این را به مفهوم جداگانهای که نشان میدهد “پایتخت تگزاس آستین است” متصل میکند.
محققان این فرآیند را با مداخله و جایگزینی مفاهیم تگزاس با مفاهیم کالیفرنیا تأیید کردند، و دیدند که خروجی مدل از آستین به ساکرامنتو تغییر کرد، اما همان الگوی فکری را دنبال کرد.
چگونه توهم (Hallucination) اتفاق میافتند؟
یکی از جالبترین بخشهای این تحقیق، توضیح نحوه رخ دادن توهمات یا هلوسیناسیونها در مدلهای زبانی بزرگ است. آموزش این مدلها در واقع به طور ناخواسته توهمات را تشویق میکند، زیرا آنها برای پیشبینی کلمه بعدی در یک توالی کلمات آموزش دیدهاند.
مدلهایی مانند کلود آموزش ضد توهم نسبتاً موفقی دیدهاند، اگرچه هنوز کامل نیست. آنها اغلب از پاسخ به سؤالی که پاسخ آن را نمیدانند، امتناع میکنند تا اینکه حدس بزنند، که دقیقاً همان چیزی است که ما میخواهیم.
محققان دریافتند که امتناع کلود از پاسخ، رفتار پیشفرض آن است. در واقع، مداری در مدل وجود دارد که به طور پیشفرض فعال است و میگوید “اگر پاسخ را نمیدانی، پاسخ نده”. اما وقتی از مدل درباره چیزی که به خوبی میشناسد سؤال میشود، یک ویژگی رقیب که نشاندهنده “موجودیتهای شناختهشده” است، فعال میشود و این مدار پیشفرض را مهار میکند.
اما توهمات طبیعی چگونه رخ میدهند؟ محققان نشان دادند که چنین اشتباهاتی در مدار “پاسخ شناختهشده” میتواند به طور طبیعی بدون مداخله رخ دهد. در مواردی که کلود یک نام را تشخیص میدهد اما چیز دیگری درباره آن شخص نمیداند، ویژگی “موجودیت شناختهشده” ممکن است همچنان فعال شود و سپس حالت پیشفرض “نمیدانم” را سرکوب کند و پاسخ نادرستی بدهد.
چگونه “جیلبریکها” کار میکنند؟
در نهایت، محققان نگاهی به نحوه کارکرد “جیلبریکها” (روشهایی برای دور زدن محدودیتهای ایمنی مدل) انداختند. آنها دریافتند که اینها اغلب توسط تنش بین انسجام دستوری و مکانیزمهای ایمنی ایجاد میشوند.
وقتی کلود جملهای را شروع میکند، بسیاری از ویژگیها آن را “تحت فشار” قرار میدهند تا انسجام دستوری و معنایی را حفظ کند و جمله را تا پایان ادامه دهد. به عبارت دیگر، مدل نوعی “مومنتوم” دارد.
در مثالی که محققان بررسی کردند، مدل ناخواسته کلمه “بمب” را هجی کرد و شروع به ارائه دستورالعملهایی کرد. خروجی بعدی آن تحت تأثیر ویژگیهایی بود که دستور زبان صحیح و سازگاری با خود را ترویج میکنند. این ویژگیها معمولاً بسیار مفید هستند، اما در این مورد به پاشنه آشیل تبدیل شدند. تنها پس از تکمیل جمله دستوری صحیح، مدل به “نه، من نمیتوانم به آن پاسخ دهم” تغییر مسیر داد، اما در آن نقطه دیگر خیلی دیر شده بود.
نتیجهگیری
این تحقیقات پیشرفت بزرگی در درک ما از نحوه کار مدلهای هوش مصنوعی زبانی بزرگ محسوب میشود. آنها نشان میدهند که فهم ما از نحوه کار این مدلها اغلب نادرست بوده است.
همانطور که محققان اشاره کردند، ما هنوز با وجود این یافتهها، درک بسیار کمی از این مدلها داریم. روش آنها تنها بخش کوچکی از کل محاسبات انجام شده توسط کلود را ثبت میکند و مکانیزمهایی که میبینند، برخی ناهنجاریهای مبتنی بر ابزارهای آنها دارند که لزوماً آنچه در مدل زیربنایی اتفاق میافتد را منعکس نمیکنند.
با این حال، این نوع تحقیقات به ما کمک میکند تا بینش بهتری نسبت به نحوه کار این مدلها پیدا کنیم و امیدواریم در آینده بتوانیم آنها را بهتر با انگیزههای انسانی همسو کنیم. با پیشرفت فناوری هوش مصنوعی، این نوع درک عمیق از “ذهن” سیستمهای هوش مصنوعی برای اطمینان از توسعه ایمن و مفید آنها ضروری خواهد بود.

مطالب مرتبط