توهم یا Hallucination در هوش مصنوعی و جدیدترین رده‌بندی مدل‌ها بر اساس آن

توهم هوش مصنوعی ai-7.ir 00
4.7/5 - (4 امتیاز)

آخرین بروزرسانی در ۳۰ دی ۱۴۰۳ توسط Dr.Arman

هوش مصنوعی روزبه‌روز نقشی پررنگ‌تر در شکل‌دهی روندهای نوین و ارائه راهکارهای پیشرفته بر عهده می‌گیرد. سامانه‌های هوشمند مبتنی بر مدل‌های زبان بزرگ یا روش‌های یادگیری عمیق، توانسته‌اند با سرعتی چشمگیر بسیاری از فعالیت‌های روزمره و تخصصی را دچار تحولات بنیادین کنند. از کاربردهای متنوع در حوزه‌های درمانی، حقوقی و مالی گرفته تا کمک به تحلیل داده‌های حجیم و پیش‌بینی آیندهٔ بازارها، می‌توان ردپای هوش مصنوعی را در زوایای گوناگون زندگی مشاهده کرد. در همین حال، ظهور ابزارهای متعدد مبتنی بر هوش مصنوعی مولد (Generative AI) مثل ربات‌های گفتگو، دستیارهای هوشمند نوشتار، مدل‌های بینایی کامپیوتری و غیره نشان می‌دهد که تحول در شرف گسترش بی‌سابقه‌ای است. با این وجود، پرسشی حیاتی دربارهٔ دقت و صحت اطلاعاتی که این سیستم‌ها تولید می‌کنند، مطرح می‌شود. پدیده‌ای که گاه منجر به تولید اطلاعات نادرست یا بی‌پایه می‌گردد، در اصطلاح «توهم در مدل‌های هوش مصنوعی» نامیده می‌شود. یکی از دغدغه‌های اصلی کاربران و متخصصان، رده‌بندی مدل‌های هوش مصنوعی بر اساس میزان توهم است که می‌تواند نقش کلیدی در انتخاب بهترین راهکار برای کاربردهای حساس و پرمخاطره داشته باشد. در ادامه این رده‌بندی را مشاهده می‌فرمایید:

توهم هوش مصنوعی ai-7.ir 01

توهم یا Hallucination در هوش مصنوعی چیست؟

«توهم» (Hallucination) در حوزهٔ هوش مصنوعی، به تولید محتوای نادرست یا غیرمنطقی از سوی یک مدل زبان بزرگ (LLM) یا ابزار بینایی کامپیوتری گفته می‌شود. این پدیده زمانی رخ می‌دهد که مدل با توجه به داده‌های ورودی و الگوهای فراگرفته‌شده، به خروجی‌هایی دست می‌یابد که پایه و اساس واقعی ندارند. به بیان دیگر، مدل، الگوهایی را تشخیص می‌دهد که در دنیای واقعی وجود نداشته یا از نگاه انسان قابل رؤیت نیستند. در نتیجه، پاسخی که مدل ارائه می‌دهد، ممکن است حاوی اطلاعات کذب، غیرمستند یا حتی به‌طور کامل ساختگی باشد. این رفتار در نگاه نخست شاید تنها یک خطای معمولی تلقی شود، اما وقتی پای استفاده در مسائل حساسی مانند تشخیص بیماری، ارائهٔ مشاورهٔ حقوقی یا تصمیم‌گیری‌های مالی در میان باشد، می‌تواند تبعات خطرناک و زیانباری به همراه داشته باشد. به همین دلیل، فهم عمیق این مفهوم و شناسایی علل بروز آن، جزو اولویت‌های تحقیقاتی در عرصهٔ هوش مصنوعی است.

اهمیت توهم در کاربردهای روزمره و تخصصی

اهمیت پدیدهٔ توهم برای کاربران روزمره و متخصصان، طیف گسترده‌ای را در بر می‌گیرد. برای مثال، اگر یک ربات گفتگو یا چت‌بات مبتنی بر هوش مصنوعی در حوزهٔ پزشکی به پزشک یا بیمار اطلاعات نادرست بدهد، ممکن است تصمیم‌گیری درمانی اشتباه یا دیرهنگام اتفاق بیفتد. در حوزهٔ حقوقی نیز وکلایی که به کمک ابزارهای تحلیل اسناد از هوش مصنوعی بهره می‌برند، اگر با پاسخ‌های غیرمستند مواجه شوند، می‌توانند در دفاع از موکل خود دچار اشتباهات جدی شوند. در حوزهٔ اقتصادی و مالی هم، مدل‌های پیش‌بینی بازار یا تحلیل ریسک در صورت ارائهٔ اطلاعات نادرست می‌توانند سرمایه‌گذاری‌های کلان را به سمت شکست سوق دهند. بنابراین، مسئلهٔ توهم نه‌تنها وجههٔ علمی و تحقیقاتی دارد، بلکه مستقیماً بر زندگی روزمرهٔ افراد تأثیر گذاشته و به یک مسئلهٔ کلیدی بدل شده است. به همین خاطر، محققان و شرکت‌های بزرگ فناوری همواره در تلاش هستند تا با ارزیابی و بهبود مداوم مدل‌های خود، نرخ توهم را کاهش دهند و نتایج قابل اتکاتری ارائه کنند.

مروری بر معیار سنجش توهم و اهمیت آمار

برای بررسی دقیق و منسجم توهم در مدل‌های هوش مصنوعی، نیازمند معیارهایی هستیم که بتوانند به‌طور کمی و کیفی نرخ این پدیده را اندازه‌گیری کنند. یکی از روش‌های رایج، استفاده از مجموعهٔ اسناد یا متون مرجع است که توسط انسان یا منابع رسمی معتبر تولید شده‌اند. سپس مدل زبان بزرگ مورد آزمایش، خلاصه‌ای از آن اسناد ارائه می‌دهد. در مرحلهٔ بعد، خلاصه‌های تولیدشده با نسخهٔ مرجع مقایسه شده و هر گونه انحراف یا ادعای نادرست به عنوان نشانهٔ توهم ثبت می‌شود. در نهایت، تعداد این موارد توهمی در مقایسه با حجم کل خروجی‌ها، درصدی را نشان می‌دهد که به آن نرخ توهم گفته می‌شود. هرچه این نرخ پایین‌تر باشد، می‌توان گفت که مدل مورد نظر در بازتولید اطلاعات صحیح موفق‌تر عمل کرده است. ناگفته نماند که برخی از ابعاد توهم ممکن است ظریف باشند، مثل ادعاهای به‌ظاهر درست اما بی‌سند، که شناسایی آن‌ها مستلزم استفاده از مدل‌های دقیق‌تر یا حتی ارزیابی انسانی است. گزارش‌های آماری در این زمینه نشان می‌دهند که شرکت‌ها و سازمان‌های مختلف در حال رقابت برای کاهش نرخ توهم هستند و بهبود هرچند کوچک در این زمینه، می‌تواند شهرت و اعتماد به یک مدل را به‌طرز چشمگیری بالا ببرد.

داده‌های ارائه‌شده از سوی Vectara

طبق داده‌های جدیدی که شرکت Vectara جمع‌آوری کرده است، آزمونی بر روی مجموعه‌ای از مدل‌های زبان بزرگ انجام شده تا نرخ توهم هر کدام از آن‌ها مشخص شود. در این مطالعه، هر مدل موظف بود ۱۰۰۰ سند کوتاه را به شکل مختصر و مفید خلاصه کند. سپس یک مدل دیگر یا یک سیستم داوری ویژه طراحی شده برای تشخیص توهم، خلاصه‌ها را با متن مرجع مقایسه می‌کرد تا میزان تناقض و موارد اشتباه را کشف کند. نتیجهٔ این فرایند در یک جدول نمایش داده شده که ۱۵ مدل هوش مصنوعی برتر از نظر پایین بودن میزان توهم معرفی شده‌اند. نکتهٔ جالب اینجاست که برخی مدل‌های کوچکتر حتی عملکرد بهتری در زمینهٔ کاهش توهم از خود نشان داده‌اند. این داده‌ها تا ۱۱ دسامبر ۲۰۲۴ (۲۰ آذر ۱۴۰۳) به‌روز شده و منبعی مهم برای علاقه‌مندان و محققان محسوب می‌شود. در ادامه به بررسی جزییات این جدول و تحلیل هر مدل خواهیم پرداخت.

مروری بر جدول رده‌بندی و اسامی مدل‌ها

بر اساس آمار ارائه‌شده توسط Vectara، ۱۵ مدل هوش مصنوعی توانسته‌اند کمترین نرخ توهم را از خود نشان دهند. این مدل‌ها عبارت‌اند از:

  1. Zhipu AI GLM-4-9B-Chat از شرکت Zhipu AI (چین) با نرخ توهم ۱٫۳٪
  2. Google Gemini-2.0-Flash-Exp از گوگل (آمریکا) با نرخ توهم ۱٫۳٪
  3. OpenAI-o1-mini از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۴٪
  4. GPT-4o از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۵٪
  5. GPT-4o-mini از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۷٪
  6. GPT-4-Turbo از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۷٪
  7. GPT-4 از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۸٪
  8. GPT-3.5-Turbo از اوپن‌ای‌آی (آمریکا) با نرخ توهم ۱٫۹٪
  9. DeepSeek-V2.5 از شرکت DeepSeek (چین) با نرخ توهم ۲٫۴٪
  10. Microsoft Orca-2-13b از مایکروسافت (آمریکا) با نرخ توهم ۲٫۵٪
  11. Microsoft Phi-3.5-MoE-instruct از مایکروسافت (آمریکا) با نرخ توهم ۲٫۵٪
  12. Intel Neural-Chat-7B-v3-3 از اینتل (آمریکا) با نرخ توهم ۲٫۶٪
  13. Qwen2.5-7B-Instruct از علی‌بابا کلود (چین) با نرخ توهم ۲٫۸٪
  14. AI21 Jamba-1.5-Mini از AI21 Labs (اسرائیل) با نرخ توهم ۲٫۹٪
  15. Snowflake-Arctic-Instruct از اسنوفلیک (آمریکا) با نرخ توهم ۳٫۰٪

مشاهده می‌شود که نرخ توهم در بهترین حالت به ۱٫۳٪ می‌رسد که آمار بسیار مطلوبی محسوب می‌شود و به‌وضوح نشان می‌دهد که مدل‌های کوچک‌تر نیز می‌توانند در رقابتی تنگاتنگ با مدل‌های غول‌پیکر حضور داشته باشند. این در حالی است که اختلافات جزئی بین درصدها می‌تواند نشانگر تفاوت در معماری، حجم داده‌های آموزشی یا حتی هدف بهینه‌سازی این مدل‌ها باشد.

بررسی مدل‌های کوچک با عملکرد قابل‌توجه

یکی از نکات مهم و شاید شگفت‌انگیز در این جدول، حضور مدل‌های کوچک‌تری مانند Zhipu AI GLM-4-9B-Chat یا OpenAI-o1-mini در رتبه‌های برتر است. بسیاری از افراد و سازمان‌ها تصور می‌کنند که هرچه اندازهٔ مدل بزرگ‌تر باشد، دقت و کارآیی آن نیز بالاتر می‌رود. اگرچه در بسیاری از زمینه‌ها این ادعا صحیح است و مدل‌های بزرگ قابلیت درک و تولید محتوای پیچیده‌تری دارند، اما نتیجهٔ این رده‌بندی نشان می‌دهد که نرخ توهم الزاماً تابعی خطی از اندازهٔ مدل نیست. مدل‌های کوچک‌تر، به دلیل ساختار سبک‌تر و راهبردهای بهینه‌سازی متفاوت، می‌توانند در برخی وظایف حتی بهتر عمل کنند. این نکته از نظر اقتصادی و زیرساختی نیز مهم است: مدل‌های کوچک‌تر اغلب زمان کمتری برای پردازش نیاز دارند و هزینهٔ محاسباتی کمتری به همراه دارند. بنابراین، برای بسیاری از سازمان‌ها یا کسب‌وکارهای کوچک که مایل به استفاده از هوش مصنوعی در مقیاسی محدودتر هستند، توجه به این مدل‌ها می‌تواند تصمیم هوشمندانه‌ای باشد. به‌خصوص در مواردی که دقت در ارائه اطلاعات صحیح و کاهش احتمال خطا اهمیت ویژه‌ای دارد، مدل‌های کوچک ممکن است نه‌تنها به لحاظ صرفه‌جویی در هزینه، بلکه از حیث اعتمادپذیری نیز گزینه‌ای جذاب باشند.

مثال‌های عملی از تأثیر اندازهٔ مدل بر میزان توهم

برای درک بهتر تأثیر اندازهٔ مدل و میزان توهم، می‌توان به مثال‌های عملی از کاربردهای هوش مصنوعی اشاره کرد. فرض کنید یک شرکت تجزیه و تحلیل داده‌های مالی می‌خواهد از هوش مصنوعی برای ارائهٔ خلاصهٔ گزارش‌های فصلی بازار استفاده کند. اگر مدل مورد استفاده در این شرکت بسیار بزرگ باشد، احتمالاً این مدل نیازمند سخت‌افزارهای گران‌قیمت و قدرتمندی است. همچنین زمان پاسخ‌گویی آن ممکن است کندتر باشد و هزینهٔ راه‌اندازی و نگهداری نیز افزایش یابد. حال اگر یک مدل کوچک‌تر با نرخ توهم مشابه یا حتی بهتر در دسترس باشد، شرکت می‌تواند با صرف هزینهٔ کمتر، سرعت بالاتر و زیرساخت ساده‌تری به همان یا حتی دقت بالاتری دست یابد. این رویکرد در صنایع پزشکی و دارویی که مستلزم سرعت پاسخ‌گویی بالایی هستند نیز اهمیت می‌یابد. یک مدل کوچک اما دقیق می‌تواند نتیجهٔ قابل اتکایی را در مدت زمان کوتاهی ارائه دهد و راهکاری بهینه‌تر برای کاربردهایی باشد که هر ثانیه در آن‌ها حیاتی است.

دیدگاه اقتصادی و مدیریتی در انتخاب مدل

از منظر اقتصادی، انتخاب یک مدل هوش مصنوعی با نرخ توهم پایین می‌تواند هزینه‌های ناشی از اشتباهات یا تصمیم‌گیری‌های نادرست را کاهش دهد. در عین حال، باید در نظر گرفت که هر مدل بسته به اندازه و نیازهای زیرساختی‌اش، هزینه‌های متفاوتی در پی دارد. شرکت‌های بزرگ غالباً به دنبال مدل‌های پرظرفیت و قدرتمند هستند تا بتوانند طیف وسیعی از وظایف پیچیده را پوشش دهند. با این حال، همان‌طور که دیدیم، مدل‌های کوچک‌تری نیز وجود دارند که از لحاظ دقت و میزان توهم، قابل رقابت هستند. از دیدگاه مدیریتی، یافتن تعادل میان «هزینهٔ اجرای مدل» و «نرخ توهم» کلید موفقیت در پیاده‌سازی پروژه‌های هوش مصنوعی است. اگر یک سازمان به اطلاعات بسیار دقیق برای اتخاذ تصمیمات استراتژیک نیاز دارد، احتمالاً ترجیح خواهد داد از مدل‌هایی با نرخ توهم پایین‌تر استفاده کند، هرچند هزینه‌برتر باشند. در سوی دیگر، اگر یک پروژه نیازی به دقت فوق‌العاده بالا نداشته باشد یا در حوزه‌ای کم‌خطر فعالیت کند، می‌تواند از مدل‌های میان‌رده با سرعت و هزینهٔ مناسب بهره بگیرد. مهم آن است که مدیریت سازمان بتواند بر اساس اولویت‌ها و منابع در دسترس، بهترین تصمیم را بگیرد.

نقش اندازه و معماری مدل در نرخ توهم

بر اساس گفته‌های شرکت Vectara و سایر مطالعات، اندازهٔ مدل و معماری آن نقش مهمی در ایجاد توهم دارند، اما لزوماً نمی‌توان گفت که مدل بزرگ‌تر حتماً بهتر عمل می‌کند. هر مدل بسته به هدف طراحی، داده‌های آموزشی، و شیوهٔ بهینه‌سازی، ویژگی‌های منحصربه‌فردی در ساختار داخلی خود دارد. برای مثال، معماری‌هایی که بر چندسر توجه (Multi-head Attention) یا حافظهٔ طولانی‌مدت (Long-Short Term Memory) تمرکز دارند، می‌توانند جنبه‌های خاصی از زبان را بهتر تحلیل کرده و نرخ خطا را کاهش دهند. با این حال، اگر این معماری‌ها روی داده‌های نامناسب یا ناکافی آموزش ببینند، احتمال تولید اطلاعات نادرست افزایش می‌یابد. از سوی دیگر، مدل‌های کوچکتر با طراحی تخصصی برای یک حوزهٔ خاص، ممکن است عملکرد بهتری نسبت به مدل‌های عمومی بزرگ داشته باشند. نتیجه آنکه، طراحی و پیاده‌سازی هوشمندانه و متناسب با نیازمندی‌های واقعی، مهم‌تر از صرفاً افزایش اندازهٔ مدل است.

تکنیک‌های کاهش توهم در مدل‌های هوش مصنوعی

توسعه‌دهندگان و محققان در پی یافتن راهکارهایی هستند تا نرخ توهم را به حداقل برسانند. برخی از این تکنیک‌ها عبارت‌اند از:

  • تنظیم دقیق (Fine-tuning): استفاده از داده‌های تخصصی و غنی برای آموزش مجدد مدل به‌منظور کاهش خطا.
  • بازخورد انسانی (Human-in-the-loop): در بسیاری از سیستم‌های حساس، قبل از نهایی شدن خروجی، یک متخصص انسانی نتایج مدل را بازبینی می‌کند تا موارد غلط اصلاح شوند.
  • آموزش چندمرحله‌ای: تقسیم فرایند تولید متن به چند مرحله و استفاده از مدل‌های متفاوت یا رویکردهای ارزیابی متعدد، می‌تواند به شناسایی و تصحیح اشتباهات پیش از ارائهٔ خروجی نهایی کمک کند.
  • کنترل تناقضات داخلی: برخی روش‌های ارزیابی خودکار سعی می‌کنند تناقضات داخلی در متن را تشخیص داده و از نتیجه نهایی حذف کنند.

این تلاش‌ها نشان می‌دهد که جامعهٔ تحقیقاتی هوش مصنوعی به اهمیت کاهش توهم کاملاً واقف شده و روند نوآوری در این زمینه به‌سرعت در حال پیشروی است. همچنین شرکت‌های ارائه‌دهندهٔ خدمات ابری یا API برای هوش مصنوعی، در حال اضافه کردن قابلیت‌های نظارتی هستند تا کاربران بتوانند نرخ توهم خروجی‌ها را بررسی و پایش کنند.

جمع‌بندی

بدون تردید، کاهش نرخ توهم در مدل‌های هوش مصنوعی تولید متن به یکی از اولویت‌های مهم صنعت فناوری تبدیل شده است. با توجه به داده‌های ارائه‌شده و جدول رده‌بندی مدل‌ها، می‌توان دریافت که پیشرفت‌های چشمگیری در این زمینه صورت گرفته و مدل‌هایی با نرخ توهم نزدیک به یک درصد یا حتی کمتر نیز ظهور کرده‌اند. همچنین روشن شد که کوچک یا بزرگ بودن مدل، به‌تنهایی تعیین‌کنندهٔ دقت نهایی آن نیست و عوامل مهم دیگری همچون کیفیت داده‌ها، معماری شبکه و روش‌های بهینه‌سازی نیز در این امر دخیل هستند. در پایان، نباید از یاد برد که رده‌بندی مدل‌های هوش مصنوعی بر اساس میزان توهم تنها یکی از شاخص‌های ارزیابی این ابزارها است. عوامل دیگری مانند سرعت پاسخ، هزینهٔ زیرساخت و امنیت داده‌ها نیز می‌توانند در تصمیم‌گیری نهایی کاربران مؤثر باشند. از این رو، همواره پیشنهاد می‌شود که ترکیبی از شاخص‌ها را مدنظر قرار داده و در زمینه‌های حیاتی با دقتی مضاعف عمل کنیم. در هر صورت، در آینده‌ای نه‌چندان دور، به لطف رقابت سازنده بین شرکت‌های پیشرو و ظهور استارتاپ‌های خلاق، احتمالاً شاهد مدل‌هایی خواهیم بود که نرخ توهم در آن‌ها به طرز قابل‌ملاحظه‌ای کاهش یافته و اعتماد کاربران به فناوری هوش مصنوعی بیش از پیش تقویت شود. به این ترتیب، می‌توان انتظار داشت که هوش مصنوعی در حالی به تکامل خود ادامه دهد که رده‌بندی مدل‌های هوش مصنوعی بر اساس میزان توهم همچنان به عنوان معیاری حیاتی برای انتخاب بهترین گزینه در حوزه‌های مختلف مورد استفاده قرار گیرد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *