آخرین بروزرسانی در ۳۰ دی ۱۴۰۳ توسط Dr.Arman
هوش مصنوعی روزبهروز نقشی پررنگتر در شکلدهی روندهای نوین و ارائه راهکارهای پیشرفته بر عهده میگیرد. سامانههای هوشمند مبتنی بر مدلهای زبان بزرگ یا روشهای یادگیری عمیق، توانستهاند با سرعتی چشمگیر بسیاری از فعالیتهای روزمره و تخصصی را دچار تحولات بنیادین کنند. از کاربردهای متنوع در حوزههای درمانی، حقوقی و مالی گرفته تا کمک به تحلیل دادههای حجیم و پیشبینی آیندهٔ بازارها، میتوان ردپای هوش مصنوعی را در زوایای گوناگون زندگی مشاهده کرد. در همین حال، ظهور ابزارهای متعدد مبتنی بر هوش مصنوعی مولد (Generative AI) مثل رباتهای گفتگو، دستیارهای هوشمند نوشتار، مدلهای بینایی کامپیوتری و غیره نشان میدهد که تحول در شرف گسترش بیسابقهای است. با این وجود، پرسشی حیاتی دربارهٔ دقت و صحت اطلاعاتی که این سیستمها تولید میکنند، مطرح میشود. پدیدهای که گاه منجر به تولید اطلاعات نادرست یا بیپایه میگردد، در اصطلاح «توهم در مدلهای هوش مصنوعی» نامیده میشود. یکی از دغدغههای اصلی کاربران و متخصصان، ردهبندی مدلهای هوش مصنوعی بر اساس میزان توهم است که میتواند نقش کلیدی در انتخاب بهترین راهکار برای کاربردهای حساس و پرمخاطره داشته باشد. در ادامه این ردهبندی را مشاهده میفرمایید:
توهم یا Hallucination در هوش مصنوعی چیست؟
«توهم» (Hallucination) در حوزهٔ هوش مصنوعی، به تولید محتوای نادرست یا غیرمنطقی از سوی یک مدل زبان بزرگ (LLM) یا ابزار بینایی کامپیوتری گفته میشود. این پدیده زمانی رخ میدهد که مدل با توجه به دادههای ورودی و الگوهای فراگرفتهشده، به خروجیهایی دست مییابد که پایه و اساس واقعی ندارند. به بیان دیگر، مدل، الگوهایی را تشخیص میدهد که در دنیای واقعی وجود نداشته یا از نگاه انسان قابل رؤیت نیستند. در نتیجه، پاسخی که مدل ارائه میدهد، ممکن است حاوی اطلاعات کذب، غیرمستند یا حتی بهطور کامل ساختگی باشد. این رفتار در نگاه نخست شاید تنها یک خطای معمولی تلقی شود، اما وقتی پای استفاده در مسائل حساسی مانند تشخیص بیماری، ارائهٔ مشاورهٔ حقوقی یا تصمیمگیریهای مالی در میان باشد، میتواند تبعات خطرناک و زیانباری به همراه داشته باشد. به همین دلیل، فهم عمیق این مفهوم و شناسایی علل بروز آن، جزو اولویتهای تحقیقاتی در عرصهٔ هوش مصنوعی است.
اهمیت توهم در کاربردهای روزمره و تخصصی
اهمیت پدیدهٔ توهم برای کاربران روزمره و متخصصان، طیف گستردهای را در بر میگیرد. برای مثال، اگر یک ربات گفتگو یا چتبات مبتنی بر هوش مصنوعی در حوزهٔ پزشکی به پزشک یا بیمار اطلاعات نادرست بدهد، ممکن است تصمیمگیری درمانی اشتباه یا دیرهنگام اتفاق بیفتد. در حوزهٔ حقوقی نیز وکلایی که به کمک ابزارهای تحلیل اسناد از هوش مصنوعی بهره میبرند، اگر با پاسخهای غیرمستند مواجه شوند، میتوانند در دفاع از موکل خود دچار اشتباهات جدی شوند. در حوزهٔ اقتصادی و مالی هم، مدلهای پیشبینی بازار یا تحلیل ریسک در صورت ارائهٔ اطلاعات نادرست میتوانند سرمایهگذاریهای کلان را به سمت شکست سوق دهند. بنابراین، مسئلهٔ توهم نهتنها وجههٔ علمی و تحقیقاتی دارد، بلکه مستقیماً بر زندگی روزمرهٔ افراد تأثیر گذاشته و به یک مسئلهٔ کلیدی بدل شده است. به همین خاطر، محققان و شرکتهای بزرگ فناوری همواره در تلاش هستند تا با ارزیابی و بهبود مداوم مدلهای خود، نرخ توهم را کاهش دهند و نتایج قابل اتکاتری ارائه کنند.
مروری بر معیار سنجش توهم و اهمیت آمار
برای بررسی دقیق و منسجم توهم در مدلهای هوش مصنوعی، نیازمند معیارهایی هستیم که بتوانند بهطور کمی و کیفی نرخ این پدیده را اندازهگیری کنند. یکی از روشهای رایج، استفاده از مجموعهٔ اسناد یا متون مرجع است که توسط انسان یا منابع رسمی معتبر تولید شدهاند. سپس مدل زبان بزرگ مورد آزمایش، خلاصهای از آن اسناد ارائه میدهد. در مرحلهٔ بعد، خلاصههای تولیدشده با نسخهٔ مرجع مقایسه شده و هر گونه انحراف یا ادعای نادرست به عنوان نشانهٔ توهم ثبت میشود. در نهایت، تعداد این موارد توهمی در مقایسه با حجم کل خروجیها، درصدی را نشان میدهد که به آن نرخ توهم گفته میشود. هرچه این نرخ پایینتر باشد، میتوان گفت که مدل مورد نظر در بازتولید اطلاعات صحیح موفقتر عمل کرده است. ناگفته نماند که برخی از ابعاد توهم ممکن است ظریف باشند، مثل ادعاهای بهظاهر درست اما بیسند، که شناسایی آنها مستلزم استفاده از مدلهای دقیقتر یا حتی ارزیابی انسانی است. گزارشهای آماری در این زمینه نشان میدهند که شرکتها و سازمانهای مختلف در حال رقابت برای کاهش نرخ توهم هستند و بهبود هرچند کوچک در این زمینه، میتواند شهرت و اعتماد به یک مدل را بهطرز چشمگیری بالا ببرد.
دادههای ارائهشده از سوی Vectara
طبق دادههای جدیدی که شرکت Vectara جمعآوری کرده است، آزمونی بر روی مجموعهای از مدلهای زبان بزرگ انجام شده تا نرخ توهم هر کدام از آنها مشخص شود. در این مطالعه، هر مدل موظف بود ۱۰۰۰ سند کوتاه را به شکل مختصر و مفید خلاصه کند. سپس یک مدل دیگر یا یک سیستم داوری ویژه طراحی شده برای تشخیص توهم، خلاصهها را با متن مرجع مقایسه میکرد تا میزان تناقض و موارد اشتباه را کشف کند. نتیجهٔ این فرایند در یک جدول نمایش داده شده که ۱۵ مدل هوش مصنوعی برتر از نظر پایین بودن میزان توهم معرفی شدهاند. نکتهٔ جالب اینجاست که برخی مدلهای کوچکتر حتی عملکرد بهتری در زمینهٔ کاهش توهم از خود نشان دادهاند. این دادهها تا ۱۱ دسامبر ۲۰۲۴ (۲۰ آذر ۱۴۰۳) بهروز شده و منبعی مهم برای علاقهمندان و محققان محسوب میشود. در ادامه به بررسی جزییات این جدول و تحلیل هر مدل خواهیم پرداخت.
مروری بر جدول ردهبندی و اسامی مدلها
بر اساس آمار ارائهشده توسط Vectara، ۱۵ مدل هوش مصنوعی توانستهاند کمترین نرخ توهم را از خود نشان دهند. این مدلها عبارتاند از:
- Zhipu AI GLM-4-9B-Chat از شرکت Zhipu AI (چین) با نرخ توهم ۱٫۳٪
- Google Gemini-2.0-Flash-Exp از گوگل (آمریکا) با نرخ توهم ۱٫۳٪
- OpenAI-o1-mini از اوپنایآی (آمریکا) با نرخ توهم ۱٫۴٪
- GPT-4o از اوپنایآی (آمریکا) با نرخ توهم ۱٫۵٪
- GPT-4o-mini از اوپنایآی (آمریکا) با نرخ توهم ۱٫۷٪
- GPT-4-Turbo از اوپنایآی (آمریکا) با نرخ توهم ۱٫۷٪
- GPT-4 از اوپنایآی (آمریکا) با نرخ توهم ۱٫۸٪
- GPT-3.5-Turbo از اوپنایآی (آمریکا) با نرخ توهم ۱٫۹٪
- DeepSeek-V2.5 از شرکت DeepSeek (چین) با نرخ توهم ۲٫۴٪
- Microsoft Orca-2-13b از مایکروسافت (آمریکا) با نرخ توهم ۲٫۵٪
- Microsoft Phi-3.5-MoE-instruct از مایکروسافت (آمریکا) با نرخ توهم ۲٫۵٪
- Intel Neural-Chat-7B-v3-3 از اینتل (آمریکا) با نرخ توهم ۲٫۶٪
- Qwen2.5-7B-Instruct از علیبابا کلود (چین) با نرخ توهم ۲٫۸٪
- AI21 Jamba-1.5-Mini از AI21 Labs (اسرائیل) با نرخ توهم ۲٫۹٪
- Snowflake-Arctic-Instruct از اسنوفلیک (آمریکا) با نرخ توهم ۳٫۰٪
مشاهده میشود که نرخ توهم در بهترین حالت به ۱٫۳٪ میرسد که آمار بسیار مطلوبی محسوب میشود و بهوضوح نشان میدهد که مدلهای کوچکتر نیز میتوانند در رقابتی تنگاتنگ با مدلهای غولپیکر حضور داشته باشند. این در حالی است که اختلافات جزئی بین درصدها میتواند نشانگر تفاوت در معماری، حجم دادههای آموزشی یا حتی هدف بهینهسازی این مدلها باشد.
بررسی مدلهای کوچک با عملکرد قابلتوجه
یکی از نکات مهم و شاید شگفتانگیز در این جدول، حضور مدلهای کوچکتری مانند Zhipu AI GLM-4-9B-Chat یا OpenAI-o1-mini در رتبههای برتر است. بسیاری از افراد و سازمانها تصور میکنند که هرچه اندازهٔ مدل بزرگتر باشد، دقت و کارآیی آن نیز بالاتر میرود. اگرچه در بسیاری از زمینهها این ادعا صحیح است و مدلهای بزرگ قابلیت درک و تولید محتوای پیچیدهتری دارند، اما نتیجهٔ این ردهبندی نشان میدهد که نرخ توهم الزاماً تابعی خطی از اندازهٔ مدل نیست. مدلهای کوچکتر، به دلیل ساختار سبکتر و راهبردهای بهینهسازی متفاوت، میتوانند در برخی وظایف حتی بهتر عمل کنند. این نکته از نظر اقتصادی و زیرساختی نیز مهم است: مدلهای کوچکتر اغلب زمان کمتری برای پردازش نیاز دارند و هزینهٔ محاسباتی کمتری به همراه دارند. بنابراین، برای بسیاری از سازمانها یا کسبوکارهای کوچک که مایل به استفاده از هوش مصنوعی در مقیاسی محدودتر هستند، توجه به این مدلها میتواند تصمیم هوشمندانهای باشد. بهخصوص در مواردی که دقت در ارائه اطلاعات صحیح و کاهش احتمال خطا اهمیت ویژهای دارد، مدلهای کوچک ممکن است نهتنها به لحاظ صرفهجویی در هزینه، بلکه از حیث اعتمادپذیری نیز گزینهای جذاب باشند.
مثالهای عملی از تأثیر اندازهٔ مدل بر میزان توهم
برای درک بهتر تأثیر اندازهٔ مدل و میزان توهم، میتوان به مثالهای عملی از کاربردهای هوش مصنوعی اشاره کرد. فرض کنید یک شرکت تجزیه و تحلیل دادههای مالی میخواهد از هوش مصنوعی برای ارائهٔ خلاصهٔ گزارشهای فصلی بازار استفاده کند. اگر مدل مورد استفاده در این شرکت بسیار بزرگ باشد، احتمالاً این مدل نیازمند سختافزارهای گرانقیمت و قدرتمندی است. همچنین زمان پاسخگویی آن ممکن است کندتر باشد و هزینهٔ راهاندازی و نگهداری نیز افزایش یابد. حال اگر یک مدل کوچکتر با نرخ توهم مشابه یا حتی بهتر در دسترس باشد، شرکت میتواند با صرف هزینهٔ کمتر، سرعت بالاتر و زیرساخت سادهتری به همان یا حتی دقت بالاتری دست یابد. این رویکرد در صنایع پزشکی و دارویی که مستلزم سرعت پاسخگویی بالایی هستند نیز اهمیت مییابد. یک مدل کوچک اما دقیق میتواند نتیجهٔ قابل اتکایی را در مدت زمان کوتاهی ارائه دهد و راهکاری بهینهتر برای کاربردهایی باشد که هر ثانیه در آنها حیاتی است.
دیدگاه اقتصادی و مدیریتی در انتخاب مدل
از منظر اقتصادی، انتخاب یک مدل هوش مصنوعی با نرخ توهم پایین میتواند هزینههای ناشی از اشتباهات یا تصمیمگیریهای نادرست را کاهش دهد. در عین حال، باید در نظر گرفت که هر مدل بسته به اندازه و نیازهای زیرساختیاش، هزینههای متفاوتی در پی دارد. شرکتهای بزرگ غالباً به دنبال مدلهای پرظرفیت و قدرتمند هستند تا بتوانند طیف وسیعی از وظایف پیچیده را پوشش دهند. با این حال، همانطور که دیدیم، مدلهای کوچکتری نیز وجود دارند که از لحاظ دقت و میزان توهم، قابل رقابت هستند. از دیدگاه مدیریتی، یافتن تعادل میان «هزینهٔ اجرای مدل» و «نرخ توهم» کلید موفقیت در پیادهسازی پروژههای هوش مصنوعی است. اگر یک سازمان به اطلاعات بسیار دقیق برای اتخاذ تصمیمات استراتژیک نیاز دارد، احتمالاً ترجیح خواهد داد از مدلهایی با نرخ توهم پایینتر استفاده کند، هرچند هزینهبرتر باشند. در سوی دیگر، اگر یک پروژه نیازی به دقت فوقالعاده بالا نداشته باشد یا در حوزهای کمخطر فعالیت کند، میتواند از مدلهای میانرده با سرعت و هزینهٔ مناسب بهره بگیرد. مهم آن است که مدیریت سازمان بتواند بر اساس اولویتها و منابع در دسترس، بهترین تصمیم را بگیرد.
نقش اندازه و معماری مدل در نرخ توهم
بر اساس گفتههای شرکت Vectara و سایر مطالعات، اندازهٔ مدل و معماری آن نقش مهمی در ایجاد توهم دارند، اما لزوماً نمیتوان گفت که مدل بزرگتر حتماً بهتر عمل میکند. هر مدل بسته به هدف طراحی، دادههای آموزشی، و شیوهٔ بهینهسازی، ویژگیهای منحصربهفردی در ساختار داخلی خود دارد. برای مثال، معماریهایی که بر چندسر توجه (Multi-head Attention) یا حافظهٔ طولانیمدت (Long-Short Term Memory) تمرکز دارند، میتوانند جنبههای خاصی از زبان را بهتر تحلیل کرده و نرخ خطا را کاهش دهند. با این حال، اگر این معماریها روی دادههای نامناسب یا ناکافی آموزش ببینند، احتمال تولید اطلاعات نادرست افزایش مییابد. از سوی دیگر، مدلهای کوچکتر با طراحی تخصصی برای یک حوزهٔ خاص، ممکن است عملکرد بهتری نسبت به مدلهای عمومی بزرگ داشته باشند. نتیجه آنکه، طراحی و پیادهسازی هوشمندانه و متناسب با نیازمندیهای واقعی، مهمتر از صرفاً افزایش اندازهٔ مدل است.
تکنیکهای کاهش توهم در مدلهای هوش مصنوعی
توسعهدهندگان و محققان در پی یافتن راهکارهایی هستند تا نرخ توهم را به حداقل برسانند. برخی از این تکنیکها عبارتاند از:
- تنظیم دقیق (Fine-tuning): استفاده از دادههای تخصصی و غنی برای آموزش مجدد مدل بهمنظور کاهش خطا.
- بازخورد انسانی (Human-in-the-loop): در بسیاری از سیستمهای حساس، قبل از نهایی شدن خروجی، یک متخصص انسانی نتایج مدل را بازبینی میکند تا موارد غلط اصلاح شوند.
- آموزش چندمرحلهای: تقسیم فرایند تولید متن به چند مرحله و استفاده از مدلهای متفاوت یا رویکردهای ارزیابی متعدد، میتواند به شناسایی و تصحیح اشتباهات پیش از ارائهٔ خروجی نهایی کمک کند.
- کنترل تناقضات داخلی: برخی روشهای ارزیابی خودکار سعی میکنند تناقضات داخلی در متن را تشخیص داده و از نتیجه نهایی حذف کنند.
این تلاشها نشان میدهد که جامعهٔ تحقیقاتی هوش مصنوعی به اهمیت کاهش توهم کاملاً واقف شده و روند نوآوری در این زمینه بهسرعت در حال پیشروی است. همچنین شرکتهای ارائهدهندهٔ خدمات ابری یا API برای هوش مصنوعی، در حال اضافه کردن قابلیتهای نظارتی هستند تا کاربران بتوانند نرخ توهم خروجیها را بررسی و پایش کنند.
جمعبندی
بدون تردید، کاهش نرخ توهم در مدلهای هوش مصنوعی تولید متن به یکی از اولویتهای مهم صنعت فناوری تبدیل شده است. با توجه به دادههای ارائهشده و جدول ردهبندی مدلها، میتوان دریافت که پیشرفتهای چشمگیری در این زمینه صورت گرفته و مدلهایی با نرخ توهم نزدیک به یک درصد یا حتی کمتر نیز ظهور کردهاند. همچنین روشن شد که کوچک یا بزرگ بودن مدل، بهتنهایی تعیینکنندهٔ دقت نهایی آن نیست و عوامل مهم دیگری همچون کیفیت دادهها، معماری شبکه و روشهای بهینهسازی نیز در این امر دخیل هستند. در پایان، نباید از یاد برد که ردهبندی مدلهای هوش مصنوعی بر اساس میزان توهم تنها یکی از شاخصهای ارزیابی این ابزارها است. عوامل دیگری مانند سرعت پاسخ، هزینهٔ زیرساخت و امنیت دادهها نیز میتوانند در تصمیمگیری نهایی کاربران مؤثر باشند. از این رو، همواره پیشنهاد میشود که ترکیبی از شاخصها را مدنظر قرار داده و در زمینههای حیاتی با دقتی مضاعف عمل کنیم. در هر صورت، در آیندهای نهچندان دور، به لطف رقابت سازنده بین شرکتهای پیشرو و ظهور استارتاپهای خلاق، احتمالاً شاهد مدلهایی خواهیم بود که نرخ توهم در آنها به طرز قابلملاحظهای کاهش یافته و اعتماد کاربران به فناوری هوش مصنوعی بیش از پیش تقویت شود. به این ترتیب، میتوان انتظار داشت که هوش مصنوعی در حالی به تکامل خود ادامه دهد که ردهبندی مدلهای هوش مصنوعی بر اساس میزان توهم همچنان به عنوان معیاری حیاتی برای انتخاب بهترین گزینه در حوزههای مختلف مورد استفاده قرار گیرد.


مطالب مرتبط