پایان دوران حدس و گمان؛ هوش مصنوعی جدیدی که می‌داند چرا حرف می‌زند!

امتیاز دهید post

آخرین بروزرسانی در ۵ اسفند ۱۴۰۴ توسط Dr.Arman

تصور کنید در حال گفتگو با یک هوش مصنوعی هستید و ناگهان جوابی عجیب، توهین‌آمیز یا کاملاً اشتباه دریافت می‌کنید. اولین سوالی که به ذهنتان می‌رسد این است: «چرا این حرف را زدی؟» تا به امروز، حتی بزرگ‌ترین دانشمندان دنیا هم پاسخ دقیقی برای این سوال نداشتند، اما در میان تازه‌ترین اخبار دنیای تکنولوژی، استارت‌آپ Guide Labs ادعا می‌کند که بالاخره کلید این معمای بزرگ را پیدا کرده است.

فهرست مطالب

چرا درک هوش مصنوعی تا این حد دشوار است؟

اگر شما هم از آن دسته افرادی هستید که اخبار مربوط به هوش مصنوعی را دنبال می‌کنید، احتمالاً درباره توهمات چت‌جی‌پی‌تی یا رفتارهای ضدونقیض مدل Grok شنیده‌اید. مشکل اینجاست که مدل‌های یادگیری عمیق فعلی مثل یک «جعبه سیاه» عمل می‌کنند؛ ما به آن‌ها ورودی می‌دهیم و آن‌ها خروجی تولید می‌کنند، اما اینکه در میان میلیاردها پارامتر دقیقاً چه اتفاقی می‌افتد، برای همه مبهم است.

تا پیش از این، اگر توسعه‌دهندگان می‌خواستند بفهمند یک مدل چرا درباره جنسیتی خاص یا یک موضوع سیاسی موضع‌گیری کرده، باید چیزی شبیه به «علوم اعصاب» را روی مدل پیاده می‌کردند. آن‌ها باید در میان دریایی از داده‌ها جستجو می‌کردند تا بفهمند کدام بخش از شبکه عصبی مسئول این رفتار است؛ فرآیندی که جولیوس آدبایو، مدیرعامل Guide Labs، آن را بسیار شکننده و پیچیده توصیف می‌کند.

تولد Steerling-8B: مدلی که خودش را لو می‌دهد!

شرکت Guide Labs که توسط آدبایو و آیا عبدالسلام اسماعیل تأسیس شده، روز دوشنبه از یک مدل متن‌باز با ۸ میلیارد پارامتر به نام Steerling-8B رونمایی کرد. تفاوت بزرگ این مدل با بقیه در «معماری» آن است. در این مدل، هر کلمه یا توکنی که تولید می‌شود، قابل ردیابی است. یعنی شما می‌توانید دقیقاً بفهمید که این حرف از کدام بخش از داده‌های آموزشی منشأ گرفته است.

آدبایو معتقد است که پیدا کردن دلیل رفتارهای مدل، حکم «جام مقدس» را در دنیای هوش مصنوعی دارد. او می‌گوید اگر یک مدل تریلیون‌ها راه برای رمزگذاری مفهوم «جنسیت» داشته باشد و در یک میلیارد از آن‌ها این مفهوم را به کار ببرد، شما باید بتوانید تمام آن یک میلیارد مورد را پیدا کنید و به صورت دستی آن‌ها را خاموش یا روشن کنید. کاری که با مدل‌های فعلی تقریباً غیرممکن است.

از آزمایشگاه‌های MIT تا واقعیت مهندسی

ایده‌ی این مدل انقلابی از دوران دکتری آدبایو در MIT شروع شد. او در سال ۲۰۱۸ مقاله‌ای منتشر کرد که نشان می‌داد روش‌های فعلی برای درک مدل‌های یادگیری عمیق، به هیچ وجه قابل اعتماد نیستند. همین تحقیق باعث شد او به فکر ساختن مدل‌هایی بیفتد که از همان ابتدا (Ground Up) شفاف طراحی شده باشند.

آن‌ها به جای اینکه بعد از ساخت مدل، به دنبال فهمیدن آن باشند، یک «لایه مفهوم» (Concept Layer) در ساختار مدل قرار دادند. این لایه، داده‌ها را در دسته‌بندی‌های قابل ردیابی قرار می‌دهد. هرچند این کار به برچسب‌گذاری داده‌های بیشتری در ابتدای راه نیاز دارد، اما تیم Guide Labs با کمک گرفتن از مدل‌های هوش مصنوعی دیگر، توانستند این مانع را پشت سر بگذارند.

آیا شفافیت به معنای کاهش هوش است؟

شاید بپرسید اگر همه چیز را از پیش تعیین کنیم، آیا هوش مصنوعی قدرت خلاقیت و یادگیری مفاهیم جدید را از دست نمی‌دهد؟ این یکی از بزرگ‌ترین نگرانی‌ها در مورد مدل‌های قابل تفسیر است. اما خبر خوب این است که Steerling-8B هنوز هم می‌تواند مفاهیم جدید را به تنهایی کشف کند.

تیم آدبایو متوجه شد که مدل آن‌ها مفاهیمی مثل «محاسبات کوانتومی» را بدون اینکه مستقیماً به آن دیکته شده باشد، از میان داده‌ها استخراج کرده است. آن‌ها این موارد را «مفاهیم کشف‌شده» می‌نامند. این یعنی ما همزمان هم کنترل داریم و هم از قدرت یادگیری ماشین بهره‌مند می‌شویم؛ ترکیبی که تا پیش از این دست‌نیافتنی به نظر می‌رسید.

کاربردهای واقعی؛ از بانکداری تا علوم پایه

چرا شما به عنوان یک کاربر یا صاحب کسب‌وکار باید به این موضوع اهمیت بدهید؟ تصور کنید در صنعت مالی فعالیت می‌کنید و می‌خواهید از هوش مصنوعی برای بررسی درخواست‌های وام استفاده کنید. طبق قانون، مدل شما باید بر اساس سوابق مالی تصمیم بگیرد، نه نژاد یا جنسیت متقاضی. با مدل‌های فعلی، تضمین این موضوع سخت است، اما با Steerling-8B، شما می‌توانید دقیقاً ردیابی کنید که مدل به چه دلیلی وام را رد کرده است.

همچنین در حوزه‌های حساسی مثل کپی‌رایت، این تکنولوژی اجازه می‌دهد تا شرکت‌ها از استفاده از منابع دارای حق نشر جلوگیری کنند. حتی در علوم پایه مثل ساخت دارو و پروتئین، دانشمندان دیگر فقط با یک جواب نهایی روبرو نیستند؛ آن‌ها می‌توانند بفهمند که چرا هوش مصنوعی یک ترکیب خاص را پیشنهاد داده است و این یعنی سرعت بخشیدن به اکتشافات علمی با اطمینان بیشتر.

آینده‌ای که دیگر مرموز نیست

آدبایو می‌گوید: «این مدل ثابت کرد که آموزش مدل‌های قابل تفسیر دیگر یک موضوع علمی محض نیست، بلکه یک مسئله مهندسی است.» او معتقد است که دلیلی وجود ندارد که این مدل‌ها نتوانند به قدرت مدل‌های پیشرو و غول‌آسای فعلی برسند. Steerling-8B در حال حاضر با وجود داده‌های آموزشی کمتر، به ۹۰ درصد توانایی مدل‌های هم‌رده خود رسیده است.

این شرکت که توانسته ۹ میلیون دلار سرمایه جذب کند، در حال برنامه‌ریزی برای ساخت مدل‌های بزرگ‌تر و ارائه دسترسی API به کاربران است. هدف نهایی آن‌ها «دموکراتیزه کردن شفافیت» است. در دنیایی که قرار است هوش مصنوعی‌های فوق‌هوشمند برای ما تصمیم بگیرند، قطعاً نمی‌خواهیم این تصمیمات از پشت یک پرده ابهام و رمزآلود صادر شوند.

شما چه فکر می‌کنید؟

حالا نوبت شماست که به این موضوع فکر کنید. آیا حاضرید از هوش مصنوعی کمی ضعیف‌تر اما کاملاً شفاف استفاده کنید، یا همچنان قدرت مدل‌های بزرگ و مرموز را ترجیح می‌دهید؟ به نظر می‌رسد آینده به سمتی می‌رود که «فهمیدن»، به اندازه «دانستن» اهمیت پیدا کرده است. اگر به دنبال ابزارهایی هستید که نه تنها جواب بدهند، بلکه دلیل آن را هم بگویند، چشم از Guide Labs برندارید.

منبع:

Guide Labs debuts a new kind of interpretable LLM