در دنیای پرهیاهوی هوش مصنوعی، گاهی قدرتمندترین تحولات با کمترین سر و صدا رخ میدهند. استارتاپ چینی DeepSeek بهتازگی مدل زبانی بزرگ جدیدی به نام DeepSeek-V3-0324 را در سکوت کامل در پلتفرم Hugging Face منتشر کرده است؛ مدلی که میتواند معادلات قدرت در صنعت هوش مصنوعی را به کلی دگرگون سازد. این مدل ۶۴۱ گیگابایتی، […]
متن
شرکت بایدو (Baidu)، غول فناوری چینی، به تازگی از دو مدل جدید هوش مصنوعی ارنی خود به نامهای ERNIE 4.5 و ERNIE X1 رونمایی کرده است که نشاندهنده گامی بزرگ در زمینه پردازش زبان طبیعی و استدلال ماشینی هستند. این مقاله به بررسی عمیق این دو مدل، ویژگیها، کاربردها و مقایسه آنها با سایر مدلهای […]
گوگل در تاریخ ۱۲ مارس ۲۰۲۵ به صورت رسمی از هوش مصنوعی جما (Gemma) 3، نسل جدید مدلهای متنباز خود رونمایی کرده است. این مدل جدید ادامهای بر موفقیت نسلهای قبلی جما بوده و قابلیتهای جدیدی را ارائه میدهد که میتواند تأثیر قابل توجهی در جامعه هوش مصنوعی و توسعهدهندگان داشته باشد. در این مقاله […]
جاهطلبی و قدرت، ویژگی هوش مصنوعی DeepSeek R2، جانشین مورد انتظار مدل انقلابی DeepSeek R1 است. این مدل پیشرفته استدلال هوش مصنوعی، که توسط استارتاپ DeepSeek (مستقر در هانگژو و تأسیسشده توسط لیانگ ونفنگ در سال ۲۰۲۳) توسعه یافته است، بر موفقیت R1 در ارائه عملکرد پیشرفته با هزینهای بسیار کمتر بنا شده است. R2 […]
امروزه llmها یا مدلهای زبانی بزرگ هوش مصنوعی، به یکی از مهمترین دستاوردهای فناوری در حوزه پردازش زبان طبیعی تبدیل شدهاند. این مدلها که بر پایه شبکههای عصبی عمیق کار میکنند، میتوانند متنهای طولانی را درک کرده، پاسخ دهند و حتی محتوای جدید تولید کنند. در این مقاله، فرآیند ساخت و آموزش این مدلها را […]
در دنیایی که هر روز یه مصنوعی ارائه میشه، LMArena.ai یا الم آرنا به عنوان یک نیروی تحولآفرین در حوزه هوش مصنوعی (AI) ظاهر شده است و یک پلتفرم متنباز و مبتنی بر جمعسپاری برای ارزیابی مدلهای زبانی بزرگ (LLM) ارائه میدهد. این پلتفرم که توسط پژوهشگران SkyLab دانشگاه برکلی توسعه یافته است، امکان مقایسه […]
با پیشرفت هوش مصنوعی و مدلهای زبانی بزرگ (LLM)، نیاز به راهکارهایی برای کاهش اندازه این مدلها بدون افت کیفیت احساس میشود. LLM Model Distillation یکی از تکنیکهای کلیدی در این زمینه است که با انتقال دانش از یک مدل بزرگ (مدل معلم) به یک مدل کوچکتر (مدل دانشآموز) انجام میشود. در این مقاله، به […]
قابلیت جدید OpenAI در ChatGPT، تحقیق عمیق یا Deep Research، مرزهای پژوهش با هوش مصنوعی را جابجا کرده است. این ابزار که به عنوان یک «عامل/ نماینده هوشمند» (AI Agent) طراحی شده، توانایی انجام تحقیقات چندمرحلهای، تحلیل دادههای پیچیده و ارائه گزارشهای جامع را در کسری از زمان موردنیاز انسان فراهم میکند. اما چه چیزی […]
مدل متنباز شرکت Ai2 با ۴۰۵ میلیارد پارامتر، مغز سازنده هوش مصنوعی تولو (Tülu 3) است. این مدل متنباز، نه تنها با مدلهای پیشرفتهای مانند GPT-4o قابل مقایسه است، بلکه در برخی از معیارها از DeepSeek v3 نیز پیشی گرفته است. نوآوری در پساآموزش: رمز موفقیت Tülu 3 یکی از ویژگیهای برجسته هوش مصنوعی Tülu […]
در تب و تاب معرفی هوشهای مصنوعی چینی، دو روز قبل، هوش مصنوعی کوئن علی بابا (Qwen2.5-Max)، توسط تیم Qwen معرفی شد که توانست توجه بسیاری را به خود جلب کند. این مدل با استفاده از معماری Mixture-of-Expert (MoE) و آموزش بر روی بیش از ۲۰ تریلیون توکن، توانسته است به سطح جدیدی از هوش […]









