مدل هوش مصنوعی دیپ‌سیک V3.1 با پنجره محتوایی بزرگ‌تر انتشار شد_رنگو

[ad_1]
نوشته و ویرایش شده توسط مجله ی رنگو

شرکت چینی دیپ‌سیک نسخه ۳.۱ مدل بزرگ زبانی خود را معارفه کرد که با افزایش طول پنجره متنی تا ۱۲۸ هزارتوکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد، توانایی پردازش و کارکرد مدل را به‌شکل قابل توجهی بهبود داده است.

تغییرات نسخه ۳.۱ دیپ‌سیک

بر پایه گزارش‌ها ویژگی نزدیک دیپ‌سیک V3.1، توانایی مدیریت متن‌های طویل است؛ این مدل اکنون قادر است اطلاعات معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را پردازش کند. این قابلیت علتبهبود کارکرد در تشکیل محتوای طویل، تحلیل اسناد و انجام مکالمات چندمرحله‌ای می‌بشود. شرکت اظهار کرده که این امکان پیش‌تر در نسخه داخلی V3 وجود داشت، اما اکنون در همه رابط‌ها به‌طور رسمی فعال شده است.

DeepSeek 3.1 هم چنان بر پایه معماری Mixture-of-Experts (MoE) ساخته شده است و فقط ۳۷ میلیارد پارامتر در هر توکن فعال می‌بشود. این مدل از فرمت‌های گوناگون دقت شامل BF16 ،FP8 و F32 حمایتمی‌کند تا در محیط‌های متنوع انعطاف‌پذیری بیشتری داشته باشد. گسترش‌دهندگان می‌توانند از طریق API یا از طریق Hugging Face به این مدل دسترسی اشکار کنند.

در برسی‌های اولیه، دیپ‌سیک V3.1 با کسب امتیاز ۷۱.۶ درصد در آزمون کدنویسی Aider، عملکردی بالاتر از Claude Opus 4 داشت و به یکی از نیرومندترین مدل‌های متن‌باز برای برنامه‌نویسی تبدیل شد. این مدل این چنین در حل مسائل ریاضی و منطقی پیشرفت چشمگیری نشان داد، اگرچه برخی کاربران تحول قابل توجهی در توانایی استدلال آن نسبت به مدل R1-0528 قبلی مشاهده نکردند.

آخرین مطالب

شرکت دیپ‌سیک همه ارجاعات به مدل R1 را از رابط چت‌بات حذف کرده و به سمت معماری هیبریدی پیش رفته است. قابلیت‌های استدلال اکنون در V3.1 ادغام شده‌اند و دیگر نیازی به مدل جداگانه نیست. هزینه آموزش این نسخه تا این مدت اشکار نشده، اما نسخه مهم V3 با منفعت گیری از ۲.۷۸۸ میلیون ساعت GPU روی تراشه‌های انویدیا H800 و با هزینه تقریبی ۵.۶ میلیون دلار آموزش داده شده می بود که پایه‌ای برای نسخه تازه به‌شمار می‌رود.

در شرایطی که انتظار می‌رفت مدل بعدی R2 با تمرکز بر بهبود توانمندیهای استدلال انتشار بشود، دیپ‌سیک اکنون نسخه V3.1 را انتشار کرده است. گزارش‌ها مشخص می کند که مشکلات فنی تراشه‌های Huawei Ascend جهت تأخیر در اراعه R2 شده است. انگارً آموزش مدل روی تراشه‌های Ascend به‌علت ناسازگاری‌ها پیروزی‌آمیز نبوده و شرکت ناچار شده از پردازشگرهای گرافیکی انویدیا برای آموزش منفعت گیری کند و Ascend را تنها برای استنتاج نگه دارد. این رویکرد ترکیبی علتپیچیدگی و کندی روال گسترش شده و اراعه را به تعویق انداخته است.

تا زمان اراعه مدل دیپ‌سیک R2، نسخه V3.1 به‌گفتن پرچمدار جاری دیپ‌سیک باقی می‌ماند و قادر است هم ماموریت های استدلالی و هم غیراستدلالی را در یک چارچوب یکپارچه اجرا و مدیریت کند.

دسته بندی مقالات

[ad_2]

پست های مرتبط