كشفت مايكروسوفت عن TRELLIS.2، وهو نموذج ذكاء اصطناعي توليدي مفتوح المصدر يضمّ أربعة مليارات معامل، صُمِّم خصيصاً لتحويل صورة واحدة إلى نموذج ثلاثي الأبعاد عالي الدقة خلال ثوانٍ معدودة. يتميّز النموذج بقدرته على إنتاج أصول رقمية مزوّدة بمواد PBR متكاملة — تشمل الألوان والخشونة والسطح المعدني والشفافية — ما يجعلها جاهزة للاستخدام المباشر في محركات الألعاب وبرامج التصميم ثلاثي الأبعاد مثل Blender وUnity وUnreal Engine.
نماذج ثلاثية الأبعاد مولّدة بواسطة TRELLIS.2 انطلاقاً من صور فردية | المصدر: Microsoft Research
نظرة عامة على TRELLIS.2
يُعدّ TRELLIS.2 نموذجاً توليدياً واسع النطاق طوّره فريق Microsoft Research، وهو مُصمَّم لمهام تحويل الصور إلى نماذج ثلاثية الأبعاد عالية الدقة. يعتمد النموذج على بنية Flow-Matching Transformers ويضمّ أربعة مليارات معامل (4B parameters).
يتمثّل الابتكار الجوهري في هذا النموذج في اعتماده على تمثيل جديد يُعرف بـ O-Voxel (اختصاراً لـ Omni-Voxel)، وهو بنية فوكسل متفرقة خالية من الحقول (field-free) تتجاوز القيود المعروفة في الأساليب التقليدية مثل SDF (حقول المسافة المُوقَّعة) وFlexicubes.
أُتيح النموذج بصورة كاملة بموجب رخصة MIT المفتوحة المصدر، حيث نُشرت الشفرة المصدرية على منصة GitHub، فيما أُتيح النموذج المُدرَّب مسبقاً على منصة Hugging Face، ما يُمكّن الباحثين والمطوّرين من استخدامه وتعديله وتوزيعه بحرية تامة.
تقنية O-Voxel: تمثيل ثلاثي الأبعاد من الجيل الجديد
يُقدّم تمثيل O-Voxel حلولاً جذرية لعدد من التحديات التي واجهتها الأساليب التقليدية في مجال التوليد ثلاثي الأبعاد:
الأسطح المفتوحة: تتضمّن هذه الفئة عناصر مثل الملابس وأوراق الشجر والشعر، وهي أشكال لا تُكوِّن أجساماً صلبة مغلقة. تعجز الأساليب المبنية على حقول المسافة عن التعامل معها بدقة، في حين يتعامل O-Voxel معها بسلاسة.
الهندسة غير المتشعّبة: تشمل الأشكال المعقدة ذات التقاطعات والحواف الحادة. يُحافظ O-Voxel على التفاصيل الدقيقة لهذه البنى الهندسية بفضل اعتماده على تقنية Flexible Dual Grids.
الهياكل الداخلية المغلقة: كالأجزاء الداخلية للآلات والمركبات، حيث يستطيع O-Voxel تمثيلها بدقة عالية ضمن بنية واحدة فعّالة تجمع بين الشكل الهندسي ومعلومات المظهر السطحي.
سرعة التوليد والأداء
يستخدم TRELLIS.2 تقنية Sparse 3D VAE (مُشفّر تبايني ثلاثي الأبعاد متفرق) بنسبة ضغط مكانية تبلغ 16 ضعفاً. يُتيح هذا الضغط تمثيل نموذج ثلاثي الأبعاد بدقة 1024³ في نحو 9,600 رمز كامن (latent token) فحسب، مع الحفاظ على جودة بصرية شبه مطابقة للأصل.
وفيما يلي سرعات التوليد المُقاسة على وحدة معالجة NVIDIA H100:
دقة 512³: نحو ثلاث ثوانٍ (ثانيتان للشكل الهندسي + ثانية واحدة للمواد السطحية).
دقة 1024³: نحو سبع عشرة ثانية (عشر ثوانٍ للشكل + سبع ثوانٍ للمواد).
دقة 1536³: نحو ستين ثانية (خمس وثلاثون ثانية للشكل + خمس وعشرون ثانية للمواد).
أما عمليات التحويل بين الصيغ، فتتمّ بسرعة استثنائية: تحويل شبكة مضلّعات (Mesh) إلى O-Voxel يستغرق أقلّ من عشر ثوانٍ على وحدة المعالجة المركزية، بينما يستغرق التحويل العكسي أقلّ من 100 ميلي ثانية بتسريع CUDA.
دعم مواد PBR: ما وراء الشكل الهندسي
يتميّز TRELLIS.2 عن غالبية نماذج التوليد ثلاثي الأبعاد بالذكاء الاصطناعي بدعمه الكامل لمواد التصيير القائم على الفيزياء (Physically Based Rendering — PBR)، والتي تشمل أربعة عناصر أساسية:
اللون الأساسي (Base Color): يُحدّد لون السطح الأصلي قبل تأثير الإضاءة.
الخشونة (Roughness): يتحكّم في مدى انتشار الانعكاسات على السطح، ما يُميّز بين الأسطح اللامعة والمَطفية.
المعدنية (Metallic): يُحدّد ما إذا كان السطح يتصرّف كمعدن أم كمادة عازلة.
الشفافية (Opacity/Alpha): تُعدّ هذه الخاصية من الميزات النادرة في نماذج الذكاء الاصطناعي ثلاثية الأبعاد، وتُتيح إنتاج عناصر شفافة أو شبه شفافة كالزجاج والأقمشة الشفافة.
يُنتج هذا المزيج نماذج جاهزة لعمليات الإضاءة الواقعية (photorealistic relighting) داخل أيّ محرك ألعاب أو بيئة تصميم ثلاثية الأبعاد.
مقارنة بين TRELLIS.2 والإصدار الأول
يُمثّل TRELLIS.2 قفزة نوعية مقارنة بالإصدار الأول الذي حاز على تقدير CVPR 2025 Spotlight. وفيما يلي أبرز نقاط المقارنة:
الإصدار الأول (TRELLIS): يضمّ ملياري معامل، ودُرِّب على مجموعة بيانات تحتوي على 500 ألف كائن. يدعم التحويل من النصوص والصور إلى نماذج ثلاثية الأبعاد، ويعتمد تمثيل SLAT (Structured Latent). يُنتج صيغاً متعددة تشمل حقول الإشعاع (Radiance Fields) وتوزيعات غاوسية ثلاثية الأبعاد (3D Gaussians) وشبكات مضلّعات (Meshes). يتطلّب وحدة معالجة رسومية بسعة ذاكرة لا تقلّ عن 16 جيجابايت.
الإصدار الثاني (TRELLIS.2): يضمّ أربعة مليارات معامل (أي الضعف). يعتمد تمثيل O-Voxel الجديد الذي يتجاوز قدرات SLAT. يدعم مواد PBR بصورة كاملة بما في ذلك الشفافية. يصل إلى دقة 1536³. يُحقّق نسبة ضغط 16 ضعفاً من دون فقدان بصري ملحوظ. يتعامل بكفاءة مع الأسطح المفتوحة والهندسة غير المتشعّبة. يتطلّب وحدة معالجة رسومية بسعة ذاكرة لا تقلّ عن 24 جيجابايت. كما أُتيح كود التدريب الكامل للباحثين.
مجالات الاستخدام والتطبيقات
تطوير الألعاب الإلكترونية: يُسهّل النموذج عملية إنتاج الأصول الرقمية بصورة جذرية، إذ يُمكن تحويل صورة مفاهيمية إلى نموذج ثلاثي الأبعاد جاهز للمحرك في غضون ثوانٍ، مع إمكانية التصدير المباشر بصيغة GLB المتوافقة مع Unity وUnreal Engine وBlender.
الواقع الافتراضي والمعزّز: يُتيح إنتاج محتوى ثلاثي الأبعاد بسرعة عالية لتجارب الواقع الافتراضي (VR) والمعزّز (AR)، ما يُخفّض تكاليف الإنتاج ويُسرّع دورة التطوير.
التصميم الصناعي وتصميم المنتجات: يُمكّن المصمّمين من تحويل رسم أوّلي (sketch) إلى نموذج أوّلي ثلاثي الأبعاد في دقائق معدودة بدلاً من أيام عمل كاملة.
التصميم المعماري والديكور الداخلي: يُوفّر وسيلة سريعة لتوليد عناصر الأثاث والمكوّنات البيئية لأغراض التصوّر المعماري.
البحث الأكاديمي: أُتيح كود التدريب بالكامل، ما يُتيح للباحثين إمكانية تدريب نماذج مخصّصة على مجموعات بياناتهم الخاصة أو إجراء تعديلات دقيقة (fine-tuning) وفقاً لاحتياجاتهم البحثية.
كيفية الوصول والمتطلبات التقنية
يتطلّب تشغيل TRELLIS.2 توفّر المتطلبات التالية: نظام تشغيل Linux، ووحدة معالجة رسومية من NVIDIA بسعة ذاكرة لا تقلّ عن 24 جيجابايت (يُنصح بـ A100 أو H100)، إضافة إلى CUDA Toolkit بالإصدار 12.4، وPython بالإصدار 3.8 أو أحدث، مع استخدام Conda لإدارة بيئة العمل.
تتوفّر عدّة طرق للوصول إلى النموذج واستخدامه:
GitHub: يحتوي على الشفرة المصدرية الكاملة بما في ذلك كود التدريب.
Hugging Face: يستضيف النموذج المُدرَّب مسبقاً TRELLIS.2-4B الجاهز للاستخدام الفوري.
ComfyUI: يُوفّر واجهة رسومية ميسّرة تُسهّل على المستخدمين غير المتخصّصين تجربة النموذج.
3D AI Studio: يُتيح واجهة ويب للتجربة المباشرة من دون الحاجة إلى تثبيت محلي.
يدعم النموذج التصدير إلى صيغ متعددة تشمل: GLB وOBJ وFBX وSTL وPLY.
القيود والاعتبارات
عيوب هندسية طفيفة: قد تتضمّن النماذج المولّدة ثقوباً دقيقة في بعض الحالات. توفّر مايكروسوفت أدوات لمعالجة هذه الثغرات (hole-filling)، وهي خطوة ضرورية بصفة خاصة لتطبيقات الطباعة ثلاثية الأبعاد.
غياب المحاذاة مع التفضيلات البشرية: لم يخضع النموذج لعمليات تحسين قائمة على التعلّم المعزّز من التغذية الراجعة البشرية (RLHF)، ما يعني أنّ مخرجاته تعكس توزيع بيانات التدريب من دون تعديل جمالي موجَّه.
مصادر بيانات التدريب: دُرِّب النموذج على مجموعتي بيانات عامتين هما Objaverse-XL وSketchfab. ورغم مراجعتهما للتأكّد من خلوّهما من المعلومات الشخصية أو المحتوى الضار، إلا أنّ احتمال وجود تحيّز لا يزال قائماً بحكم مصدرها من الإنترنت.
الطابع البحثي: تؤكّد مايكروسوفت أنّ TRELLIS.2 مشروع بحثي بالدرجة الأولى، وأنّ المواد المُتاحة مُخصّصة للأغراض الأكاديمية والبحثية وليست مُوجَّهة للاستغلال التجاري المباشر.
المخطط التوضيحي لخط أنابيب TRELLIS.2: من الصورة المدخلة إلى تمثيل O-Voxel ثم الضغط عبر Sparse VAE وصولاً إلى النموذج ثلاثي الأبعاد النهائي | المصدر: Microsoft Research
المراجع والمصادر
- Microsoft Research — الصفحة الرسمية لمشروع TRELLIS.2
- GitHub — المستودع الرسمي للشفرة المصدرية لـ TRELLIS.2
- Hugging Face — النموذج المُدرَّب مسبقاً TRELLIS.2-4B
- GitHub — الإصدار الأول TRELLIS (CVPR 2025 Spotlight)
- ComfyUI Wiki — إصدار مايكروسوفت لنموذج TRELLIS.2
- Webkul — تحليل تقنية TRELLIS 2 من مايكروسوفت
- 3D AI Studio — تجربة TRELLIS.2 عبر الإنترنت
الأسئلة الشائعة
ما هو TRELLIS.2؟
هو نموذج ذكاء اصطناعي توليدي من مايكروسوفت يضمّ أربعة مليارات معامل، قادر على تحويل صورة واحدة إلى نموذج ثلاثي الأبعاد متكامل مزوّد بمواد PBR. متاح مفتوح المصدر بموجب رخصة MIT.
ما الزمن اللازم لتوليد نموذج ثلاثي الأبعاد؟
يتراوح بين ثلاث ثوانٍ (بدقة 512³) وستين ثانية (بدقة 1536³) عند التشغيل على وحدة معالجة NVIDIA H100.
هل النموذج متاح مجاناً؟
نعم. أُتيح بموجب رخصة MIT المفتوحة المصدر. الشفرة المصدرية متوفرة على GitHub والنموذج المُدرَّب على Hugging Face.
ما المتطلبات التقنية لتشغيله؟
يتطلّب نظام Linux ووحدة معالجة رسومية NVIDIA بسعة ذاكرة لا تقلّ عن 24 جيجابايت (A100 أو H100)، إضافة إلى CUDA Toolkit 12.4 وPython 3.8 أو أحدث.
ما الذي يميّزه عن الإصدار الأول؟
يتضمّن ضعف عدد المعاملات (4 مليارات مقابل 2 مليار)، ويعتمد تمثيل O-Voxel المبتكر بدلاً من SLAT، مع دعم كامل لمواد PBR بما في ذلك الشفافية، ودقة تصل إلى 1536³، ونسبة ضغط تبلغ 16 ضعفاً، فضلاً عن إتاحة كود التدريب الكامل للباحثين.