نموذج الانتشار – diffusion model

مدرس الدكتور محمد لوتي

المحتويات:

نموذج الانتشار (Diffusion Model)

المجال (المجالات) التخصصية الأساسية: الذكاء الاصطناعي، التعلم العميق التوليدي، رؤية الحاسوب.

1. التعريف الأساسي والنظرة العامة

يمثل نموذج الانتشار فئة متقدمة من النماذج التوليدية في مجال التعلم العميق، وهي مصممة لتعلم توزيعات البيانات المعقدة، وفي المقام الأول البيانات المرئية مثل الصور ومقاطع الفيديو، بهدف توليد عينات جديدة عالية الجودة ومبتكرة. تعتمد هذه النماذج على فكرة مستوحاة من الديناميكا الحرارية، حيث يتم تدمير البنية المنظمة للبيانات تدريجياً عن طريق إضافة ضوضاء عشوائية (عملية الانتشار الأمامي)، ثم يتم تدريب النموذج على تعلم كيفية عكس هذه العملية (عملية الانتشار العكسي) لاستعادة البيانات الأصلية من الضوضاء النقية. يعتبر نموذج الانتشار أداة قوية بشكل خاص في مهام توليد الصور غير المشروطة والمشروطة، متفوقاً في كثير من الأحيان على الأساليب السابقة مثل الشبكات التوليدية التنافسية (GANs) والمشفرات التلقائية المتغيرة (VAEs) من حيث جودة الناتج واستقراره التدريبي.

يكمن جوهر قوة نماذج الانتشار في قدرتها على تجزئة مهمة توليد البيانات المعقدة إلى سلسلة من الخطوات الأصغر والقابلة للإدارة. بدلاً من محاولة توليد صورة كاملة دفعة واحدة، يقوم النموذج بتنفيذ عملية إزالة الضوضاء المتكررة عبر مئات أو حتى آلاف الخطوات الزمنية، حيث يتم في كل خطوة تقدير مقدار الضوضاء الواجب إزالتها. هذا النهج المتسلسل، الذي يتبع سلاسل ماركوف، يوفر مساراً مستقراً لتعلم التوزيع، مما يحد من مشكلات الانهيار النمطي (Mode Collapse) التي كانت شائعة في نماذج GANs. تتطلب هذه العملية تدريباً مكثفاً للغاية، لكن النتائج تبرر هذا الجهد، حيث تنتج صوراً ذات تفاصيل دقيقة واتساق بنيوي عالٍ.

تُعد نماذج الانتشار الحديثة، مثل Stable Diffusion و DALL-E 2، أمثلة بارزة على كيفية استخدام هذا الإطار الرياضي لإنشاء محتوى إبداعي مذهل من مدخلات نصية بسيطة. يشير نجاحها إلى تحول نوعي في مجال الذكاء الاصطناعي التوليدي، حيث أصبحت القدرة على التحكم في توليد البيانات وتعديلها جزءاً لا يتجزأ من أنظمة الذكاء الاصطناعي المستخدمة تجارياً وأكاديمياً. علاوة على ذلك، لا يقتصر استخدامها على الصور الثابتة، بل تمتد لتشمل توليد الفيديو، والصوت، وحتى تصميم الجزيئات، مما يؤكد مرونتها كإطار توليدي شامل.

2. الخلفية التاريخية والتطور

تعود الجذور النظرية لنماذج الانتشار إلى أوائل عام 2015، مع تقديم ورقة بحثية بعنوان “Deep Unsupervised Learning using Nonequilibrium Thermodynamics” (التعلم العميق غير الخاضع للإشراف باستخدام الديناميكا الحرارية غير المتوازنة) بواسطة سوبرامانيان وزملاؤه. في هذه الورقة، تم تقديم مفهوم نماذج الانتشار الاحتمالية (DDPMs) كآلية لتعلم التوزيع العكسي. كان الإلهام الرياضي مستمداً من العمليات الفيزيائية، تحديداً الانتشار الجزيئي والعمليات العشوائية التي تحكم سلوك الجسيمات في الأنظمة المغلقة. ومع ذلك، لم تحظ هذه النماذج باهتمام واسع في البداية بسبب التحديات الحاسوبية الكبيرة المرتبطة بتدريبها، خاصة فيما يتعلق بتقدير الضوضاء في كل خطوة من خطوات سلسلة ماركوف.

شهدت نماذج الانتشار طفرة هائلة في شعبيتها وكفاءتها مع نشر ورقة “Denoising Diffusion Probabilistic Models” (DDPM) بواسطة هو وزملاؤه في عام 2020. قدم هذا العمل تحسينات منهجية حاسمة، أبرزها تبسيط دالة الخسارة لتصبح مجرد تقدير لمتغير الضوضاء المضاف في كل خطوة، بدلاً من محاولة تقدير الاحتمالية اللوغاريتمية المعقدة للبيانات. سمح هذا التبسيط باستخدام شبكات عصبية مثل U-Net لتعلم هذه المهمة بكفاءة عالية، مما قلل بشكل كبير من المتطلبات الحاسوبية وجعل التدريب أكثر استقراراً، مما أدى إلى توليد صور ذات جودة غير مسبوقة.

منذ عام 2020، تسارع التطور ليشمل دمج آليات الانتباه (Attention Mechanisms) والنمذجة المشروطة (Conditional Modeling)، مما أدى إلى ظهور نماذج انتشار كامنة (Latent Diffusion Models – LDMs). تستخدم LDMs مشفراً تلقائياً لضغط البيانات عالية الأبعاد (كالصور) إلى فضاء كامن أقل أبعاداً قبل تطبيق عملية الانتشار. هذا التخفيض في الأبعاد يقلل من وقت التدريب والاستدلال بشكل كبير، مما يجعل النماذج قابلة للاستخدام على نطاق أوسع تجارياً، كما هو الحال في نموذج Stable Diffusion. وقد سمح هذا الابتكار بتحويل نماذج الانتشار من أداة أكاديمية إلى أساس لأدوات توليد المحتوى الجماهيرية.

3. المبادئ الرياضية والأسس النظرية

تُصاغ نماذج الانتشار كعملية احتمالية تتكون من عمليتين رئيسيتين: عملية الانتشار الأمامي (Forward Process) وعملية الانتشار العكسي (Reverse Process). رياضياً، يتم نمذجة العملية الأمامية كسلسلة ماركوف ثابتة، حيث يتم تطبيق ضوضاء غاوسية صغيرة جداً على البيانات في كل خطوة زمنية متتابعة (t). إذا كانت (x_0) هي الصورة الأصلية، فإن الحالة في الخطوة (t)، وهي (x_t)، يتم الحصول عليها من (x_{t-1}) عن طريق إضافة الضوضاء وفقاً لتوزيع غاوسي محدد بمعاملات تباين متزايدة (beta_t). الهدف النهائي لهذه العملية هو تحويل البيانات الأصلية تماماً إلى ضوضاء بيضاء نقية عند الوصول إلى الخطوة الزمنية النهائية (T).

أما عملية الانتشار العكسي، فهي الجزء التعليمي في النموذج. وهي تهدف إلى عكس كل خطوة من خطوات سلسلة ماركوف الأمامية، أي تعلم التوزيع الاحتمالي p(x_{t-1} | x_t) الذي يسمح باستعادة (x_{t-1}) من (x_t). نظراً لأن هذا التوزيع العكسي معقد للغاية وغير قابل للحل رياضياً بشكل مباشر، يتم استخدام شبكة عصبية عميقة (عادةً U-Net) لتقدير هذا التوزيع، وتحديداً لتقدير متجه الضوضاء (epsilon_t) الذي يجب طرحه من (x_t) للعودة إلى حالة سابقة أنظف. يتم تدريب الشبكة العصبية على تقليل الفرق بين الضوضاء المقدرة (epsilon_theta) والضوضاء الحقيقية المضافة في العملية الأمامية باستخدام دالة خسارة المربع الأقل (Mean Squared Error).

تعتبر الخاصية الهامة في نماذج الانتشار هي القدرة على أخذ عينة (x_t) في أي خطوة زمنية (t) بشكل مباشر من (x_0) دون الحاجة إلى المرور بالخطوات الوسيطة، وهي خاصية مفيدة جداً لتبسيط التدريب. وتُعرف هذه الخاصية بـ “القفز المباشر” (Direct Sampling) وتعتمد على تحويل توزيع الضوضاء إلى متغير (x_t) يمثل تركيبة خطية من (x_0) والضوضاء النقية. هذا الأساس الرياضي يضمن أن يكون النموذج قادراً على التعامل مع التباينات المختلفة للضوضاء بكفاءة، مما يساهم في دقة التوليد النهائي.

4. عملية الانتشار الأمامي: إضافة الضوضاء

تُعرف عملية الانتشار الأمامي بأنها عملية التدمير المنظم للبيانات. تبدأ هذه العملية من توزيع البيانات الحقيقية (x_0 sim q(x_0)) وتتقدم عبر (T) خطوة زمنية. في كل خطوة، يتم إدخال كمية محسوبة من الضوضاء الغاوسية وفقاً لمعامل التباين (beta_t). يتم تصميم متتابعة (beta_1, beta_2, …, beta_T) بحيث تكون صغيرة في البداية وتزداد تدريجياً، مما يضمن تحويلاً سلساً وبطيئاً للبيانات إلى ضوضاء.

رياضياً، يمكن وصف التحول من (x_{t-1}) إلى (x_t) بالصيغة التالية: q(x_t | x_{t-1}) = mathcal{N}(x_t; sqrt{1 – beta_t} x_{t-1}, beta_t I). يشير الجزء (sqrt{1 – beta_t} x_{t-1}) إلى أن جزءاً من الإشارة الأصلية يبقى، بينما يمثل الجزء (beta_t I) التباين (الضوضاء) المضاف. بعد عدد كافٍ من الخطوات (T)، يقترب التوزيع q(x_T) بشكل كبير من توزيع غاوسي معياري (ضوضاء بيضاء نقية)، بغض النظر عن توزيع البيانات الأصلية q(x_0).

إن أهمية العملية الأمامية تكمن في تحديد مسار ثابت ومعروف لتدريب النموذج العكسي. ولأنها عملية محددة (وليست مُتعلمة)، يمكننا الاستفادة من خاصية القفز المباشر المذكورة سابقاً. هذه الخاصية تسمح لنا بحساب (x_t) مباشرة من (x_0) باستخدام صيغة مغلقة، وهي x_t = sqrt{bar{alpha}_t} x_0 + sqrt{1 – bar{alpha}_t} epsilon، حيث (bar{alpha}_t) هي ناتج ضرب معاملات (alpha_t = 1 – beta_t)، و (epsilon) هي ضوضاء غاوسية معيارية. هذه المعادلة هي العمود الفقري لتدريب DDPMs، حيث تسمح للنموذج بالتركيز فقط على التنبؤ بـ (epsilon).

5. عملية الانتشار العكسي: إزالة الضوضاء والتوليد

تُعد عملية الانتشار العكسي هي العملية التوليدية. يبدأ النموذج من ضوضاء عشوائية (x_T) ويحاول تدريجياً إزالة الضوضاء عبر خطوات زمنية رجوعية حتى يصل إلى عينة البيانات النظيفة (x_0). الهدف هنا هو تقدير التوزيع الشرطي العكسي p_theta(x_{t-1} | x_t).

يتم نمذجة كل خطوة عكسية أيضاً كتوزيع غاوسي، لكن هذه المرة يتم تعلم المعلمات (المتوسط والتباين) بواسطة الشبكة العصبية (theta). في الواقع، يتم تبسيط الأمر عبر تدريب الشبكة العصبية على مهمة أبسط بكثير: التنبؤ بالضوضاء (epsilon_t) المضافة في الخطوة الأمامية. بمجرد أن تتنبأ الشبكة بـ (epsilon_theta) بدقة، يمكن استنتاج المتوسط (mu_theta) للتوزيع العكسي باستخدام الصيغة الرياضية المستمدة من نظرية بيز وقوانين الاحتمالات.

تتمثل خوارزمية التوليد (الاستدلال) في البدء من (x_T) العشوائية، ثم تطبيق الخطوات التالية بشكل متكرر حتى الوصول إلى (x_0): (1) استخدام النموذج (epsilon_theta) للتنبؤ بالضوضاء في (x_t)، (2) استخدام هذا التنبؤ لحساب المتوسط (mu_theta) الذي يمثل تقدير (x_{t-1}) النظيفة، و (3) أخذ عينة من التوزيع الغاوسي الذي مركزه (mu_theta). تتطلب هذه العملية عادةً مئات الخطوات، ولكن التقنيات الحديثة، مثل عينات الانتشار السريع (DDIM)، سمحت بتقليل عدد الخطوات المطلوبة للتوليد إلى ما يقل عن 50 خطوة، مما عزز من سرعة النماذج وكفاءتها.

6. البنى المعمارية الرئيسية والتنفيذ

تعتمد نماذج الانتشار بشكل أساسي على بنية U-Net المعدلة كشبكة عصبية للتنبؤ بالضوضاء. تم اختيار U-Net لأنها مصممة بشكل مثالي للتعامل مع البيانات المكانية (الصور)، حيث تحتفظ بالدقة المكانية العالية بينما تعالج المعلومات السياقية على مستويات دقة متعددة. تتكون U-Net من مسار هابط (Encoder) يقوم بتقليص دقة الصورة لاستخلاص الميزات المعقدة، ومسار صاعد (Decoder) يقوم بتكبير الميزات لاستعادة دقة الصورة الأصلية.

يتمثل التعديل الأساسي لـ U-Net في سياق نماذج الانتشار في دمج معلومات إضافية حاسمة: الخطوة الزمنية (t) والمعلومات الشرطية. يتم ترميز الخطوة الزمنية (t) باستخدام تقنيات ترميز الموضع (Positional Encoding) المشابهة لتلك المستخدمة في المحولات (Transformers)، ويتم دمج هذا الترميز في طبقات U-Net المختلفة. أما المعلومات الشرطية، مثل النص المدخل في حالة توليد الصور من النصوص، فيتم دمجها عادةً عبر آليات الانتباه المتقاطع (Cross-Attention) داخل كتل U-Net، مما يسمح للنموذج بتوجيه عملية إزالة الضوضاء بناءً على وصف نصي محدد.

نماذج الانتشار الكامنة (LDMs) تمثل تطوراً معمارياً هاماً. بدلاً من تطبيق الانتشار مباشرة على وحدات البكسل في الصورة عالية الدقة، يتم تدريب مشفر تلقائي متنوع (VAE) لضغط الصورة إلى فضاء كامن مضغوط. يتم بعد ذلك تطبيق نموذج الانتشار على هذا الفضاء الكامن منخفض الأبعاد. هذا التخفيض يقلل بشكل كبير من المتطلبات الحاسوبية للتدريب والتوليد. على سبيل المثال، إذا كانت الصورة الأصلية 1024×1024، يمكن تقليل الفضاء الكامن إلى 64×64، مما يقلل من حجم البيانات التي يجب معالجتها بواسطة U-Net، مع الحفاظ على القدرة التوليدية العالية.

7. التطبيقات العملية والإنجازات

حققت نماذج الانتشار إنجازات مذهلة في مجالات الذكاء الاصطناعي التوليدي، وأصبحت المعيار الذهبي في العديد من المهام. أبرز هذه التطبيقات هو توليد الصور من النصوص (Text-to-Image Generation)، حيث تُظهر نماذج مثل DALL-E 2 و Imagen و Stable Diffusion قدرة غير مسبوقة على تفسير التعليمات النصية المعقدة وتحويلها إلى صور بصرية واقعية وفنية. هذه النماذج قادرة على التعامل مع المفاهيم المجردة، وتركيب العناصر المختلفة بطرق منطقية، ومحاكاة أنماط فنية متنوعة بدقة عالية.

بالإضافة إلى توليد الصور، يتم استخدام نماذج الانتشار في تحرير وتعديل الصور. يمكن استخدامها لملء الفراغات المفقودة في الصور (Inpainting)، أو توسيع حواف الصورة بما يتناسب مع سياقها (Outpainting)، أو حتى تحويل صورة مدخلة إلى نمط فني مختلف مع الحفاظ على محتواها الأصلي. كما أثبتت فعاليتها في مهام تحسين دقة الصور (Super-Resolution)، حيث يمكنها توليد تفاصيل دقيقة ومقنعة لإعادة بناء صورة منخفضة الدقة.

توسعت تطبيقاتها لتشمل مجالات أخرى مثل توليد الفيديو المتسق زمنياً، وتوليد الصوت والموسيقى، وتوليد البيانات ثلاثية الأبعاد. في المجال العلمي، يتم استكشاف نماذج الانتشار لتصميم الأدوية وتوليد التراكيب الجزيئية الجديدة، حيث يمكنها توليد هياكل جزيئية مستقرة وفعالة. يضمن الاستقرار الرياضي لعملية الانتشار أن تكون العينات المولدة واقعية ومحترمة لتوزيع البيانات الأصلية، مما يجعلها أداة قيمة في البحث العلمي والتطبيقات الإبداعية على حد سواء.

8. المزايا والتحديات والانتقادات

تتمتع نماذج الانتشار بعدة مزايا واضحة مقارنة بالنماذج التوليدية التقليدية. الميزة الأهم هي جودة التوليد العالية، حيث تنتج صوراً ذات واقعية فائقة وتفاصيل دقيقة. كما أنها تتميز باستقرار التدريب، حيث أن دالة الخسارة المستندة إلى تقدير الضوضاء بسيطة نسبياً ولا تعاني من مشكلات الانهيار النمطي أو صعوبات التوازن بين شبكتي المُولّد والمُميّز التي تعاني منها نماذج GANs. علاوة على ذلك، تتميز بقدرتها على النمذجة الاحتمالية الكاملة، مما يسمح بتقدير دقيق لاحتمالية البيانات وتنوع أكبر في العينات المولدة.

ومع ذلك، تواجه نماذج الانتشار تحديات كبيرة. التحدي الأبرز هو التكلفة الحاسوبية العالية لعملية الاستدلال (التوليد). تتطلب عملية الانتشار العكسي آلاف التقييمات المتكررة للشبكة العصبية (خطوات زمنية)، مما يجعلها أبطأ بكثير في التوليد مقارنة بنماذج GANs أو VAEs. على الرغم من أن تقنيات الاختصار مثل DDIM ونماذج الانتشار الكامنة قد قللت من هذه المشكلة، إلا أنها لا تزال تتطلب موارد حاسوبية كبيرة.

تتعلق الانتقادات الموجهة لنماذج الانتشار، كما هو الحال مع جميع نماذج الذكاء الاصطناعي التوليدي، بالآثار الاجتماعية والأخلاقية. هناك قلق متزايد بشأن التوليد غير المنضبط للمحتوى المضلل (Deepfakes) وانتهاك حقوق الطبع والنشر، حيث أن النماذج مدربة على كميات هائلة من البيانات المأخوذة من الإنترنت. كما أن هناك تحدياً فنياً يتعلق بصعوبة دمج نماذج الانتشار في تطبيقات الوقت الفعلي (Real-Time Applications) بسبب بطء عملية التوليد المتكررة، مما يحفز البحث المستمر عن طرق لتسريع الاستدلال.