العمق من الحركة: كيف يدرك دماغنا أبعاد العالم؟

مدرس الدكتور محمد لوتي

المحتويات:

العمق من الحركة (Depth from Motion)

Primary Disciplinary Field(s): الرؤية الحاسوبية (Computer Vision)، علم النفس الإدراكي (Cognitive Psychology)، الروبوتات (Robotics)، الهندسة العصبية (Neuroengineering)

1. التعريف الجوهري والمجالات الأساسية

يُعد مفهوم العمق من الحركة (Depth from Motion – DfM) آلية أساسية، سواء في الأنظمة البيولوجية أو الاصطناعية، لاستنتاج المعلومات ثلاثية الأبعاد (3D) المتعلقة بهيكل البيئة ومواقع الكائنات فيها، وذلك بالاعتماد فقط على التغيرات الحادثة في سلسلة من الصور ثنائية الأبعاد (2D) الملتقطة بمرور الزمن. تعتمد هذه العملية على المبدأ القائل بأن الحركة النسبية بين الكاميرا (أو العين) والبيئة المحيطة تنتج تحولات في الإسقاطات النقطية على مستوى الصورة، وهذه التحولات يمكن تحليلها حسابياً لاسترداد معلمتي العمق والهندسة. يمثل العمق من الحركة أحد الإشارات الأحادية للعمق (Monocular Depth Cues) التي لا تتطلب مدخلات من أكثر من مستشعر واحد، مما يميزه عن آليات مثل الرؤية المجسمة (Stereopsis) التي تعتمد على مستشعرين.

تترسخ أهمية هذا المفهوم في مجالات متعددة. في الرؤية الحاسوبية، يشكل DfM الأساس لتقنيات حيوية مثل إعادة البناء ثلاثي الأبعاد، وتحديد الموقع المتزامن ورسم الخرائط (SLAM)، والملاحة الآلية للمركبات والروبوتات. بينما في علم النفس الإدراكي، يدرس الباحثون كيف يستغل الجهاز البصري البشري (HVS) الحركة النسبية لتفسير العمق بفعالية، وهي قدرة حاسمة للبقاء وتوجيه الحركة. يتطلب تحقيق العمق من الحركة حاسوبياً حل مشكلة معكوسة صعبة، حيث يجب استخلاص ثلاثة أبعاد (X, Y, Z) من بعدين (u, v) عبر تتبع حركة النقاط أو الأنماط على مدى إطارات متتالية، وهو ما يُعرف رياضياً باسم مشكلة الهيكل من الحركة (Structure from Motion – SfM).

الاستشعار الفعال للعمق من الحركة يتطلب توافر شرطين رئيسيين: أولاً، وجود حركة نسبية كافية (إما حركة الكاميرا أو حركة المشهد). ثانياً، القدرة على تتبع العناصر المميزة (Features) أو أنماط السطح عبر الإطارات الزمنية بدقة عالية. ويُعد التدفق البصري (Optical Flow) هو الوصف الرياضي الأكثر شيوعاً لهذه الحركة الظاهرية، حيث يمثل متجهات السرعة التي تتحرك بها نقاط الصورة على المستوى البؤري. إن التفسير الصحيح لهذه المتجهات هو المفتاح لفك تشفير العمق، حيث تتحرك الكائنات القريبة بسرعة أكبر على مستوى الصورة مقارنة بالكائنات البعيدة عندما يكون المراقب في حالة حركة، وهي ظاهرة تُعرف باسم تزيح الحركة (Motion Parallax).

2. الأسس النفسية والإدراكية

يعتمد الإدراك البشري للعمق من الحركة على آليات بصرية متطورة تمكننا من تفسير التغيرات الديناميكية في المشهد. أحد أهم المبادئ الإدراكية هو تأثير العمق الحركي (Kinetic Depth Effect)، الذي وصفه لأول مرة عالم النفس هانز والاش (Hans Wallach) في منتصف القرن العشرين. يوضح هذا التأثير أن عرض إسقاط ثنائي الأبعاد لجسم يدور أو يتحرك يمكن أن يُدرك فوراً كجسم صلب ثلاثي الأبعاد يتحرك في الفضاء، حتى لو كانت المعلومات الساكنة (مثل التظليل أو المنظور) غائبة. هذه الظاهرة تبرهن على أن الحركة وحدها كافية لتكوين إدراك قوي ومستقر للهيكل ثلاثي الأبعاد.

كما يلعب تزيح الحركة دوراً مركزياً في الإدراك البشري. عندما يتحرك المشاهد، تبدو الكائنات الأقرب تتحرك بشكل أسرع وأكبر على شبكية العين مقارنة بالكائنات الأبعد. هذا التفاوت في السرعة الظاهرية يوفر إشارة قوية للعمق. على سبيل المثال، عند القيادة، تبدو الأشجار القريبة على جانب الطريق وكأنها تندفع بسرعة، بينما تبدو الجبال البعيدة وكأنها تتحرك ببطء شديد أو تظل ثابتة. يقوم النظام البصري بدمج هذه المعلومات الحركية مع معلومات أخرى (مثل التكيف والإقامة) لتوليد تمثيل دقيق للبيئة المحيطة.

أظهرت الدراسات العصبية أن مناطق معينة في القشرة البصرية، خصوصاً المنطقة V5/MT، متخصصة في معالجة الحركة، وتلعب دوراً حاسماً في استخلاص العمق من هذه المعلومات الحركية. إن القدرة على فصل الحركة الناتجة عن حركة العين أو الرأس (الحركة الذاتية) عن الحركة الفعلية للكائنات في المشهد (الحركة الموضوعية) هي مهمة إدراكية معقدة يتم إنجازها عبر آليات التعويض الحركي الداخلي. هذا التخصص البيولوجي يوجه جهود الباحثين في الرؤية الحاسوبية لمحاكاة هذه الكفاءة في الأنظمة الاصطناعية، مما يؤكد العلاقة العميقة بين علم النفس الإدراكي وهندسة الرؤية.

3. المبادئ الرياضية والحسابية

يتطلب التحويل من التدفق البصري (2D) إلى العمق والهيكل (3D) تطبيق مبادئ الهندسة الإهليجية (Epipolar Geometry). تفترض معظم النماذج الحاسوبية لكاميرا الثقب (Pinhole Camera Model) أن العلاقة بين نقطة ثلاثية الأبعاد (P) وإسقاطها ثنائي الأبعاد (p) يمكن وصفها رياضياً. عندما تتحرك الكاميرا بين إطارين (T1 و T2)، يصف التحول من موقع الكاميرا الأول إلى الثاني عبر مصفوفة دوران (R) ومتجه انتقال (T). الهدف من خوارزميات العمق من الحركة هو حل هذه المعادلات المعقدة لاستخراج (R) و (T) والعمق النسبي (Z) لكل نقطة.

تُعرف المعادلة الأساسية التي تربط بين إحداثيات الصورة في الإطارين (p1 و p2) ومعلمات الحركة الداخلية والخارجية للكاميرا باسم المصفوفة الأساسية (Fundamental Matrix – F) أو المصفوفة الأساسية المقيسة (Essential Matrix – E). تلخص هذه المصفوفات القيود الهندسية المفروضة على الحركة الظاهرية للنقاط، حيث يجب أن تقع النقطة المتابعة (p2) على خط معين في الإطار الثاني يُعرف باسم الخط الإهليجي، والذي يتم تحديده بواسطة النقطة الأولى (p1) ومعلمات الحركة. إن استخلاص هذه المصفوفات هو الخطوة الحاسمة الأولى في حل مشكلة الهيكل من الحركة.

رياضياً، يمكن تقسيم حل مشكلة العمق من الحركة إلى نهجين رئيسيين: النهج المتقطع (Discrete Approach) والنهج الكثيف (Dense Approach). يعتمد النهج المتقطع على تتبع مجموعة محدودة من النقاط المميزة (Features) عبر الإطارات (مثل زوايا هاريس أو نقاط SIFT/SURF)، ويُستخدم هذا بشكل شائع في SfM وSLAM. أما النهج الكثيف، فيسعى لحساب التدفق البصري لكل بكسل في الصورة، مما ينتج خريطة عمق أكثر تفصيلاً ولكنه يتطلب قوة حاسوبية أكبر بكثير ويواجه تحديات أكبر في المناطق ذات التباين المنخفض أو الحركة السريعة. تُستخدم في كلا النهجين خوارزميات تحسين متكررة مثل تعديل الحزمة (Bundle Adjustment) لتقليل الخطأ المشترك في تقديرات العمق والحركة عبر سلسلة طويلة من الإطارات.

4. آليات الاستشعار الرئيسية

لتحقيق العمق من الحركة في الأنظمة الآلية، يتم استخدام عدة آليات حاسوبية متكاملة لضمان التتبع الدقيق والتقدير المستقر للمعلمات ثلاثية الأبعاد. آلية التدفق البصري (Optical Flow) هي الأساس الذي تبنى عليه معظم خوارزميات DfM، حيث تُقدر الحركة الظاهرية لكل بكسل. يمكن تحقيق ذلك باستخدام طرق مثل خوارزمية لوكاس-كانادي (Lucas-Kanade) لتتبع النقاط المميزة محلياً، أو طرق هورن-شونك (Horn–Schunck) التي تحاول تقدير تدفق كثيف عن طريق افتراض ثبات السطوع والتجاور المكاني.

آلية تتبع السمات (Feature Tracking) هي آلية حيوية أخرى. بدلاً من محاولة تحليل كل بكسل، يتم تحديد نقاط أو مناطق ذات تباين عالٍ وفريدة (مثل الزوايا أو الحواف) في الإطار الأول. يتم بعد ذلك تتبع هذه السمات بدقة في الإطارات اللاحقة. إن استخدام خوارزميات متينة مثل خوارزمية كانادي-لوكا-توماتشي (KLT) أو استخدام واصفات السمات القوية (مثل ORB أو SIFT) يساعد في تحمل التشويش والتغيرات في الإضاءة. توفر متجهات حركة هذه السمات المدخلات الضرورية لحل المصفوفة الأساسية.

بمجرد الحصول على مجموعة من أزواج النقاط المتطابقة عبر الإطارات، يتم تطبيق إجراءات إحصائية متينة مثل خوارزمية RANSAC (RANdom SAmple Consensus). تُستخدم RANSAC لاستبعاد النقاط الشاذة (Outliers) الناتجة عن أخطاء التتبع أو الحركة غير الصلبة في المشهد. من خلال اختيار مجموعات فرعية عشوائية من النقاط ومحاولة ملاءمتها لنموذج هندسي (المصفوفة الأساسية)، يمكن للخوارزمية تحديد النموذج الذي يدعمه أكبر عدد من النقاط الصحيحة (Inliers)، مما يؤدي إلى تقديرات أكثر موثوقية لمعلمتي الدوران والانتقال، وبالتالي العمق النسبي.

5. التطور التاريخي والمساهمات الرائدة

تعود الجذور الفكرية للعمق من الحركة إلى أبحاث علم النفس الإدراكي في منتصف القرن العشرين. كان جيمس جيبسون (James J. Gibson) رائداً في دراسة كيف يستخدم البشر المعلومات البيئية الديناميكية، حيث أكد على أهمية التدرجات في التدفق البصري (Gradients of Optical Flow) كإشارات أساسية للإدراك المباشر للعمق والحركة الذاتية (Self-motion). وفي السبعينيات، أجرى ديفيد مار (David Marr) مساهمات نظرية حاسمة في الرؤية الحاسوبية، حيث وضع إطاراً لكيفية استخلاص الهيكل من الحركة كجزء من نظرية الرؤية الحسابية الشاملة.

شهدت الثمانينيات قفزة نوعية مع أعمال شيمون أولمان (Shimon Ullman)، الذي قدم نموذجاً رياضياً رسمياً لحل مشكلة الهيكل من الحركة. أظهر أولمان أنه يمكن استعادة الهيكل ثلاثي الأبعاد لجسم صلب من ثلاث إطارات متتالية على الأقل، باستخدام أربع نقاط غير مستوية. هذا العمل المبكر وضع الأسس للخوارزميات الهندسية التي لا تزال تُستخدم اليوم. كما أن تطوير خوارزميات التدفق البصري بواسطة هورن وشونك في عام 1981 وفر الأداة الرياضية اللازمة لقياس الحركة الظاهرية بدقة على مستوى البكسل.

في العقود اللاحقة، تحول التركيز من الحلول التحليلية للأجسام الصلبة إلى الأنظمة المتينة والقابلة للتوسع التي يمكنها التعامل مع البيانات الحقيقية الصاخبة. أدى ظهور خوارزميات تعديل الحزمة (Bundle Adjustment) في مجال التصوير المساحي (Photogrammetry) وتطبيقها لاحقاً في الرؤية الحاسوبية إلى تحسين دقة إعادة بناء العمق بشكل كبير عبر سلاسل طويلة من الصور. وقد أتاح هذا التطور، بالإضافة إلى زيادة القوة الحاسوبية، الانتقال من الأبحاث النظرية إلى التطبيقات العملية واسعة النطاق في الروبوتات والمركبات الذاتية.

6. التطبيقات في الرؤية الحاسوبية والروبوتات

يُعد العمق من الحركة عموداً أساسياً في العديد من تطبيقات الرؤية الحاسوبية المتقدمة. أهم هذه التطبيقات هو إعادة البناء ثلاثي الأبعاد (3D Reconstruction)، حيث تُستخدم تقنيات SfM لإنشاء نماذج رقمية مفصلة للمشاهد أو الكائنات من خلال التقاط صور متعددة من زوايا مختلفة. هذا له أهمية قصوى في المسح الأثري، والهندسة المعمارية، وإنشاء الأصول ثلاثية الأبعاد للألعاب والواقع الافتراضي (VR).

في مجال الروبوتات والمركبات الذاتية، يُعد العمق من الحركة حيوياً لتنفيذ مهمة تحديد الموقع المتزامن ورسم الخرائط (Simultaneous Localization and Mapping – SLAM). تستخدم أنظمة SLAM المرئية (Visual SLAM) معلومات العمق المستخلصة من الحركة لتقدير موقع الروبوت بدقة داخل بيئة غير معروفة مع بناء خريطة لهذه البيئة في نفس الوقت. تتيح هذه القدرة للروبوتات التنقل بشكل مستقل، وتجنب العوائق، وتخطيط المسار دون الاعتماد الكلي على أنظمة تحديد المواقع العالمية (GPS) التي قد تكون غير متاحة في البيئات الداخلية.

بالإضافة إلى ذلك، يلعب DfM دوراً مهماً في المراقبة بالفيديو وتحليل الحركة، حيث يسمح النظام بتقدير المسافة بين الكاميرا والأشياء المتحركة، مما يسهل تتبع الأهداف وتصنيف الأنشطة. كما يُستخدم في مجال الملاحة الجوية للطائرات بدون طيار (Drones)، حيث يساعد في تحديد سرعة الطائرة وارتفاعها بالنسبة للأرض (تحديد الموقف، أو Attitude Estimation)، مما يضمن هبوطاً آمناً ومناورات دقيقة في البيئات المعقدة.

7. التحديات والقيود المنهجية

على الرغم من القوة النظرية للعمق من الحركة، تواجه تطبيقاته العملية عدداً من التحديات الجوهرية. أحد أبرز هذه التحديات هو غموض المقياس (Scale Ambiguity). يمكن تحديد العمق من الحركة فقط حتى عامل مقياس غير معروف. بمعنى آخر، لا يمكن لنظام أحادي الكاميرا (Monocular) أن يحدد ما إذا كان الجسم قريباً وصغيراً أم بعيداً وكبيراً، طالما أن حركته الظاهرية متماثلة. يتطلب حل هذا الغموض دمج معلومات إضافية، مثل القياس من مستشعر آخر (مثل مقياس التسارع) أو معرفة مسبقة بحجم كائن مرجعي.

التحدي الثاني هو الحساسية للضوضاء والبيانات الشاذة (Noise Sensitivity). تتأثر خوارزميات DfM بشدة بالضوضاء في بيانات الصورة وأخطاء التتبع، خاصة في التقديرات الأولية للحركة. يمكن أن تؤدي التغيرات السريعة في الإضاءة أو وجود حركة اهتزازية (Jitter) في الكاميرا إلى تقديرات غير دقيقة للتدفق البصري، مما يؤدي إلى تراكم الأخطاء (Drift) في تقدير الموقع والهيكل بمرور الوقت، وهي مشكلة حادة في أنظمة SLAM طويلة المدى.

هناك أيضاً تحديات هندسية، مثل مشكلة الفتحة (Aperture Problem)، حيث لا يمكن تحديد اتجاه الحركة الحقيقي لخط أو حافة داخل حقل رؤية محلي صغير. بالإضافة إلى ذلك، تفشل معظم النماذج الكلاسيكية لـ SfM عندما تكون الحركة في المشهد غير صلبة (Non-Rigid Motion)، مثل حركة الأقمشة أو الأشخاص. وتُعد المناطق ذات التباين المنخفض أو الخالية من السمات (Featureless Areas)، مثل الجدران البيضاء أو السماء، مناطق تحدٍ كبيرة، حيث يصعب على الخوارزميات تحديد النقاط المميزة وتتبعها بشكل موثوق لاستخلاص العمق.

8. النماذج البديلة والاندماج الحسي

في حين أن العمق من الحركة يمثل إشارة عمق قوية، فإنه نادراً ما يُستخدم بمعزل عن غيره في الأنظمة الحديثة. تتجه الأبحاث المعاصرة نحو الاندماج الحسي (Sensor Fusion)، حيث يتم دمج معلومات DfM مع إشارات عمق أخرى لإنتاج خرائط عمق أكثر اكتمالاً ودقة. أحد النماذج البديلة أو المكملة الرئيسية هو الرؤية المجسمة (Stereo Vision)، التي تستخدم كاميرتين مفصولتين بمسافة معروفة (خط الأساس) لتقدير العمق من خلال تحليل التباين (Disparity) بين الصورتين. يوفر الاندماج بين DfM والرؤية المجسمة استقراراً في القياسات؛ فالرؤية المجسمة توفر مقياساً مطلقاً، بينما Dfم يوفر قياسات دقيقة للحركة.

كما أن اندماج DfM مع مستشعرات عدم الرؤية (Non-Vision Sensors) مثل LiDAR (كشف الضوء وتحديد المدى) والوحدات المرجعية بالقصور الذاتي (IMU) أصبح أمراً شائعاً. يوفر LiDAR قياسات عمق مباشرة ودقيقة للغاية، في حين توفر IMUs (التي تحتوي على مقاييس تسارع وجيروسكوبات) قياسات مستقلة لدوران الكاميرا وتسارعها. يساعد دمج DfM مع IMU في التخفيف من مشكلة تراكم الأخطاء (Drift) ويحل غموض المقياس، مما ينتج أنظمة ملاحة ورسم خرائط فائقة الاستقرار والدقة، خاصة في البيئات الديناميكية.

علاوة على ذلك، أدى التقدم في التعلم العميق (Deep Learning) إلى ظهور نماذج جديدة تتعلم استخلاص العمق من الحركة بشكل مباشر من بيانات الفيديو، دون الاعتماد الصارم على الهندسة الإهليجية التقليدية. تستخدم شبكات الذاكرة طويلة المدى (LSTMs) أو الشبكات التلافيفية ثلاثية الأبعاد (3D CNNs) لتعلم العلاقة غير الخطية بين الحركة في الصورة والعمق. هذه النماذج، رغم حاجتها لكميات هائلة من بيانات التدريب، تظهر مرونة فائقة في التعامل مع المشاهد المعقدة والحركة غير الصلبة، وتُعد مساراً واعداً للجيل القادم من أنظمة الرؤية الحاسوبية.