روبوت يطابق حركة الشفاه يقترب من عبور “الوادي المخيف”

استخدم الباحثون مزيجاً من تركيب الكلام وتعلم الآلة وتقنيات الطباعة ثلاثية الأبعاد لتصميم روبوت يحاكي بدقةٍ الحركات الطبيعية للفك البشري والشفتين واللسان

أكتوبر 28, 2021

0 269 4 دقائق

عالم روبوتيات
د. كارل ستراذرن Carl Strathearn

ما الذي تعنيه عبارة “الوادي المخيف”؟
الفجوة المخيفة، أو ما يُصطلَح على تسميته “الوادي المخيف” Uncanny valley، هي نقطة يطغى علينا عندها شعور مخيف عندما نرى أشياء مثل الروبوتات ذات البنية البشرية Humanoid robots والصور أو الشخصيات المُنشأة باستخدام الحاسوب Computer-Generated Imagery (اختصاراً: برمجية CGI). ويعود السبب في ذلك إلى أنها ليست نسخاً مثالية عن البشر، فهي لا تصل تماماً إلى ذاك الحد. لذا فإنها تشعرنا بمزيج من الرعب وعدم الارتياح والاشمئزاز.
منذ ولادتنا لدينا القدرة على التعرف على الوجوه وتحليلها. فالوجوه تؤدي دوراً مهماً جداً في التواصل فيما بيننا. عندما نبدأ في رؤية أشياء ينبغي ألا تكون موجودة، أشياء في غير محلها، يغمرنا ذاك الشعور بالنفور. والأمر لا يقتصر على مظهرها الخارجي، بل على الوظائف التي تؤديها. إنها على سبيل المثال الطريقة التي تتحرك بها الروبوتات. إذا لم يتحرك الروبوت بالطريقة التي نتوقعها منه، فإن هذا يثير فينا مجدداً ذاك الشعور بأن الأمر غير طبيعي ويبعث على عدم الارتياح.

يركز عملك على مطابقة حركات الوجه مع الحديث. لماذا يؤدي ذاك دوراً مهماً في هذا الأمر؟
المجالان الرئيسان في نظرية “الوادي المخيف” هما العينان والفم. عندما نتواصل، يتنقل انتباهنا بين العينين والفم. ننظر إلى العينين لجذب الانتباه وننظر إلى الفم لقراءة الكلام وفهمه. ومع الروبوتات على وجه الخصوص، أي شيء خارج نطاق حركات الشفاه الطبيعية يمكن أن يكون مربكاً لنا ومحيِّراً، خاصة إذا كنا نتفاعل معها على مدى فترة زمنية طويلة.

كيف بدأ المشروع؟
عندما بدأتُ بالعمل على هذا المشروع، كنت أساعد في التدريس في قسم الرسوم المتحركة بالجامعة السابقة التي كنت فيها، لأنه لم يكن فيها قسم للروبوتيات. ذاك هو المكان الذي بدأت فيه هذه الأفكار تتشكّل. يستخدمون برامج يُسمى أحدها أوكولوس Oculus، وهو أساساً يأخذ الكلام ويحوله إلى صورة فم مُنشأة باستخدام برمجية CGI مع وضعيات الشفاه. لذلك يتولى البرنامج تلقائياً قراءة الكلام واستخراج الصور الصوتية أو ما يُسمى “الفيزيم” Viseme [الشكل الذي تتخذه الشفاه عند نُطق صوت ما] لوضعيات الفم، وأردتُ أن أفعل ذلك باستخدام الروبوت. لذلك صممت فماً آلياً له هيئة الفم البشري.
لكن قبل أن أفعل ذلك، نظرت إلى أنظمة الفم الروبوتية السابقة لأرى ما ينقصها. وكان ذلك مهماً حقاً لمعرفة ما العضلات الرئيسة، العضلات التي تعمل معاً، وما يمكن الاستغناء عنه في هذا الفم.
من الواضح أنه حيز صغير جداً وأنت مقيد بما يمكنك وضعه في فم روبوتي. أحد الأشياء الرئيسة الناقصة كان شيئاً يُسمى العضلات المُبوقة Buccinator muscles، وهي العضلات الموجودة في زوايا الفم وتُستخدم في زمِّ ومطِّ الشفاه عند لفظ حروف العلة أو الحروف الساكنة. لذلك عمدتُ إلى تقليد هذه العضلات وصممت نموذجاً أولياً روبوتياً للفم.

من أين جاءت البرمجية؟
وقلت لنفسي: “حسناً، المرحلة التالية هي إنشاء تطبيق يمكنه أن يأخذ أشكال الشفاه هذه ويضعها في هذا الفم الروبوتي”. لذا استخدمنا شيئاً يسمى الرسم البياني للصور الصوتية Viseme chart. إنه شيء يُستخدم كثيراً في الصور المُنشأة بواسطة الحاسوب أو برمجية CGI لدى تصميم الألعاب- إنها في الأساس قائمة من الأصوات وأشكال الفم المطابقة لها– وجعلت النموذج الروبوتي يقلد هذه الأشكال. لكل صوت– Ahs, Rs, Oos– حصلت على وضعيات الفم الروبوتية هذه. وجمعتها وحفظتها في ملف إعدادات حتى أتمكن من تمثيلها لاحقاً واستخدامها.
كان الجزء التالي هو إنشاء نظام يمكنه إنتاج الكلام [ليس فقط الأصوات البسيطة البحتة]. لكنني أردت أن أجعله يفعل ذلك في الوقت الفعلي، لذلك لم يكن هناك مجال لإعطائه وقتاً للمعالجة Processing. إذا كنت تستخدم وقتاً للمعالجة، فسيكون الناتج حديثاً غير طبيعي نظراً إلى وجود كثير من فترات التوقف في المحادثة. لذلك أنشأتُ خوارزمية لتعلم الآلة Machine-learning algorithm لتحويل توليف الكلام، وهو كلام روبوتي كما هي الحال مع سيري Siri، من الحاسوب المحمول إلى معالج دقيق Microprocessor حوَّل البيانات الصوتية من جديد إلى بيانات رقمية. كما حولت الخوارزمية جزءاً منه أيضاً إلى نظام معالجة، بحيث يمكنني بالفعل رؤية الموجة الصوتية كما نراها في استوديو التسجيل.

هل يمكنك إخباري بمزيد عن عمل النظام؟
لقد أنشأتُ خوارزمية للتعلم الآلي يمكنها التعرف على الأنماط في الكلام الوارد. لم يحدث ذلك بمراقبة الكلام نفسه، ولكن الأنماط في شكل الموجة. إذن أنت تنظر إلى حجم البكسل Pixel size، وطول كل كلمة وكل صوت، ثم تغذي النظام بمجموعة من العينات. بهذه الطريقة عرف النظام نوعاً ما كان يبحث عنه. وعندما وجد [صوتاً مألوفاً له]، كان قادراً على تحويل نظام الفم الروبوتي ليتوافق مع الوضعيات التي طابقتها معه على الرسم البياني. نجح ذلك جيداً وبنحو مدهش.
الشيء التالي كان ما أسميه نظام تنميط الصوت Voice-patterning system الذي يعمل مع المقاطع الصوتية. من الواضح أنك، عندما تتحدث، يتحرك فكك إلى الأعلى وإلى الأسفل في وقت متناسب مع المقاطع الصوتية. لذلك كانت تلك هي المرحلة التالية لإنشاء نظام تنميط الصوت هذا، والذي يعني أنه إذا لم يكن هناك صوت، فسيغلق الفم، وكلما زاد ارتفاع الصوت، اتسع الفم.

كيف اخترتَ مظهر الروبوت؟
حسناً، يوجد بالفعل روبوتان في التجربة- أحدهما يبدو أكبر سناً والآخر يبدو أصغر سناً. لا يحظى الروبوت الأصغر بالقدر نفسه من الاهتمام، لأنني أعتقد أن الروبوت الأكبر سناً يبدو واقعياً أكثر. لكنني أنتجتهما على أساس أن يكون أحدهما نسخة أصغر سناً من الآخر. لذا فالروبوتان متشابهان تقريباً.
أردت أن أقارن كيف يتفاعل الناس مع روبوت يبدو أكبر سناً وروبوت أصغر سناً. ما وجدته هو أن الشباب فضلوا التفاعل مع الروبوت الأصغر سناً فيما فضل كبار السن التفاعل مع الروبوت الآخر الأكبر سناً.
كما أنني أسبغت على كل منها شخصية. فقلت لنفسي، حسناً، ما زلتُ شاباً، لذا سأبني شخصية الأصغر سناً لتكون مشابهة لشخصيتي. وأنا أعرف والدي جيداً، وهو أكبر سناً، لذلك صممت الآخر ليشبهه. جعلت الروبوت الأصغر يهتم بما أهتم به والروبوت الأكبر سناً يهتم بالسنوكر.

ما التطبيقات المحتملة لهذا النوع من العمل؟
أنا دائماً أستخدم شخصية داتا Data من مسلسل ستار تريك Star Trek كنموذج مثالي له، لأنه يتصرف وكأنه واجهة شبه إنسانية تماماً بين عديد من الأشياء المختلفة: بشر وكائنات فضائية– بديهي كائنات فضائية لا تتحدث الإنجليزية، لذا فهو يعمل كمترجم. لكنه يعمل أيضاً كحلقة وصل بين حاسوب السفينة والبشر. لذلك، الأشياء التي قد تكون صعبة جداً على البشر، على سبيل المثال الحسابات، يمكنه ترجمة تلك المعلومات وتفسيرها بطريقة مبسطة- طريقة بشرية، مع إظهار بعض من العاطفة في تعبيرات الوجه. وهذا ما أعتقد أن هذه التكنولوجيا ستتجه نحوه في النهاية.
علينا أن نتذكر أنه لا يمكن للجميع التفاعل مع التكنولوجيا بنحو فعال. نحن محظوظون جداً، على ما أعتقد، لأننا نشأنا مع التكنولوجيا وقادرون على استخدامها. ولكن هناك كثيرين في العالم ممن لا يتاح لهم ذلك، لذا فإن إنشاء شيء مثل روبوت شبيه بالإنسان سيسمح لهم بالتعامل مع التكنولوجيا بنحو طبيعي أكثر بكثير.

أكتوبر 28, 2021

0 269 4 دقائق