تريند 🔥

🌙 رمضان 2024

في ظل سيطرة الذكاء الاصطناعي، احذر: نتائجك تعتمد فقط على جودة بياناتك

مريم مونس
مريم مونس

5 د

نحن في قلب موجة علمية ترتكز على البيانات بشكل كبير. إذ تشكل المجموعات البيانية الكبيرة والمعقدة، والتي تتضمن عادةً أعداداً هائلة من الميزات المقاسة والمفصلة بدقة، أساسًا للذكاء الاصطناعي وأنظمة التعلم الذاتي، حيث يتم الإعلان عن تطبيقات جديدة تقريبًا بشكل يومي.

إلا أن النشر بحد ذاته لا يعد دليلاً على المعلومة الصحيحة. إذ إن الإعلان عن بحث أو منهجية أو مجموعة بيانات لا يضمن صحتها وخلوها من الأخطاء. ومن دون التدقيق في الدقة والصحة قبل استعمال هذه الموارد، يكون العلماء معرضين للوقوع في الأخطاء بشكل مؤكد، وهو ما حدث فعلاً.

خلال الأشهر الأخيرة، قام فريق في مختبر المعلوماتية الحيوية وبيولوجيا الأنظمة بتقييم أحدث الطرق في التعلم الآلي للتنبؤ بالمسارات الأيضية التي تنتمي إليها المستقلبات بناءً على تركيبها الكيميائي. كان الهدف اكتشاف أفضل الطرق وتطبيقها، وإن أمكن، تعزيزها لفهم كيف تتأثر تلك المسارات تحت ظروف متباينة، كالفرق بين الأنسجة المريضة والسليمة.

اكتُشِفت العديد من الدراسات البحثية، التي نُشرت في الفترة ما بين عامي 2011 و2022، والتي كشفت عن استخدام طرق متنوعة في التعلم الآلي على مجموعة البيانات الأيضية القياسية، المستخلصة من موسوعة كيوتو للجينات والجينوم (KEGG)، والمحفوظة بجامعة كيوتو في اليابان. كنا نتوقع تحسن الخوارزميات مع الزمن، وقد لاحظنا بالفعل أن الأساليب الأحدث تفوقت في الأداء على الأساليب الأقدم. ولكن، هل كانت هذه التحسينات حقيقية؟


تسريب البيانات

يسمح التكرار العلمي بالتدقيق العميق في البيانات والنتائج من قبل المراجعين المختصّين وكذلك الفرق البحثية الأخرى، خصوصًا عند استخدام مجموعة البيانات في تطبيقات جديدة. وبما يتوافق مع أفضل الممارسات في التكرار الحسابي، شمل التحليل ورقتين بحثيتين قدمتا كل المتطلبات اللازمة لاختبار صحة ملاحظاتهما: مجموعة البيانات المستخدمة، الكود البرمجي الذي أعدوه لتطبيق منهجياتهم، والنتائج المترتبة على هذا الكود. استعانت ثلاث من الدراسات بنفس مجموعة البيانات، مما سمح لنا بإجراء مقارنات مباشرة. وعندما أجرينا ذلك، اكتشفنا مفاجأة غير متوقعة.

من المعتاد في التعلم الآلي تقسيم مجموعة البيانات إلى جزئين، واحد لتدريب النموذج والآخر لتقييم أدائه. إذا لم يكن هناك تداخل بين مجموعتي التدريب والاختبار، فإن الأداء في مرحلة الاختبار يعكس بدقة مدى كفاءة النموذج. لكن في الأبحاث التي قمنا بتقييمها، واجهنا مشكلة خطيرة تُعرف بـ "تسرب البيانات"، حيث كانت المجموعتان الفرعيتان متداخلتين، مما أفسد الفصل الواضح بينهما. تبين أن أكثر من 1700 من أصل 6648 إدخالًا في قاعدة بيانات KEGG COMPOUND - وهو ما يقارب ربع إجمالي المجموعة - قد تكرر أكثر من مرة، مما شوه خطوات التحقق المتبادل.


هل فعلًا الدراسات المنشورة خاطئة؟

عندما أزلنا التكرارات من مجموعة البيانات وطبقنا الأساليب المنشورة مجددًا، وجدنا أن الأداء كان أقل إثارة للإعجاب مما كان يبدو في البداية. شهدنا انخفاضًا كبيرًا في مقياس F1، الذي يعد مؤشرًا لتقييم الأداء في التعلم الآلي يجمع بين الدقة والتذكر، من 0.94 إلى 0.82. درجة 0.94 تعتبر مرتفعة نسبيًا وتدل على أن الخوارزمية قد تكون مفيدة في العديد من التطبيقات العلمية، بينما تشير النتيجة 0.82 إلى أنها قد تكون مفيدة في تطبيقات محددة فقط، وذلك بشرط التعامل معها بعناية.

من المؤسف أن هذه الدراسات نُشرت بنتائج قد تكون مشوهة بسبب مشاكل في مجموعة البيانات؛ فقد أثار عملنا تساؤلات حول صحة النتائج التي توصلوا إليها. ولكن، بما أن مؤلفي اثنتين من هذه الدراسات اتبعوا أفضل الممارسات في التكاثر العلمي الحسابي وقاموا بنشر بياناتهم وأكوادهم ونتائجهم بالكامل، فقد نجح المنهج العلمي في وظيفته كما هو مأمول، وتم التعرف على النتائج المشكوك فيها وجارٍ تصحيحها، بحسب ما نعلم.

أما الفريق الثالث، فلم يوفر، بحسب ما نعلم، مجموعة البيانات أو الأكواد البرمجية الخاصة بهم، مما جعل من الصعب علينا تقييم نتائجهم بدقة. لو لم تتاح البيانات والأكواد من جميع الفرق، لكان من شبه المستحيل اكتشاف مشكلة تسرب البيانات. وهذا كان سيشكل معضلة ليس فقط للدراسات التي نُشرت بالفعل ولكن أيضًا لأي باحث آخر قد يرغب في استخدام هذه المجموعة في أبحاثه.

الأكثر إثارة للقلق هو أن الأداء المرتفع الخاطئ المذكور في هذه الدراسات قد يثني الآخرين عن محاولة تحسين الأساليب المنشورة، ظنًا منهم بأن أساليبهم لا ترقى للمقارنة. كما يثير القلق احتمال تأثير ذلك على عملية النشر الأكاديمي، حيث أن إظهار التحسن غالبًا ما يُعد شرطًا للقبول بالمجلات العلمية، مما قد يعرقل التقدم العلمي لسنوات.


ما هو المسار الصحيح للتعامل مع هذه الدراسات؟

ذو صلة

قد يرى البعض ضرورة التراجع عن نشرها، ولكننا نحذر من هذا الإجراء كسياسة شاملة. نظرًا لأن اثنتين من الدراسات قدمتا بياناتهما وأكوادهما ونتائجهما كاملة، فقد أتاح ذلك تقييم النتائج وتحديد المشاكل في مجموعة البيانات. يجب تشجيع هذا النهج، ربما من خلال السماح للمؤلفين بنشر تصحيحات. من ناحية أخرى، يمكن أن يعمل سحب الدراسات التي تحتوي على نتائج شديدة الخطأ والتي لا تدعم التكرار العلمي على إيصال رسالة بأن التكرار ليس اختياريًا. إضافةً إلى ذلك، يساعد دعم التكرار العلمي الكامل المجلات على اتخاذ قرارات مستنيرة بين التصحيح والسحب.

البيانات العلمية تزداد تعقيدًا يومًا بعد يوم، وتشكل مجموعات البيانات المستخدمة في التحليلات المعقدة، خاصة في مجال الذكاء الاصطناعي، جزءًا هامًا من السجل العلمي. يجب إتاحتها بالإضافة إلى الأكواد البرمجية المستخدمة لتحليلها، سواء كمواد تكميلية أو عبر مستودعات البيانات المفتوحة مثل Figshare وZenodo، مما يضمن استمرارية البيانات وأصالتها. ومع ذلك، تبقى هذه الإجراءات مفيدة فقط إذا تعلم الباحثون كيفية التعامل مع البيانات المنشورة بنوع من الشك، لتجنب تكرار أخطاء الآخرين.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة