الأوراق البحثية منخفضة الجودة تغمر الأدبيات المتعلقة بالسرطان، فهل يمكن لأداة الذكاء الاصطناعي هذه أن تساعد في اكتشافها؟


مصدر الصورة: مالك إفرين/ آي ستوك عبر جيتي
كشفت أداة الذكاء الاصطناعي (AI) التي تقوم بمسح عناوين المخطوطات والملخصات عن أكثر من 250 ألف دراسة عن السرطان تحمل أوجه تشابه نصية مع المقالات التي من المعروف أنها أنتجت بواسطة مصانع الورق. تنتج هذه الشركات أوراقًا بحثية مزيفة أو منخفضة الجودة وتبيع المؤلفات.
غالبًا ما تشتمل المقالات التي تنتجها مصانع الورق على بيانات ملفقة وصور مكررة و عبارات غريبة، وهي عبارة عن اختيارات صياغة غريبة تستخدم للتهرب من أجهزة كشف الانتحال. يمكن للمتخصصين والمحققين في مجال النزاهة اكتشاف هذه العيوب، لكن العملية تستغرق وقتًا طويلاً، وفي كثير من الحالات، لا يمكن إثبات تورط مصانع الورق، لذا فإن تحديد حجم المشكلة أمر صعب.
لكن مصانع الورق ربما تعتمد على قوالب معيارية لإنتاج الأوراق بكميات كبيرة، كما يقول أدريان بارنيت، الإحصائي في جامعة كوينزلاند للتكنولوجيا في بريسبان بأستراليا، وهو ما يمكن اكتشافه بواسطة نماذج لغوية كبيرة (LLMs) تحلل الأنماط في النصوص. طور بارنيت وزملاؤه نموذجًا ونشروا تحليلهم1 على خادم الطباعة المسبق bioRxiv الشهر الماضي. لم تتم مراجعته بعد من قبل الأقران. ويشددون على أن النتائج التي توصلوا إليها يجب أن يتم فحصها من قبل متخصصين بشريين، وأنها ليست حالات مؤكدة من الاحتيال البحثي.
يقول آدم داي، مؤسس شركة كلير سكايز للأبحاث المتخصصة في النزاهة في لندن تقديرات التحليل مماثلة لتلك التي تم تحديدها بواسطة برنامج فحص سلامة الأبحاث الذي طورته شركته يسمى Papermill Alarm. لكنه يحذر من أن النهج الذي استخدمه مؤلفو ما قبل الطباعة يمكن أن يشير إلى الأوراق الشرعية ويحتاج إلى مزيد من التحقق.
مصنع الورق المشتبه به
قام بارنيت وزملاؤه بتدريب نموذج لغوي يسمى BERT، للتمييز بين دراسات السرطان “الحقيقية” والأوراق البحثية المسحوبة التي تم إدراجها على أنها تنطوي على “نشاط مشتبه به في مصنع الورق” من خلال قاعدة بيانات عامة تحتفظ بها مدونة “Retraction Watch” المعنية بالنزاهة البحثية. يقوم نموذج BERT بمسح العناوين والملخصات بحثًا عن كلمات وعبارات معينة يربطها بنشاط مصنع الورق، وهي عملية مشابهة لتصفية رسائل البريد الإلكتروني العشوائية.
نادرًا ما تشير إشعارات السحب إلى متى تم إنشاء دراسة بناءً على طلب من شركة مصنع للورق، لكن شركة Retraction Watch طورت معاييرها الخاصة – على أساس تقاريرها ومراجعتها لآلاف الإشعارات – لتعيين الأوراق المسحوبة كمقالات مشبوهة من مصانع الورق، كما يقول إيفان أورانسكي، المتخصص في النشر الأكاديمي والمؤسس المشارك لـ Retraction Watch.
بعد فحص الملخصات والعناوين، أعطت أداة الذكاء الاصطناعي كل مقال درجة احتمالية لمدى تشابهها مع منتجات مصانع الورق المسحوبة. في اختبار شمل 276 ورقة بحثية مسحوبة و275 ورقة بحثية أصلية لم يتم تضمينها في بيانات التدريب، كان اختبار BERT دقيقًا بنسبة 91%. وكان المعدل السلبي الكاذب – حصة منتجات مصانع الورق التي فشلت الأداة في تحديدها – حوالي 13% (37 من أصل 276). وكان المعدل الإيجابي الكاذب – عدد الأوراق الأصلية التي تم وضع علامة عليها بشكل غير صحيح – حوالي 4٪ (12 من أصل 275).
تم بعد ذلك استخدام أداة الذكاء الاصطناعي لفحص 2.6 مليون ورقة بحثية تتعلق بالسرطان – تم تحديدها من قاعدة بيانات PubMed للأدبيات الطبية الحيوية – والتي تم نشرها في 11632 مجلة بين عامي 1999 و2024. وقد حددت الأداة 261245 ورقة بحثية على أنها مقالات مشكوك فيها، وكان معظمها دراسات بحثية أساسية.
ويشير التحليل أيضًا إلى أن نشاط مصانع الورق قد ارتفع بشكل حاد خلال العقدين الماضيين. تم تمييز 1% فقط من المنشورات المتعلقة بالسرطان في أوائل العقد الأول من القرن الحادي والعشرين بواسطة أداة الذكاء الاصطناعي على أنها من المحتمل أن يتم إنتاجها بواسطة مصنع للورق، لكن هذا ارتفع إلى أكثر من 15% في أوائل عشرينيات القرن الحالي، وبلغ ذروته في عام 2022 عند 16.6% قبل أن ينخفض في عامي 2023 و2024.
لكن داي يقول إن النتائج ربما تتضمن العديد من الأوراق الشرعية. إن وجود أعداد متساوية من الأوراق الحقيقية والأوراق الإشكالية في بيانات التدريب لا يمثل بدقة الأدبيات البحثية، حيث تكون الأوراق الاحتيالية نادرة جدًا. ويقول إن عدم التطابق هذا يمكن أن يؤدي إلى تضخيم المعدل الإيجابي الكاذب عند تطبيقه على بيانات العالم الحقيقي.
يقول المؤلف المشارك بابتيست سكانكار، عالم البيانات في المعهد الفرنسي للتعليم العالي والبحوث في الأغذية والزراعة والبيئة في رين بفرنسا، إن الفريق لم يجد “أي دليل” على أن نسبة مقالات مصانع الورق المتوقعة كانت مبالغًا فيها في تحليله. ويضيف: “إن النسبة الحقيقية لمقالات مصانع الورق في أبحاث السرطان غير معروفة، ومن المحتمل أن تكون عالية جدًا”. “نعتقد أن الأرقام الواردة في المخطوطة أقل من الواقع.”
نشر لأول مرة على: www.nature.com
تاريخ النشر: 2025-10-08 03:00:00
الكاتب: Miryam Naddaf
تنويه من موقع “بتوقيت بيروت”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2025-10-08 03:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “بتوقيت بيروت”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.
ظهرت المقالة الأوراق البحثية منخفضة الجودة تغمر الأدبيات المتعلقة بالسرطان، فهل يمكن لأداة الذكاء الاصطناعي هذه أن تساعد في اكتشافها؟ أولاً على بتوقيت بيروت | اخبار لبنان والعالم لحظة بلحظة.




