كيف يمكنني استخراج العلوم الجديدة من البيانات العامة

في عام 2018، وفي منتصف برنامج الدكتوراه الخاص بي في جامعة كوينزلاند في بريسبان بأستراليا، اكتشفت فيروسًا لم يكن معروفًا من قبل في المختبر. الزاعجة المصرية خطوط خلايا البعوض. غالبًا ما تؤوي خلايا الحشرات عدوى فيروسية مستمرة وغير ملحوظة، لذا لم تكن النتيجة مفاجئة تمامًا. لكن هذا الفيروس الجديد لم يكن مميزا. ووجدنا أنه لا يمكنه إصابة خلايا الثدييات، وبشكل غير متوقع، أدى إلى تقليل تكاثر فيروس حمى الضنك بشكل متواضع. وقد لفت ذلك انتباهنا؛ فالفيروسات الخاصة بالحشرات، والتي تتداخل مع مسببات الأمراض البشرية، يمكن أن يكون لها آثار على فهم كيفية نقل البعوض للأمراض، وربما تعطيلها.
وقد وجهني مستشار الدكتوراه الخاص بي، عالم الفيروسات الجزيئية ساسان أصغري، بحماس نحو مجموعات بيانات أخرى من مختبرنا، وشجعني على توسيع نطاق البحث. أراد أن يعرف مدى شيوع هذا الفيروس أ. الزاعجة المصرية الخلايا في مختبرنا وغيرها. ولحسن الحظ، كانت مجموعات البيانات النسخية متاحة من الباحثين في مجال البعوض في جميع أنحاء العالم. ولم يمض وقت طويل حتى قمت بتنزيل وفحص حوالي 3000 منها وتتبعت التاريخ التطوري للفيروس في جميع أنحاء العالم.1.
ثم، في نهاية برنامج الدكتوراه الخاص بي، عثرت على بيانات من مختبر ألكسندر خروميخ، عالم الفيروسات في جامعة كوينزلاند، حيث لا أزال أعمل. يدرس كروميخ دور الحمض النووي الريبي (RNA) غير المشفر في الحويصلات خارج الخلية أثناء الالتهابات الفيروسية. بإلقاء نظرة جديدة على البيانات المنشورة في مختبره، وجدت شيئًا غير متوقع: يبدو أن الفيروسات تقطع الحمض النووي الريبي الخلوي بطرق لم يتم رؤيتها من قبل. أدت عملية إعادة التحليل تلك إلى إرسال بريد إلكتروني تمهيدي، ثم محادثة، ثم تعاون. أنا وأليكس الآن باحثون مشاركين في منحة وطنية مبنية على تلك النتيجة الأولية.
بالنسبة للباحثين في بداية حياتهم المهنية، تمثل البيانات المنشورة بالفعل فرصة ذهبية، فهي وسيلة لتوليد بيانات للمنشورات وطلبات التمويل بتكلفة قليلة، أو بدون تكلفة. ولا يتطلب القيام بذلك سوى سؤال، وجهاز كمبيوتر محمول مثبت عليه لغات البرمجة R أو Python، والاستعداد للنظر إلى البيانات القديمة من زاوية جديدة.
معظم الباحثين، حسب تجربتي، سعداء بمعرفة أن بياناتهم تُستخدم بهذه الطريقة. أدت بعض رسائل البريد الإلكتروني الخاصة بي إلى عمليات تعاون، وقادت رسائل أخرى المؤلفين إلى مشاركة البيانات الوصفية التي لم يتم تضمينها في منشوراتهم الأصلية. في بعض الأحيان، يكون لدى المؤلفين الأصليين العينات أو المعدات اللازمة لاختبار النتائج بطريقة لا يمكنك القيام بها؛ قد تؤكد تجربة سريعة من نهايتها الارتباط الذي يصبح بيانات أولية لمنحك التالي.
وكانت البيانات مجانية
إن البيانات الجينومية من النوع الذي كنت أقوم بالتنقيب فيه مناسبة بشكل خاص للتحليل الثانوي. يحتوي أرشيف قراءة التسلسل (SRA)، الذي يستضيفه المركز الوطني لمعلومات التكنولوجيا الحيوية، وهو جزء من المعاهد الوطنية للصحة في الولايات المتحدة، على أكثر من 50 بيتابايت من البيانات، يتم إيداع الكثير منها، ونادرًا ما يتم استخدامها مرة أخرى. في عام 2022، قام مشروع يسمى سيراتوس بمحاذاة المليارات من هذه القراءات مع الجينومات المرجعية الفيروسية لتحديد الآلاف من التسلسلات الفيروسية الجديدة2، وتوسيع تنوع فيروسات الحمض النووي الريبي (RNA) المعروفة بأمر من حيث الحجم. توضح هذه الجهود واسعة النطاق ما يمكن تحقيقه عندما يتم أخذ تحليل البيانات الثانوية على محمل الجد.
والنمط ينطبق على العلوم. تتوفر العديد من مجموعات بيانات التجارب السريرية، والمسوحات البيئية، وأرشيفات التصوير الطبي على الإنترنت، وهي جاهزة للانتقاء منها. غالبًا ما تخدش التحليلات المنشورة سطح ما يمكن أن تكشفه البيانات.

يقول ريس باري إن إلقاء نظرة جديدة على البيانات القديمة يمكن أن يفتح الأبواب.ريس باري / جامعة كوينزلاند
تطلب وكالات التمويل والناشرون من الباحثين أرشفة بياناتنا، لضمان إمكانية تكرار النتائج والتحقق منها. لكن قابلية التكرار ليست الشيء الوحيد الذي تستفيد منه البيانات المؤرشفة؛ تحتوي كل مجموعة بيانات على ارتباطات تتجاوز تلك التي وجدها الباحثون الذين قاموا بإنشائها. تنشأ أساليب جديدة، وتظهر فرضيات جديدة وتتغير المجالات بطرق يمكن أن تجعل البيانات القديمة جديدة مرة أخرى. هناك فرصة لجلب زوايا جديدة للبيانات الموجودة، وإيجاد ارتباطات جديدة، ومن الناحية المثالية، التحقق من صحتها.
تميل عمليات إعادة التحليل الأكثر إثارة للاهتمام إلى الجمع بين أنواع البيانات، مثل البروتينات، والنسخ، أو صور الأقمار الصناعية، وبيانات المسح. ابدأ بمجموعات البيانات التي تفهم العلوم الأساسية لها ولكن يمكنك طرح سؤال لم يطرحه المؤلفون الأصليون. لكن أولاً، تحقق من البيانات الوصفية. إذا لم تتمكن من فهم النظام والعلاج والنقطة الزمنية والتكرارات والمنصة دون الكثير من العمل البوليسي، فمن المحتمل ألا تستحق إعادة تحليل هذه البيانات الجهد المبذول.
لن توفر جميع مجموعات البيانات أو التحليلات شيئًا جديدًا. لقد قمت بتنزيل الآلاف من مجموعات البيانات التي لم تصل إلى أي مكان. لكن تكلفة البحث منخفضة، ويمكن أن تكون النتائج الفارغة مفيدة مثل النتائج الإيجابية. ويمكن نشر التحليل الثانوي الذي تم تنفيذه بشكل جيد، والاستشهاد به واستخدامه كبيانات أولية، على قدم المساواة مع أي ناتج علمي آخر.
نشر لأول مرة على: www.nature.com
تاريخ النشر: 2026-03-23 03:00:00
الكاتب: Rhys H. Parry
تنويه من موقع “beiruttime-lb.com”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2026-03-23 03:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “beiruttime-lb.com”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.




