العلوم والتكنولوجيا

قام الباحثون بفحص جودة إجابات مكبرات الصوت من الذكاء الاصطناعى

غالبًا ما تعطي أدوات الذكاء الاصطناعى التوليدي ، بالإضافة إلى عملاء لبحث عميق ومحركات البحث على أساسها ، إجابات غير مؤكدة ومنحازة ، لا تدعمها المصادر التي يشيرون إليها.

وفقًا للتحليل ، فإن حوالي ثلث الإجابات التي توفرها أنظمة الذكاء الاصطناعى لا تعتمد على مصادر موثوقة. بالنسبة لـ GPT-4.5 من Openai ، كان هذا المؤشر أعلى بنسبة 47 ٪.

قام الباحثون باختبار محركات البحث التوليدي ، بما في ذلك GPT-4.5 و 5 من Openai ، you.com ، والطير والدردشة بين Microsoft. في موازاة ذلك ، قاموا بفحص عمل خمسة وكلاء للبحوث العميقة: وظيفة البحث العميق GPT-5 ، والخيار الأعمق في دردشة Bing ، وكذلك أدوات البحث العميق You.com و Google Gemini و Perplexity.

يوضح براناف نارايان فينكيت من Salesforce AI Research ، أحد المؤلفين: “أردنا إجراء تقييم اجتماعي لمحركات البحث التوليدي”.

كان الهدف هو قياس جودة الإجابات وفهم كيفية الارتباط بها. يمكن العثور على تفاصيل الدراسة على arxiv.

303 أسئلة طرحت أنظمة الذكاء الاصطناعي المختلفة. تم تقييم الإجابات وفقا لثمانية معايير:

  1. إجابة واحدة ،
  2. الثقة المفرطة
  3. حصة البيانات ذات الصلة ،
  4. مصادر بدون اقتباس ،
  5. بيانات دون دعم مع المصادر ،
  6. الحاجة إلى مصادر ،
  7. دقة الاقتباس ،
  8. امتلاء الاقتباس.

تم تقسيم الأسئلة إلى ما يقرب من مجموعتين: في البداية كانت هناك مواضيع مثيرة للجدل تسمح بتحديد تحيز الذكاء الاصطناعى (على سبيل المثال: “لماذا لا يمكن للطاقة البديلة في الواقع محل الوقود الأحفوري؟”) ، في الثانية ، في القضايا لفحص الخبرات في نماذج مختلفة).

تم تقييم إجابات الذكاء الاصطناعي من خلال نموذج لغة آخر (LLM) ، والذي تم تدريبه خصيصًا لتحديد أفضل السبل للحكم على جودة الإجابة. للتعلم ، تم استخدام عينة من أكثر من 100 سؤال مماثل لما تم استخدامه في الدراسة ، بينما قام النموذج بتحليل كيفية تقييم مراجعي الحسابات الحيين.

بشكل عام ، أظهرت محركات البحث وأدوات البحث العميق على أساس الذكاء الاصطناعي نفسها ضعيفة للغاية. لقد وجد الباحثون أن العديد من النماذج تعطي إجابات من جانب واحد. تبين أن حوالي 23 ٪ من العبارات التي أدليت بها Bing Chat غير مؤكدة ؛ you.com و perplexity كان حوالي 31 ٪. أصدر GPT-4.5 بيانات أكثر غير مؤكدة-47 ٪. لكن حتى هذا “الإنجاز” يعاني من خلفية عامل دراسة عميقة الحيرة ، التي أصدرت 97.5 ٪ من الإجابات غير المؤكدة.

“لقد فوجئنا بالتأكيد بهذا” ، اعترف نارايان فينكيت.

الصورة: ميها إبداعية / مصراع / فوتودي

ثق في إجابات الذكاء الاصطناعي لا تزال قبل الأوان

يقول فيليكس سيمون من جامعة أكسفورد: “غالبًا ما يشتكي المستخدمون ، وقد أكد الأبحاث مرارًا وتكرارًا أنه على الرغم من التحسينات الخطيرة ، لا يزال بإمكان أنظمة الذكاء الاصطناعي إعطاء إجابات من جانب واحد أو مضللة”. “توفر هذه المقالة بيانات مثيرة للاهتمام حول المشكلة التي ، آمل أن تكون قد دفعت إلى مزيد من التحسن.”

ومع ذلك ، ليس الجميع متأكدين من النتائج ، حتى لو كانوا يتزامن مع التجربة الشخصية لعدم موثوقية هذه الأدوات.

وقال ألكساندر أورمان من جامعة زيوريخ: “تعتمد نتائج الدراسة إلى حد كبير على شرح البيانات التي تم جمعها باستخدام LLM. وهناك العديد من المشكلات هنا”.

يجب التحقق من أي نتائج تحمل علامة AI والبكاء من قبل الناس – ويخشى Urman من أن الباحثين قاموا بذلك بعناية بما فيه الكفاية.

لديها أيضًا أسئلة حول الطريقة الإحصائية التي يختارها المؤلفون للتحقق من المراسلات بين عينة صغيرة من تعليقات الأشخاص وملخصات LLM. تطبق في الدراسة ارتباط بيرون ودعا Urman “غير طيبة للغاية وغريبة.”

على الرغم من الادعاءات المتعلقة بموثوقية النتائج ، فإن سيمون مقتنع بالحاجة إلى مزيد من البحث حول موضوع الأرشيف هذا.

“من الضروري زيادة دقة وتنوع ونوعية المصادر في إجابات الذكاء الاصطناعي ، وخاصة مع الأخذ في الاعتبار حقيقة أن هذه الأنظمة يتم تقديمها بشكل متزايد في مختلف المجالات” ، وخلص.

اشترك وقراءة “العلم” في

برقية



■ مصدر الخبر الأصلي

نشر لأول مرة على: naukatv.ru

تاريخ النشر: 2025-09-16 19:35:00

الكاتب:

تنويه من موقع “بتوقيت بيروت”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2025-09-16 19:35:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “بتوقيت بيروت”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

ظهرت المقالة قام الباحثون بفحص جودة إجابات مكبرات الصوت من الذكاء الاصطناعى أولاً على بتوقيت بيروت | اخبار لبنان والعالم لحظة بلحظة 24/24 تابعونا.

Source link

مقالات ذات صلة

زر الذهاب إلى الأعلى