تقوم Apple بدراسة الأصوات المتشابهة لتسريع عملية توليد الكلام







توصلت مجموعة من الباحثين في Apple وجامعة تل أبيب إلى طريقة لتسريع عملية تحويل النص إلى كلام المستندة إلى الذكاء الاصطناعي دون التضحية بالوضوح. وإليك كيف فعلوا ذلك.
نهج جديد مثير للاهتمام لتوليد الكلام بشكل أسرع
في ورقة جديدة بعنوان القبول المبدئي الخشن لفك التشفير التأملي في الكلام، قام باحثو Apple بتفصيل طريقة مثيرة للاهتمام لتوليد الكلام من النص.
في حين أن هناك حاليًا طرقًا متعددة لتوليد الكلام من النص، فقد ركز الباحثون على نماذج الانحدار التلقائي لتحويل النص إلى كلام، والتي تولد رموز الكلام واحدًا تلو الآخر.
إذا سبق لك أن بحثت عن كيفية عمل معظم نماذج اللغات الكبيرة، فمن المحتمل أنك على دراية بنماذج الانحدار التلقائي، التي تتنبأ بالرمز التالي بناءً على جميع الرموز المميزة التي جاءت من قبل.
يعمل إنشاء الكلام بالانحدار التلقائي بطريقة مشابهة بشكل عام، باستثناء أن الرموز المميزة تمثل مقاطع صوتية بدلاً من الكلمات أو الأحرف.
وعلى الرغم من أن هذه طريقة فعالة لتوليد الكلام من النص، إلا أن هذا النهج يخلق أيضًا عنق الزجاجة في المعالجة، كما يوضح باحثو Apple:
ومع ذلك، بالنسبة لبرامج LLM للكلام التي تولد رموزًا صوتية، فإن المطابقة الدقيقة للرموز تكون مقيدة بشكل مفرط: العديد من الرموز المميزة المنفصلة قابلة للتبديل صوتيًا أو دلاليًا، مما يقلل من معدلات القبول ويحد من عمليات التسريع.
وبعبارة أخرى، يمكن أن تكون نماذج الكلام الانحداري الذاتي صارمة للغاية، وغالبًا ما ترفض التنبؤات التي قد تكون جيدة بما فيه الكفاية، وذلك ببساطة لأنها لا تتطابق مع العلامة الدقيقة التي يتوقعها النموذج. وهذا بدوره يبطئ كل شيء.
أدخل، الحبيبات الخشنة المبدئية (PCG)
باختصار، يعتمد حل Apple على فرضية مفادها أن العديد من الرموز المختلفة يمكن أن تنتج أصواتًا متطابقة تقريبًا.
مع أخذ ذلك في الاعتبار، تقوم Apple بتجميع الرموز المميزة للكلام التي تبدو متشابهة، مما يؤدي إلى إنشاء خطوة تحقق أكثر مرونة.
وبعبارة أخرى، فبدلاً من التعامل مع كل صوت ممكن باعتباره مختلفًا تمامًا، يسمح النهج الذي تتبعه شركة Apple للنموذج بقبول رمز مميز ينتمي إلى نفس مجموعة “التشابه الصوتي” العامة.
في الواقع، يتكون PCG من نموذجين: نموذج أصغر يقترح بسرعة رموز الكلام، ونموذج حكم ثاني أكبر يتحقق مما إذا كانت تلك الرموز تقع ضمن المجموعة الصوتية الصحيحة قبل قبولها.
والنتيجة هي إطار عمل يكيف مفاهيم فك التشفير (SD) مع LLMs التي تولد الرموز الصوتية، والتي بدورها تعمل على تسريع توليد الكلام مع ضمان الوضوح.
وبالحديث عن النتائج، أظهر الباحثون أن PCG زاد من توليد الكلام بنحو 40%، وهو تحسن كبير، بالنظر إلى أن تطبيق فك التشفير التأملي القياسي على نماذج الكلام بالكاد أدى إلى تحسين السرعة على الإطلاق.
في الوقت نفسه، حافظ PCG على معدلات خطأ الكلمات عند مستويات أقل من الأساليب السابقة التي تركز على السرعة، وحافظ على تشابه المتحدث، وتفوق في الأداء على الأساليب السابقة التي تركز على السرعة، محققًا درجة طبيعية 4.09 (تقييم بشري قياسي من 1 إلى 5 لمدى طبيعية أصوات الكلام).
في أحد اختبارات الإجهاد (الاستئصال عند استبدال الرموز المميزة داخل المجموعة)، استبدل الباحثون 91.4% من الرموز المميزة للكلام ببدائل من نفس المجموعة الصوتية، وظل الصوت صامدًا، مع زيادة +0.007 فقط في معدل خطأ الكلمات وانخفاض -0.027 في تشابه المتحدث:
ما يمكن أن يعنيه PCG في الممارسة العملية
على الرغم من أن الدراسة لا تناقش ما يمكن أن تعنيه النتائج التي توصلت إليها عمليًا بالنسبة لمنتجات Apple ونظامها الأساسي، إلا أن هذا النهج قد يكون ذا صلة بالميزات الصوتية المستقبلية التي تحتاج إلى تحقيق التوازن بين السرعة والجودة والكفاءة.
الأهم من ذلك، أن هذا النهج لا يتطلب تدريب النموذج المستهدف، لأنه تغيير في وقت فك التشفير. بمعنى آخر، إنه تعديل يمكن تطبيقه على نماذج الكلام الموجودة في وقت الاستدلال، بدلاً من الحاجة إلى إعادة التدريب أو التغييرات الهيكلية.
علاوة على ذلك، يتطلب PCG حدًا أدنى من الموارد الإضافية (حوالي 37 ميجابايت فقط من الذاكرة لتخزين مجموعات التشابه الصوتي)، مما يجعله عمليًا للنشر على الأجهزة ذات الذاكرة المحدودة.
لمعرفة المزيد عن PCG، بما في ذلك التفاصيل الفنية المتعمقة حول مجموعات البيانات والسياق الإضافي حول طرق التقييم، اتبع هذا الرابط.
عروض الإكسسوارات على أمازون
FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.
نشر لأول مرة على: 9to5mac.com
تاريخ النشر: 2026-02-03 02:04:00
الكاتب: Marcus Mendes
تنويه من موقع “بتوقيت بيروت”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
9to5mac.com
بتاريخ: 2026-02-03 02:04:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “بتوقيت بيروت”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.




