العلوم والتكنولوجيا

ترجمة الذكاء الاصطناعي: التطور حتى الآن ، وحيث نتجه

الإعلان عن طريق TimeKettle: قد لا تعكس الآراء المعبر عنها في هذه القصة مواقع Phonearena!

لقد قطع تطور تكنولوجيا الترجمة شوطًا طويلاً. في الأيام الأولى ، كنا نحصل على ترجمات حرفية لكل كلمة من بحث Google Clunky. اليوم ، لدينا تطبيقات وأجهزة بمساعدة AI التي تكون أكثر قدرة على الترجمات في الوقت الفعلي في اتجاهين. ومع ذلك ، حتى مع وجود سماعات أذن منظمة العفو الدولية في السوق اليوم تدعم أنها تدعم “الترجمة المتزامنة في الوقت الفعلي” ، فإنها لا تزال تعتمد على نموذج قائم على الدوران-أنت تتحدث ، ثم أتحدث. هذه ليست الطريقة التي سيتواصل بها شخصان بلغتهما الأم. في الحياة الحقيقية ، نستمع بينما نتحدث ، وغالبًا ما نتدخل أو نستجيب قبل أن ينتهي الشخص الآخر. هذا التدفق الطبيعي المتداخل للحوار هو جوهر ترجمة متزامنة في اتجاهين تعمل حقًا.

ترجمة متزامنة ثنائية الاتجاه: لماذا الأمر صعب

الهدف من الترجمة المتزامنة ثنائية الاتجاه هو السماح لكلا المتحدثين بالتواصل بسلاسة وبأقل قدر من التأخير-تمامًا مثل التحدث بلغتك الأم. لكن تحقيق هذا ليس بالأمر السهل. على الأقل ، يجب أن يكون النظام قادرًا على:
  • التقاط الكلام بوضوح ،
  • ترجمته بدقة ،
  • وتقديم النتيجة بسرعة.

على عكس العديد من منتجات أذن AI التي تقدم الترجمة كميزة مكافأة ، قامت TimeKettle ببناء نظامها الإيكولوجي بالكامل حول حل أصعب التحديات في التواصل عبر اللغة. في محادثة طبيعية واحدة بين شخصين ، على سبيل المثال: يجب أن تعزل سماعات الأذن صوت السماعات مع تصفية الضوضاء المحيطة-لا يمكن إلغاء الضوضاء القياسي التعامل معها.

هذا هو المكان الذي تأتي فيه التكنولوجيا الأساسية لـ TimeKettle: الحد من الضوضاء المتجه. لا يحل هذا الابتكار العلامة التجارية مشكلة التقاط الصوت الدقيق فحسب ، بل يضع الأساس لتحقيق الترجمة الثنائية في الاتجاه.

في جوهرها ، يمكّن الحد من ضوضاء المتجه النظام من التمييز بين صوت السماعة بناءً على اتجاهه ومسافةه ، وفصله بشكل فعال عن ضوضاء الخلفية. هذا أمر بالغ الأهمية على وجه التحديد في البيئات الصاخبة ، وقد مهد الطريق لمنتجات TimeKettle لدعم سيناريوهات أكثر تعقيدًا-مثل التفسير متعدد الأطراف ، متعدد اللغات وترجمة الهاتف في الوقت الفعلي-وضعه معيارًا في الصناعة.

ما الذي يجلبه النماذج الكبيرة منظمة العفو الدولية إلى الطاولة

الترجمة الدقيقة والكمون المنخفض لا تقل أهمية عن التقاط صوت نظيف. لرفع تجربة الترجمة في الوقت الفعلي ، تم دمج TimeKettle نماذج لغة كبيرة من الذكاء الاصطناعي (LLMS) في أجهزتها ، حاسم في معالجة بعض نقاط الألم الطويلة في هذا المجال.

لإعطاء مثال في سياق الكلمات polysemous ، فإن القهوة الشهيرة على نمط الصينية هي “手冲咖啡” ، والتي عندما تترجم حرفيًا تعطيك “قهوة اليد”. يفسر نموذج TimeKettle بشكل صحيح على أنه “قهوة صب” بينما لا يمكن لمعظم أدوات الترجمة التعرف على هذه الفروق الدقيقة.

بصورة مماثلة، الارتباك الصوتي يمكن أن تكون قضية رئيسية. عبارات باللغة الصينية مثل “双人同传” (ترجم إلى “تفسير ثنائي الاتجاه” باللغة الإنجليزية) و “双人同床” (“شخصان يشاركون السرير” باللغة الإنجليزية) يبدو كما لو أن لديهما معاني مختلفة تمامًا ويمكن أن يكون مربكًا بشكل خطير عند ترجمة خطأ. بدون النمذجة الصوتية والدلالية عالية المستوى ، تكون هذه الأخطاء شائعة. يمكن لنظام LLM المحسّن من TimeKettle التعرف على هذه الفروق الدقيقة وتصحيحها قبل تقديم النتائج النهائية.

أسرع وأذكى وأكثر تشبه الإنسان

لضمان محادثات سلسة ، يجب أن يقوم النظام أيضًا بتصفية المدخلات غير الضرورية – مثل الإيقاف المؤقت والتردد والكلمات المتكررة – التي قد تبطئ أو تشوش الترجمة. نموذج TimeKettle الكبير يفعل ذلك تمامًا ، حيث يستخرج فقط المحتوى ذي معنى ليتم ترجمته.
الأهم من ذلك ، بفضل تحسين النموذج المستمر ، تم تخفيض زمن انتقال الترجمة بحوالي 20 ٪. على الرغم من أن ذلك قد لا يبدو وكأنه تحسن هائل على الورق ، فإن حتى 1-2 ثوانٍ في الكمون من شأنها أن تحدث فرقًا كبيرًا في محادثة وجهاً لوجه لجعلها تتدفق بشكل طبيعي.

تصنيف الخمس مراحل لترجمة الذكاء الاصطناعي

ماذا يعني تحقيق التفسير المتزامن من الذكاء الاصطناعى لمستقبل المترجمين البشريين – هل سيحل محل التفسير البشري في النهاية؟ لطالما كانت Timekettle تتنقل في مسار مستقبلي لهذه الصناعة. مستلهمًا من إطار التصنيف المستخدم في صناعة القيادة المستقلة ، قدمت واحدة لترجمة الذكاء الاصطناعي ، مع رسم خريطة طريق واضحة للتنمية المستقبلية للصناعة.L1 – ترجمة المرحلة المبكرة. المترجمين الإلكترونية البسيطة أو الإصدارات الأولى من جوجل ترجمة. إدخال النص فقط. يترجم هذا المستوى من العبارات ذات الكلمة والكلمة أو الأساسية جدًا فقط ، لا شيء قريب من تجربة مستمرة.L2 – ترجمة على دراية بالسياق. بمساعدة الترجمة الآلية العصبية ومعالجة اللغة الطبيعية (NLP) ، أصبح إدخال الصوت ممكنًا الآن. كما أنها قادرة على ترجمة عبارات أطول ، ولكن من الأفضل إذا كانت بسيطة. لا يزال يتطلب منك أن تتناوب وتشعر بطيئة وروبوتية.

L3 -ترجمة متزامنة ثنائية الاتجاه التي تحققتها التعرف على الكلام التلقائي (ASR) ، والترجمة الآلية العصبية ، ومحركات النص إلى كلام ، جنبًا إلى جنب مع التبني الجزئي لنماذج كبيرة من الذكاء الاصطناعي. هذا أقرب إلى نمط المحادثة ، لأنه لا يعتمد على الدوران. يمكنك البدء في التحدث قبل انتهاء الجملة المترجمة ، ويمكنك التدخل ، وسيذهب محرك الكلام في كلا الاتجاهين. يتم تحقيق مستوى كبير من الفهم السياقي.

هذا هو المكان الذي يوجد فيه TimeTettle حاليًا – يطرق باب ترجمة نمط “المحادثة الحقيقية”. يمكن أن يكون هذا أفضل تجربة مع W4 Pro: عندما يشارك طرفان زوجًا ، يمكنك القفز مباشرة إلى محادثة مستمرة ثنائية الاتجاه وجهاً لوجه مع الحفاظ على لغة جسدك والاتصال بالعين! ومع ذلك ، لا يزال هناك تأخير معين ، ويفتقر إلى الفروق العاطفية حتى تكون المحادثة أكثر دقة وطبيعية ، وهذا هو السبب في أن الشركة تعمل بجد للانتقال إلى المستوى التالي:L4 -ترجمة عالية الدقة في الوقت الحقيقي. في تطبيق العمق لنماذج كبيرة من الذكاء الاصطناعي القادرة على تفسير العواطف وراء الكلمات والهياكل. لهذا السبب ، يتم دمج غضب أو سعادة المتحدث في النتائج المترجمة ، مما يجعلها قفزة كبيرة تتجاوز مجرد ترجمة الكلام. ومع ذلك ، يبقى التحدي أنه يحتاج إلى كميات عالية من البيانات للمعالجة.

L5 – المدخلات والمخرجات متعددة الوسائط والذكاء العام الاصطناعي التي تسمح بالتفسير المتقدم للنسخ الفرعية والفروق الثقافية مثل المصطلح المحلي ؛ قادرة على تحليل المحادثة وحتى اقتراح الاستجابة. هذا يشبه إلى حد كبير Iron Man's Jarvis ، وهو مساعد اتصال ذكي من الذكاء الاصطناعي ، ينافس أيضًا مترجم بشري محترف محترف قادر على التعامل مع السياقات الثقافية المعقدة.

على الرغم من أن ترجمة الذكاء الاصطناعى قد تقدمت بشكل كبير في السنوات الأخيرة ، فإن TimeKettle تقر بأن العديد من التحديات الحاسمة تبقى مع تقدمها من L3 إلى L4 وما بعدها.

تشمل العقبات الرئيسية:

  • تعزيز دقة التعرف على الكلام في البيئات المعقدة ،
  • تحقيق اختراقات في الحصول على بيانات نصية لبعض اللغات ، و
  • تمكين الذكاء الاصطناعي ل فهم الفروق الدقيقة والمعنى الضمني ضمن الحوار.

للتغلب على هذه الحواجز ، يعمل فريق البحث والتطوير في TimeKettle بنشاط على:

  • تحسين صفائف الميكروفون و معالجة الإشارة لتحسين مدخلات الكلام في بيئات الصوت المعقدة ،
  • توسيع مجموعات بيانات اللغة لللغات الممثلة تمثيلا ناقصا من خلال التعلم الخاضع للإشراف وزيادة البيانات ، و
  • دمج الشركات عبر الثقافات لمساعدة الذكاء الاصطناعي بشكل أفضل تفسير السياقات الثقافية.

Timekettle يرى تقارب متعددة الوسائط الذكاء الاصطناعي و الذكاء العام الاصطناعي (AGI) كنقطة تحول تحويلية. نظرًا لأن هذا ينضج ، فإن أنظمة الترجمة المستقبلية قادرة على فهم الكلام والنغمات العاطفية الأساسية فحسب ، بل تفسر أيضًا النية وراء المتحدثين مما يجعل من الممكن التعامل مع الفروق الدقيقة ذات المستوى الأعلى مثل السخرية.

هدف TimeKettle: ما وراء L5

تتمثل مهمة TimeKettle في الوصول إلى مستوى المترجم النهائي مثل سمكة بابل. بحلول هذا الوقت ، يمكن لشخصين التحدث بسهولة ، والفروق العاطفية والوضوح في مشاركة نفس اللغة الأم ؛ تتدفق المحادثة بسلاسة لدرجة أنها ليست على دراية بنظام أساسي.
ومع ذلك ، تعكس هذه الرؤية المستوحاة من الخيال العلمي مهمة تركز على الإنسان إلى حد ما والتي توجّحت دائمًا Timekettle: لتحطيم الحواجز اللغوية وبناء مستقبل من العلاقة البشرية التي لا حدود لها حقًا.

استكشاف منتجات TimeKettle



مصدر الخبر

| نُشر أول مرة على: www.phonearena.com
| بتاريخ: 2025-06-25 14:51:00
| الكاتب: Preslav Kateliev


إدارة الموقع لا تتبنى وجهة نظر الكاتب أو الخبر المنشور، بل تقع المسؤولية على عاتق الناشر الأصلي

Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى