غوغل تعلن عن نموذج الذكاء الاصطناعي للكلام والترجمة الجديد AudioPaLM
تم الكشف رسميا عن نموذج ذكاء اصطناعي لغوي جديد يحمل اسم AudioPaLM من قبل شركة جوجل. يتميز هذا النموذج بالقدرة على الاستماع والتحدث والترجمة بدقة عالية وبسرعة كبيرة.
ويعتمد هذا النموذج الجديد بشكل أساسي على نقاط القوة في نموذجين آخرين تم تطويرهما من قبل جوجل وهما PaLM-2 و AudioLM.
يعتبر نموذج PaLM-2 جزءًا من نماذج اللغة الكبيرة LLMs التي تتمتع بقدرة على فهم ومحاكاة وتوليد النصوص بشكل يشبه اللغات البشرية. أما نموذج AudioLM، فيركز على جوانب مثل الحفاظ على هوية المتحدث ونبرة الصوت.
وقد تم دمج هذين النموذجين السابقين معًا من قبل باحثي جوجل لتطوير نموذج AudioPaLM الذي يستطيع توليد النصوص والكلام بكفاءة عالية.
يتمتع النموذج الجديد AudioPaLM بقدرات متنوعة، بما في ذلك الترجمة الصوتية من لغة إلى أخرى مع الحفاظ على نبرة الصوت الأصلية. كما يمكنه أيضًا التقاط الأصوات أو الأوامر المنطوقة وإعادة إنتاجها بلغات مختلفة.
ويعمل النموذج أيضًا على تعرّف الأصوات وترجمتها إلى نصوص، حتى إنه يمكنه ترجمة التراكيب اللغوية التي لم يتعرض لها من قبل بدقة كبيرة، وفقًا للباحثين العاملين على النموذج.
ولا يزال نموذج جوجل قيد البحث والتطوير، ولا يُعرف حتى الآن موعد توفره للجمهور.
ومن جهة أخرى، أعلنت شركة ميتا في وقت سابق عن نموذج ذكاء اصطناعي أطلقت عليه اسم Voicebox، وهو نموذج حديث يمكنه أداء مهام إنشاء الكلام، مثل: تحرير المقاطع الصوتية بكفاءة، وأخذ العينات الصوتية لتوليد كلام بلغات مختلفة، وغير ذلك.
اسمع الاصوات من هنا ✓
التعليقات على الموضوع