محققان گوگل از یک مدل زبانی بزرگ جدید به نام AudioPaLM رونمایی کردهاند که توانایی شنیدن، حرفزدن و ترجمه دارد. این مدل که با دقت بالایی کار میکند، از ترکیب PaLM-۲ و AudioLM خلق شده است.
به گزارش دیجیاتو، مدل AudioLM در حفظ اطلاعات زبان آوایی مانند هویت و لحن گوینده عملکرد بالایی دارد. با ترکیب AudioLM با PaLM-۲، مدل AudioPaLM میتواند از تخصص زبانی PaLM-۲ و حفظ اطلاعات زبان آوایی AudioLM استفاده کند تا به درک کاملتری از متن و گفتار دست یابد و بهتر بتواند آنها را خلق کند.
مدل AudioPaLM از کلمات مشترکی استفاده میکند که میتواند هم گفتار و هم متن را با تعداد محدودی از توکنهای مجزا نشان دهد. این ویژگی به مدل زبانی جدید گوگل اجازه میدهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را در یک معماری و فرایند آموزش یکپارچه و واحد قرار دهد.
مدل جدید گوگل بهخاطر ترکیب دو مدل زبانی، میتواند متن و گفتار را پردازش کند یا آنها را بسازد. این موضوع کاربردهای AudioPaLM را افزایش میدهد و میتوان از آن برای کارهایی مانند تشخیص صدا یا تبدیل صدا به متن استفاده کرد.
AudioPaLM ظاهراً در آزمایشها در زمینه ترجمه گفتار عملکرد بهتری نسبت به سایر سیستمها داشته است. این مدل همچنین میتواند گفتار را به متن ترجمه کند و چنین کاری را برای ترکیبهای زبانی جدید هم انجام دهد.
مدل زبانی جدید گوگل میتواند صداها را براساس اعلانهای گفتاری کوتاه، بین زبانهای مختلف جابهجا کند. این مدل همچنین قادر است صداهای متفاوت را ضبط و آنها را در زبانهای مختلف بازتولید کند.