Штучний інтелект на основі Біблії розпізнає понад 4 000 мов

Meta розробила моделі штучного інтелекту, здатні ідентифікувати понад 4 000 розмовних мов і розпізнавати 1 100 з них вимовлених вголос, спираючись на дані з Біблії.
Джерело: evangelicalfocus.com
Це в 40 разів більше, ніж будь-яка відома попередня технологія. «Це значний крок до збереження мов, які знаходяться під загрозою зникнення», − каже компанія, що стоїть за Facebook та Instagram.
Їхні моделі масового багатомовного мовлення (MMS) мають на меті «полегшити людям доступ до інформації та користування пристроями рідною мовою».
Meta робить їх доступними на програмному забезпеченні з відкритим доступом, щоб «інші члени дослідницької спільноти могли спиратися на нашу роботу».
Дані з Біблії
У світі існує близько 7 000 мов, але наявні моделі розпізнавання мовлення охоплюють лише близько 100 з них.
Щоб подолати цю проблему і навчити модель, вони створили два набори даних з релігійними текстами, переклади яких та аудіозаписи людей, що їх читають, є у відкритому доступі різними мовами.
Один з наборів містить аудіозаписи Нового Заповіту і відповідного тексту, взяті з інтернету на 1 107 мовах, що забезпечило в середньому 32 години даних на кожну мову; інший містить немарковані записи різних інших християнських релігійних читань.
Читайте також:
Однак вони підкреслюють, що «хоча зміст аудіозаписів є релігійним, наш аналіз показує, що це не зміщує модель у бік більшої кількості релігійної мови».
У майбутньому Meta сподівається «розширити покриття MMS, щоб підтримувати ще більше мов, а також розв’язувати проблему обробки діалектів, що часто є складним завданням для мовних технологій, що вже існують».