Во сложени средини, луѓето можат подобро да го разберат значењето на говорот од вештачката интелигенција, бидејќи ги користиме не само нашите уши туку и очите.
На пример, гледаме како нечија уста се движи и можеби интуитивно знаеме дека звукот што го слушаме мора да доаѓа од таа личност.
Мета вештачката интелигенција работи на нов систем за дијалог со вештачка интелигенција, кој треба да ја научи вештачката интелигенција да научи да препознава суптилни корелации помеѓу она што го гледа и слуша во разговор.
VisualVoice учи на сличен начин како луѓето учат да совладуваат нови вештини, овозможувајќи аудио-визуелно раздвојување на говорот преку учење на визуелни и аудитивни знаци од видеа без етикета.
За машините, ова создава подобра перцепција, додека човечката перцепција се подобрува.
Замислете да можете да учествувате на групни состаноци во метаверс со колеги од целиот свет, да се придружувате на состаноци на помали групи додека се движат низ виртуелниот простор, при што звучните реверби и тембри во сцената прават според околината.
Односно, може да добие аудио, видео и текстуални информации во исто време, и има побогат модел за разбирање на животната средина, овозможувајќи им на корисниците да имаат „многу леле“ звучно искуство.
Време на објавување: 20 јули 2022 година