Den Entwicklern zufolge könne das System die Stimme einer einzelnen Person auch in einer lauten Menschenmenge von den Nebentönen absondern. Allerdings funktioniert das vorerst nur für Videos. Das künstliche neuronale Netz analysiert die Videos, sondert verschiedene Tonspuren ab und kann bei Bedarf die Hintergrundgeräusche dämpfen. Dadurch können die Nutzer die Stimme einzelner Personen im Video deutlicher hören. Dabei spiele der Mechanismus zur Gesichtserkennung auch bei der Aussonderung der Stimmen eine wichtige Rolle: Die KI analysiert unter anderem die Lippenbewegungen.
Mehr zum Thema - Stecknadel im Heuhaufen: Verbrecher in riesiger Menschenmenge mithilfe von Gesichtserkennung gefasst