Neue KI hört auch in der Menge mit: Google entwickelt neuen Mechanismus zur Spracherkennung

Einem raffinierten Gesichtserkennungsmechanismus für größere Menschengruppen folgt jetzt die jüngste Entwicklung der Google-Mitarbeiter: Sie haben der Künstlichen Intelligenz die Spracherkennung einzelner Personen in einer Menschenmenge beigebracht.

Den Entwicklern zufolge könne das System die Stimme einer einzelnen Person auch in einer lauten Menschenmenge von den Nebentönen absondern. Allerdings funktioniert das vorerst nur für Videos. Das künstliche neuronale Netz analysiert die Videos, sondert verschiedene Tonspuren ab und kann bei Bedarf die Hintergrundgeräusche dämpfen. Dadurch können die Nutzer die Stimme einzelner Personen im Video deutlicher hören. Dabei spiele der Mechanismus zur Gesichtserkennung auch bei der Aussonderung der Stimmen eine wichtige Rolle: Die KI analysiert unter anderem die Lippenbewegungen.

Mehr zum Thema - Stecknadel im Heuhaufen: Verbrecher in riesiger Menschenmenge mithilfe von Gesichtserkennung gefasst