Технология параллельной генерации звука от Google получила название SoundStorm. Она использует семантические токены AudioLM в качестве входных данных, но воспроизводит звук того же качества с более высокой согласованностью голоса и акустических условий. Разработчики гарантируют вдвое увеличенную скорость генерации: SoundStorm синтезирует 30 секунд звука на TPU-v4 за полсекунды.
Разработчики называют свою технологию моделью для высококачественного и эффективного синтеза звука на основе нейронных аудиокодеков. Он должен прийти на замену AudioLM и Spears-TTS. Они не исключают возможных погрешностей в воспроизведении, ввиду речевых и интонационных особенностей, а также характеристик самого голоса.
Разработчики, однако, предостерегают о возможных рисках. Например, случаи, когда злоумышленники решат обойти биометрическую идентификацию с целью выдать себя за другое лицо. Google считает необходимым принять меры против неправомерного применения ИИ.
Ознакомиться с примерами работ новой генеративной модели можно по ссылке.