Команда из Google опубликовала научную работу на рецензирование, описывающую принцип синтеза человеческой речи – https://arxiv.org/abs/1712.05884 . Интересны примеры –
https://google.github.io/tacotron/publications/tacotron2/ Там есть сказанное человеком и синтезированное системой. Попробуйте отличить. Я не смог.
