Мне кажется, что следующий большой прорыв будет основан на сочетании генеративных AI с реконструкцией через AI карты глубин по одной фотографии. Точнее, это уже есть — MiDaS, и еще несколько. Почему это интересно — можно по сути интегрировать объекты в окружение на фотографии так, что будут приниматься в расчет тени, палитра, освещение. Сейчас это непросто, потому что условно говоря AI не знает, что плоскость стола на фото освещена неравномерно не просто так, а потому что она повернута к источнику света вот под таким углом и вон то дерево создает тень. С картой глубин это начинает приобретать смысл.
Пока с налету не понимаю, как такое реализовать, но по ощущениям это совсем скорое будущее. NVIDIA демонстрирует воссоздание 3d из нескольких фото — это photogrammetry через AI, гораздо быстрее и на первый взгляд очень точное.
https://3dstereophoto.blogspot.com/2021/01/getting-depth-maps-from-single-images.html
https://keystonedepth.cs.washington.edu/
https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/
https://3dstereophoto.blogspot.com/2021/01/getting-depth-maps-from-single-images.html
