Противоестественная интуиция высоких размерностей | 2026-04-13T23:17:35

Я сейчас много работаю с векторами большой размерности, и некоторые штуки, которые раньше не осознавал до конца, начинают реально щекотать мозг. Наша 3D-интуиция там не просто не работает — она врет.

Оказывается, любые два случайных вектора в пространстве высокой размерности с огромной вероятностью будут почти перпендикулярны друг другу. Почти всё пространство — это один сплошной «экватор».

Собственно, на этом во многом и построено машинное обучение. Если ваши эмбеддинги внезапно показывают высокую косинусную близость (например, 0.8 — это не статистическая погрешность, а мощнейший сигнал. В 1000-мерном мире «случайно» так сойтись почти невозможно.

В таких пространствах почти вся масса данных сосредоточена в экстремально тонком поверхностном слое. «Внутренности» объектов математически пусты.

Это легко проверить на таком воображаемом примере. Возьмем «кожуру» многомерного шара толщиной всего в 1% от радиуса. Объем шара пропорционален радиусу в степени размерности.

• В трехмерном пространстве мякоть (0.99 радиуса) занимает 97% объема, возводите 0.99 в куб.

• В 1000D мякоть занимает всего 0.000043%.

Можно ещё по другому понять. Чтобы точка оказалась ближе к началу координат, нужно, чтобы по всем осям координаты были близко к началу координат. Стоит одной оси иметь большое значение, и все, точка улетела. Если брать точки случайно, то просто вероятность того, что они все разом будут ниже любого значения падает с ростом размерности, причём падает быстро.

Всё «мясо» данных всегда оказывается в кожуре. Любая выборка в High-D — это, по сути, набор граничных значений.

Для белого шума в высокой размерности расстояние между самым близким и самым дальним соседом становится почти одинаковым. Понятие «близости» просто деградирует.