Тайные законы текста: что я узнал с Лавренко в свободное время | 12 октября 2017 года, 13:03

(TIL) В свободное время от работы смотрю лекции Лавренко. Сегодня с утра слушал лекцию “Законы текста”.

Например, вы знали, что есть такой закон Ципфа, говорящий, что частота n-го слова в списке самых частых слов любого языка окажется приблизительно обратно пропорциональной его порядковому номеру n?

Или вот есть эмпирический закон Бенфорда: в таблицах чисел, основанных на данных источников из реальной жизни (что угодно – от электрических счетов до номеров домов в городах) цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях), цифра 2 больше, чем, например, 8 и.д.. Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный. Очень интересно.

Или вот закон Хипа. Количество уникальных слов в любом тексте с числом слов N подчиняется закономерности f(N) = k*N^b, где b в большинстве случаев равно 1/2.

Эти законы позволяют, например, проверять данные или текст на “естественность”.

Или вот еще. Для любого очень редкого слова вероятность того, что он встретится в тексте очень низкая, и это понятно. Но если это слово все-таки встречается в тексте, то вероятность того, что оно встретится снова, очень высока.

https://www.youtube.com/playlist?list=PLBv09BD7ez_64T7_6df4362YRhYblYxPv

Оставьте комментарий