Закон Ципфа
Закон Ципфа («ранг—частота») — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.
История создания
Автором закономерности является французский стенографист Жан-Батист Эсту (фр. Jean-Baptiste Estoup), который описал её в 1908 году в работе «Диапазон стенографии»[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2].
Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3].
Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии.
Приложения закона
Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год.[2]
Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой[4]:
- <math>P_n=P_1/n</math>,
где <math>P_n</math> — население города n-го ранга; <math>P_1</math> — население главного города страны (1-го ранга).
Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9].
В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона[en]: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа[10].
Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:
- большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
- соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
- существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.
Критика
Американский специалист по биоинформатике Вэньтянь Ли[en] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное значение для лингвистики.
В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частоту есть константа.
См. также
Примечания
- ↑ Alain Lelu [seio.es/BEIO/files/BEIOVol30Num1Feb2014-HyE.pdf Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950)] // Boletín de Estadística e Investigación Operativa. — 2014. — Т. 30, № 1. — С. 66—77.
- ↑ 1 2 3 4 Zipf G.K. Human Behavior and the Principle of Least Effort. — Addison-Wesley Press, 1949. — С. 484-490. — 573 с.
- ↑ K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii [arxiv.org/pdf/physics/0406099 Rank distributions of words in additive many-step Markov chains and the Zipf law] (англ.) // Phys. Rev. E.. — 2004. — Vol. 72. — P. 046138(1)-046138(6). — arXiv:physics/0406099.
- ↑ Занадворов В.С., Занадворова А.В. [window.edu.ru/resource/253/42253/files/gl6.pdf Экономика города: вводный курс]. ISBN 5-94628-099-6. Академкнига (2003).
- ↑ Jiang B., Jia T. [arxiv.org/ftp/arxiv/papers/1006/1006.0814.pdf Zipf's law for all the natural cities in the United States: a geospatial perspective]. International Journal of Geographical Information Science 25(8), 1269-1281 (2011).
- ↑ Kali R. The city as a giant component: a random graph approach to Zipf's law. — Applied Economics Letters 10: 717-720(4), 2003.
- ↑ Axtell, Robert L. [brookings.edu/es/dynamics/papers/zipf/zipf.PDF Zipf distribution of US firm sizes]. American Association for the Advancement of Science (2001).
- ↑ Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. [lisgi1.engr.ccny.cuny.edu/~makse/gibrat.pdf Laws of Population Growth]. Proc. Nat. Acad. Sci. 105, 18702–18707 (2008).
- ↑ О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.
- ↑ Gabaix, Xavier. [pages.stern.nyu.edu/~xgabaix/papers/zipf.pdf Zipf’s Law for Cities: An Explanation]. Quarterly Journal of Economics 114 (3): 739–67 (1999).
- ↑ Фаттахов Р.В., Строев П.В. [fa.ru/projects/forum24/discussion/Pages/Prostranstvennoe-razvitie-Rossii-vyzovy-sovremenno.aspx Пространственное развитие России: вызовы современности и формирование точек экономического роста]. Финансовый университет при Правительстве Российской Федерации (22.06.2015).
- ↑ Wentian Li [santafe.edu/media/workingpapers/91-03-016.pdf Закон Ципфа работает и для случайных текстов] = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8.