Частотный словарь

Поделись знанием:
Перейти к: навигация, поиск

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.





Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, англ. ipm, instances per million words). Слово и имеет частоту около 30 000 чмс, слово старость — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (англ. Likelihood-ratio test) и т. п.

См. также

Напишите отзыв о статье "Частотный словарь"

Литература

  • Adam Kilgarriff [www.kilgarriff.co.uk/Publications/1996-K-IJLFreqs.pdf Putting Frequencies in the Dictionary] // International Journal of Lexicography. — 1997. — № 10(2). — P. 135—155.
  • Ляшевская О. Н., Шаров С. А. [dict.ruslang.ru/freq.php Частотный словарь современного русского языка (на материалах Национального корпуса русского языка)]. — М.: Азбуковник, 2009. — 1087 с. — ISBN 978-5-91172-024-7.
  • Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.</span>
  • Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М.: Русский язык, 1977.
  • [feb-web.ru/feb/lermenc/lre-lfd/lre/lre-7172.htm Частотный словарь языка М. Ю. Лермонтова] // Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». — М.: Сов. Энцикл., 1981. — С. 717—774.
  • Шаров С. А. [www.artint.ru/projects/frqlist.php Частотный словарь].
  • Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — М., 1973.

Ссылки

  • [bogoslov.orthodoxy.ru/fkn2.php Частотные словари «Ветхого и Нового Завета» (Поиск «Богослова» в текстах «Ветхого и Нового Завета»).]

Отрывок, характеризующий Частотный словарь

Остановленные пехотные солдаты, толпясь в растоптанной у моста грязи, с тем особенным недоброжелательным чувством отчужденности и насмешки, с каким встречаются обыкновенно различные роды войск, смотрели на чистых, щеголеватых гусар, стройно проходивших мимо их.
– Нарядные ребята! Только бы на Подновинское!
– Что от них проку! Только напоказ и водят! – говорил другой.
– Пехота, не пыли! – шутил гусар, под которым лошадь, заиграв, брызнула грязью в пехотинца.
– Прогонял бы тебя с ранцем перехода два, шнурки то бы повытерлись, – обтирая рукавом грязь с лица, говорил пехотинец; – а то не человек, а птица сидит!
– То то бы тебя, Зикин, на коня посадить, ловок бы ты был, – шутил ефрейтор над худым, скрюченным от тяжести ранца солдатиком.
– Дубинку промеж ног возьми, вот тебе и конь буде, – отозвался гусар.


Остальная пехота поспешно проходила по мосту, спираясь воронкой у входа. Наконец повозки все прошли, давка стала меньше, и последний батальон вступил на мост. Одни гусары эскадрона Денисова оставались по ту сторону моста против неприятеля. Неприятель, вдалеке видный с противоположной горы, снизу, от моста, не был еще виден, так как из лощины, по которой текла река, горизонт оканчивался противоположным возвышением не дальше полуверсты. Впереди была пустыня, по которой кое где шевелились кучки наших разъездных казаков. Вдруг на противоположном возвышении дороги показались войска в синих капотах и артиллерия. Это были французы. Разъезд казаков рысью отошел под гору. Все офицеры и люди эскадрона Денисова, хотя и старались говорить о постороннем и смотреть по сторонам, не переставали думать только о том, что было там, на горе, и беспрестанно всё вглядывались в выходившие на горизонт пятна, которые они признавали за неприятельские войска. Погода после полудня опять прояснилась, солнце ярко спускалось над Дунаем и окружающими его темными горами. Было тихо, и с той горы изредка долетали звуки рожков и криков неприятеля. Между эскадроном и неприятелями уже никого не было, кроме мелких разъездов. Пустое пространство, саженей в триста, отделяло их от него. Неприятель перестал стрелять, и тем яснее чувствовалась та строгая, грозная, неприступная и неуловимая черта, которая разделяет два неприятельские войска.
«Один шаг за эту черту, напоминающую черту, отделяющую живых от мертвых, и – неизвестность страдания и смерть. И что там? кто там? там, за этим полем, и деревом, и крышей, освещенной солнцем? Никто не знает, и хочется знать; и страшно перейти эту черту, и хочется перейти ее; и знаешь, что рано или поздно придется перейти ее и узнать, что там, по той стороне черты, как и неизбежно узнать, что там, по ту сторону смерти. А сам силен, здоров, весел и раздражен и окружен такими здоровыми и раздраженно оживленными людьми». Так ежели и не думает, то чувствует всякий человек, находящийся в виду неприятеля, и чувство это придает особенный блеск и радостную резкость впечатлений всему происходящему в эти минуты.
На бугре у неприятеля показался дымок выстрела, и ядро, свистя, пролетело над головами гусарского эскадрона. Офицеры, стоявшие вместе, разъехались по местам. Гусары старательно стали выравнивать лошадей. В эскадроне всё замолкло. Все поглядывали вперед на неприятеля и на эскадронного командира, ожидая команды. Пролетело другое, третье ядро. Очевидно, что стреляли по гусарам; но ядро, равномерно быстро свистя, пролетало над головами гусар и ударялось где то сзади. Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон с своими однообразно разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался. Солдаты, не поворачивая головы, косились друг на друга, с любопытством высматривая впечатление товарища. На каждом лице, от Денисова до горниста, показалась около губ и подбородка одна общая черта борьбы, раздраженности и волнения. Вахмистр хмурился, оглядывая солдат, как будто угрожая наказанием. Юнкер Миронов нагибался при каждом пролете ядра. Ростов, стоя на левом фланге на своем тронутом ногами, но видном Грачике, имел счастливый вид ученика, вызванного перед большою публикой к экзамену, в котором он уверен, что отличится. Он ясно и светло оглядывался на всех, как бы прося обратить внимание на то, как он спокойно стоит под ядрами. Но и в его лице та же черта чего то нового и строгого, против его воли, показывалась около рта.
– Кто там кланяется? Юнкег' Миг'онов! Hexoг'oшo, на меня смотг'ите! – закричал Денисов, которому не стоялось на месте и который вертелся на лошади перед эскадроном.
Курносое и черноволосатое лицо Васьки Денисова и вся его маленькая сбитая фигурка с его жилистою (с короткими пальцами, покрытыми волосами) кистью руки, в которой он держал ефес вынутой наголо сабли, было точно такое же, как и всегда, особенно к вечеру, после выпитых двух бутылок. Он был только более обыкновенного красен и, задрав свою мохнатую голову кверху, как птицы, когда они пьют, безжалостно вдавив своими маленькими ногами шпоры в бока доброго Бедуина, он, будто падая назад, поскакал к другому флангу эскадрона и хриплым голосом закричал, чтоб осмотрели пистолеты. Он подъехал к Кирстену. Штаб ротмистр, на широкой и степенной кобыле, шагом ехал навстречу Денисову. Штаб ротмистр, с своими длинными усами, был серьезен, как и всегда, только глаза его блестели больше обыкновенного.