Корпус современного американского английского языка

Поделись знанием:
Перейти к: навигация, поиск

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[en] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.





Состав

Другие корпусы Дэвиса

TIME Magazine corpus

Корпус составлен более чем из 275000 статей из [content.time.com/time/archive архива журнала TIME] и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].

Принцип работы

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — [corpus.byu.edu/coca/ Corpus of Contemporary American English (COCA)]. Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

  • изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
  • языковые перемены в морфологии и грамматических конструкциях
  • колебания частоты использования тех или иных групп слов со временем
  • семантические изменения слов на протяжении XX века

Доступ

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

См. также

Напишите отзыв о статье "Корпус современного американского английского языка"

Примечания

  1. Kauhanen, Henri [www.helsinki.fi/varieng/CoRD/corpora/COCA/background.html The Corpus of Contemporary American English: Background and history]. VARIENG (21 марта 2011). Проверено 13 октября 2011.
  2. [corpus.byu.edu/corpora.asp Список корпусов, созданных Марком Дэвисом]. [corpus.byu.edu/faq.asp#x7 По данным Google Analytics на март 2012 года], к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
  3. [ucrel.lancs.ac.uk/claws/ CLAWS part-of-speech tagger for English]

Ссылки

  • [corpus.byu.edu/time/ Начальная страница корпуса]
  • [www.dighist.org/2012/03/time-magazine-corpus-of-american-english/ DIGital HISTory: TIME Magazine Corpus of American English]
  • [matteasanders.wordpress.com/2013/02/25/time-magazine-corpus-wrong-or-right/ Time Magazine Corpus-Wrong or Right?]

Отрывок, характеризующий Корпус современного американского английского языка

– Пожалуйте, ваше благородие, – говорил первый купец, кланяясь. Офицер стоял в недоумении, и на лице его видна была нерешительность.
– Да мне что за дело! – крикнул он вдруг и пошел быстрыми шагами вперед по ряду. В одной отпертой лавке слышались удары и ругательства, и в то время как офицер подходил к ней, из двери выскочил вытолкнутый человек в сером армяке и с бритой головой.
Человек этот, согнувшись, проскочил мимо купцов и офицера. Офицер напустился на солдат, бывших в лавке. Но в это время страшные крики огромной толпы послышались на Москворецком мосту, и офицер выбежал на площадь.
– Что такое? Что такое? – спрашивал он, но товарищ его уже скакал по направлению к крикам, мимо Василия Блаженного. Офицер сел верхом и поехал за ним. Когда он подъехал к мосту, он увидал снятые с передков две пушки, пехоту, идущую по мосту, несколько поваленных телег, несколько испуганных лиц и смеющиеся лица солдат. Подле пушек стояла одна повозка, запряженная парой. За повозкой сзади колес жались четыре борзые собаки в ошейниках. На повозке была гора вещей, и на самом верху, рядом с детским, кверху ножками перевернутым стульчиком сидела баба, пронзительно и отчаянно визжавшая. Товарищи рассказывали офицеру, что крик толпы и визги бабы произошли оттого, что наехавший на эту толпу генерал Ермолов, узнав, что солдаты разбредаются по лавкам, а толпы жителей запружают мост, приказал снять орудия с передков и сделать пример, что он будет стрелять по мосту. Толпа, валя повозки, давя друг друга, отчаянно кричала, теснясь, расчистила мост, и войска двинулись вперед.


В самом городе между тем было пусто. По улицам никого почти не было. Ворота и лавки все были заперты; кое где около кабаков слышались одинокие крики или пьяное пенье. Никто не ездил по улицам, и редко слышались шаги пешеходов. На Поварской было совершенно тихо и пустынно. На огромном дворе дома Ростовых валялись объедки сена, помет съехавшего обоза и не было видно ни одного человека. В оставшемся со всем своим добром доме Ростовых два человека были в большой гостиной. Это были дворник Игнат и казачок Мишка, внук Васильича, оставшийся в Москве с дедом. Мишка, открыв клавикорды, играл на них одним пальцем. Дворник, подбоченившись и радостно улыбаясь, стоял пред большим зеркалом.
– Вот ловко то! А? Дядюшка Игнат! – говорил мальчик, вдруг начиная хлопать обеими руками по клавишам.
– Ишь ты! – отвечал Игнат, дивуясь на то, как все более и более улыбалось его лицо в зеркале.
– Бессовестные! Право, бессовестные! – заговорил сзади их голос тихо вошедшей Мавры Кузминишны. – Эка, толсторожий, зубы то скалит. На это вас взять! Там все не прибрано, Васильич с ног сбился. Дай срок!
Игнат, поправляя поясок, перестав улыбаться и покорно опустив глаза, пошел вон из комнаты.
– Тетенька, я полегоньку, – сказал мальчик.
– Я те дам полегоньку. Постреленок! – крикнула Мавра Кузминишна, замахиваясь на него рукой. – Иди деду самовар ставь.
Мавра Кузминишна, смахнув пыль, закрыла клавикорды и, тяжело вздохнув, вышла из гостиной и заперла входную дверь.
Выйдя на двор, Мавра Кузминишна задумалась о том, куда ей идти теперь: пить ли чай к Васильичу во флигель или в кладовую прибрать то, что еще не было прибрано?
В тихой улице послышались быстрые шаги. Шаги остановились у калитки; щеколда стала стучать под рукой, старавшейся отпереть ее.
Мавра Кузминишна подошла к калитке.
– Кого надо?
– Графа, графа Илью Андреича Ростова.
– Да вы кто?
– Я офицер. Мне бы видеть нужно, – сказал русский приятный и барский голос.
Мавра Кузминишна отперла калитку. И на двор вошел лет восемнадцати круглолицый офицер, типом лица похожий на Ростовых.
– Уехали, батюшка. Вчерашнего числа в вечерни изволили уехать, – ласково сказала Мавра Кузмипишна.
Молодой офицер, стоя в калитке, как бы в нерешительности войти или не войти ему, пощелкал языком.