Генеральный интернет-корпус русского языка

Поделись знанием:
Перейти к: навигация, поиск
Генеральный интернет-корпус русского языка
URL

[www.webcorpora.ru/ webcorpora.ru]

Коммерческий

нет

Тип сайта

образовательный/научный проект

Регистрация

есть: необходима для получения доступа к поиску

Язык(-и)

русский

Расположение сервера

Россия

Начало работы

2012

Текущий статус

работает и развивается

К:Сайты, появившиеся в 2012 годуК:Википедия:Статьи без изображений (тип: не указан)

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.





Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[1] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

  • Лингвистические исследования широкого спектра: диалектологические исследования, изучение дистрибуции слов, изучение языка социальных сетей, изучение влияния гендерных, возрастных и других факторов на язык, частотности слов, устойчивых выражений и различных конструкций, стилистических особенностей текстов разных сегментов интернета и т. д.
  • Анализ соцсетей
  • Машинное обучение на базе корпуса[2], улучшение алгоритмов автоматической разметки

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

  • Беликов В. И.— МГУ, РГГУ, Москва, Россия
  • Селегей В. П. — РГГУ; МФТИ; ABBYY, Москва, Россия
  • Шаров С. А. — РГГУ, Москва, Россия; University of Leeds, Великобритания[3]

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 млрд словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги Mail.ru и Новости, и 2 % — на Журнальный Зал[4]. В сегменте Новостей собраны материалы из источников: Риа Новости, Регнум, Лента.ру, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и т. д.); все тексты снабжены автоматической морфологической разметкой и лемматизированы[4]. Большую часть текстов создают записи за 2013—2014 годы, хотя на некоторых сегментах, например, в Журнальном Зале, собраны тексты начиная с 1994 года[5].

Подкорпус Слов, млн Текстов
Блоги Mail.Ru 707 9882120
Вконтакте 9820 193770717
Живой Журнал 8110 73229158
Журнальный Зал 313 56547
Новостной подкорпус (ria, regnum, lenta, rosbalt) 851 2964897
Весь корпус 19801 279903439

ГИКРЯ является одним из немногих мега-корпусов, достигающих объемом нескольких миллиардов слов.

Корпус Языки Доступ Сайт Объем Возможности
COW: Free, Large Web Corpora in European Languages Английский, Французский, Немецкий, Испанский, Шведский, Нидерландский бесплатно, после регистрации, возможен ознакомительный доступ без регистрации webcorpora.org/ порядка 30 млрд слов формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engine Английский, Французский, Немецкий, Итальянский, Арабский, Русский, Испанский, Португальский, Корейский, Японский, Китайский +больше языков доступны платно платно, после регистрации, возможен ознакомительный доступ www.sketchengine.co.uk/ 86 млрд слов конкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corpora Английский, Русский, Финский, Французский, Немецкий, Венгерский, Испанский, Итальянский, Голландский, Польский, Словацкий бесплатно, после регистрации, возможен ознакомительный доступ без регистрации [sketch.juls.savba.sk/aranea_about/ sketch.juls.savba.sk/aranea_about/ ] около 14 млрд слов noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка русский бесплатно, регистрация по запросу www.webcorpora.ru/ 20 млрд слов формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
GloWbE CORPUS OF GLOBAL WEB-BASED ENGLISH английский, спецификация 20 стран мира без регистрации corpus.byu.edu/glowbe/ 1,9 млрд слов KWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Корпус текстовАвтоматическое получение размеченного корпусаНКРЯ

Напишите отзыв о статье "Генеральный интернет-корпус русского языка"

Примечания

  1. www.youtube.com/watch?v=oqWHSDkxLW0 В.И.Беликов «Компьютерный анализ блогосферы как источник знаний о языке Владимир Беликов»
  2. www.dialog-21.ru/digests/dialog2015/materials/pdf/LagutinMBetal.pdf Automatic Classification of Web Texts Using Functional Text Dimensions
  3. [www.webcorpora.ru/collective Коллектив | ГИКРЯ]
  4. 1 2 [www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5 Корпус | ГИКРЯ]
  5. Запись в блоге корпуса: vk.com/wall-89094852_220

Литература

  1. [www.strf.ru/material.aspx?d_no=50859&CatalogId=21731#.V0jLmPmLTIU Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru»)]
  2. [www.dialog-21.ru/digests/dialog2013/materials/pdf/BelikovVI.pdf Беликов В., Копылов Н., Пиперски А., Селегей В., Шаров С. (2013), Корпус Как язык: от масштабируемости К дифференциальной полноте. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Бекасово.]
  3. [www.science-education.ru/pdf/2013/5/14.pdf Пиперски А. Ч. (2013) Генеральный интернет-корпус русского языка и понятие репрезентативности в корпусной лингвистике. Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет», Москва, Россия]
  4. [www.dialog-21.ru/digests/dialog2015/materials/pdf/SharoffSAetal.pdf Шаров С. А., Беликов В. И., Копылов Н. Ю., Сорокин А. А., Шаврина Т. О. (2015) Корпус с автоматически снятой морфологической неоднозначностью: К методике лингвистических исследований. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Бекасово.]

Ссылки

• [www.webcorpora.ru/ Официальный сайт ГИКРЯ]

Отрывок, характеризующий Генеральный интернет-корпус русского языка

Не обращая на Балашева внимания, унтер офицер стал говорить с товарищами о своем полковом деле и не глядел на русского генерала.
Необычайно странно было Балашеву, после близости к высшей власти и могуществу, после разговора три часа тому назад с государем и вообще привыкшему по своей службе к почестям, видеть тут, на русской земле, это враждебное и главное – непочтительное отношение к себе грубой силы.
Солнце только начинало подниматься из за туч; в воздухе было свежо и росисто. По дороге из деревни выгоняли стадо. В полях один за одним, как пузырьки в воде, вспырскивали с чувыканьем жаворонки.
Балашев оглядывался вокруг себя, ожидая приезда офицера из деревни. Русские казаки, и трубач, и французские гусары молча изредка глядели друг на друга.
Французский гусарский полковник, видимо, только что с постели, выехал из деревни на красивой сытой серой лошади, сопутствуемый двумя гусарами. На офицере, на солдатах и на их лошадях был вид довольства и щегольства.
Это было то первое время кампании, когда войска еще находились в исправности, почти равной смотровой, мирной деятельности, только с оттенком нарядной воинственности в одежде и с нравственным оттенком того веселья и предприимчивости, которые всегда сопутствуют началам кампаний.
Французский полковник с трудом удерживал зевоту, но был учтив и, видимо, понимал все значение Балашева. Он провел его мимо своих солдат за цепь и сообщил, что желание его быть представленну императору будет, вероятно, тотчас же исполнено, так как императорская квартира, сколько он знает, находится недалеко.
Они проехали деревню Рыконты, мимо французских гусарских коновязей, часовых и солдат, отдававших честь своему полковнику и с любопытством осматривавших русский мундир, и выехали на другую сторону села. По словам полковника, в двух километрах был начальник дивизии, который примет Балашева и проводит его по назначению.
Солнце уже поднялось и весело блестело на яркой зелени.
Только что они выехали за корчму на гору, как навстречу им из под горы показалась кучка всадников, впереди которой на вороной лошади с блестящею на солнце сбруей ехал высокий ростом человек в шляпе с перьями и черными, завитыми по плечи волосами, в красной мантии и с длинными ногами, выпяченными вперед, как ездят французы. Человек этот поехал галопом навстречу Балашеву, блестя и развеваясь на ярком июньском солнце своими перьями, каменьями и золотыми галунами.
Балашев уже был на расстоянии двух лошадей от скачущего ему навстречу с торжественно театральным лицом всадника в браслетах, перьях, ожерельях и золоте, когда Юльнер, французский полковник, почтительно прошептал: «Le roi de Naples». [Король Неаполитанский.] Действительно, это был Мюрат, называемый теперь неаполитанским королем. Хотя и было совершенно непонятно, почему он был неаполитанский король, но его называли так, и он сам был убежден в этом и потому имел более торжественный и важный вид, чем прежде. Он так был уверен в том, что он действительно неаполитанский король, что, когда накануне отъезда из Неаполя, во время его прогулки с женою по улицам Неаполя, несколько итальянцев прокричали ему: «Viva il re!», [Да здравствует король! (итал.) ] он с грустной улыбкой повернулся к супруге и сказал: «Les malheureux, ils ne savent pas que je les quitte demain! [Несчастные, они не знают, что я их завтра покидаю!]
Но несмотря на то, что он твердо верил в то, что он был неаполитанский король, и что он сожалел о горести своих покидаемых им подданных, в последнее время, после того как ему ведено было опять поступить на службу, и особенно после свидания с Наполеоном в Данциге, когда августейший шурин сказал ему: «Je vous ai fait Roi pour regner a maniere, mais pas a la votre», [Я вас сделал королем для того, чтобы царствовать не по своему, а по моему.] – он весело принялся за знакомое ему дело и, как разъевшийся, но не зажиревший, годный на службу конь, почуяв себя в упряжке, заиграл в оглоблях и, разрядившись как можно пестрее и дороже, веселый и довольный, скакал, сам не зная куда и зачем, по дорогам Польши.
Увидав русского генерала, он по королевски, торжественно, откинул назад голову с завитыми по плечи волосами и вопросительно поглядел на французского полковника. Полковник почтительно передал его величеству значение Балашева, фамилию которого он не мог выговорить.
– De Bal macheve! – сказал король (своей решительностью превозмогая трудность, представлявшуюся полковнику), – charme de faire votre connaissance, general, [очень приятно познакомиться с вами, генерал] – прибавил он с королевски милостивым жестом. Как только король начал говорить громко и быстро, все королевское достоинство мгновенно оставило его, и он, сам не замечая, перешел в свойственный ему тон добродушной фамильярности. Он положил свою руку на холку лошади Балашева.
– Eh, bien, general, tout est a la guerre, a ce qu'il parait, [Ну что ж, генерал, дело, кажется, идет к войне,] – сказал он, как будто сожалея об обстоятельстве, о котором он не мог судить.
– Sire, – отвечал Балашев. – l'Empereur mon maitre ne desire point la guerre, et comme Votre Majeste le voit, – говорил Балашев, во всех падежах употребляя Votre Majeste, [Государь император русский не желает ее, как ваше величество изволите видеть… ваше величество.] с неизбежной аффектацией учащения титула, обращаясь к лицу, для которого титул этот еще новость.
Лицо Мюрата сияло глупым довольством в то время, как он слушал monsieur de Balachoff. Но royaute oblige: [королевское звание имеет свои обязанности:] он чувствовал необходимость переговорить с посланником Александра о государственных делах, как король и союзник. Он слез с лошади и, взяв под руку Балашева и отойдя на несколько шагов от почтительно дожидавшейся свиты, стал ходить с ним взад и вперед, стараясь говорить значительно. Он упомянул о том, что император Наполеон оскорблен требованиями вывода войск из Пруссии, в особенности теперь, когда это требование сделалось всем известно и когда этим оскорблено достоинство Франции. Балашев сказал, что в требовании этом нет ничего оскорбительного, потому что… Мюрат перебил его:
– Так вы считаете зачинщиком не императора Александра? – сказал он неожиданно с добродушно глупой улыбкой.
Балашев сказал, почему он действительно полагал, что начинателем войны был Наполеон.
– Eh, mon cher general, – опять перебил его Мюрат, – je desire de tout mon c?ur que les Empereurs s'arrangent entre eux, et que la guerre commencee malgre moi se termine le plutot possible, [Ах, любезный генерал, я желаю от всей души, чтобы императоры покончили дело между собою и чтобы война, начатая против моей воли, окончилась как можно скорее.] – сказал он тоном разговора слуг, которые желают остаться добрыми приятелями, несмотря на ссору между господами. И он перешел к расспросам о великом князе, о его здоровье и о воспоминаниях весело и забавно проведенного с ним времени в Неаполе. Потом, как будто вдруг вспомнив о своем королевском достоинстве, Мюрат торжественно выпрямился, стал в ту же позу, в которой он стоял на коронации, и, помахивая правой рукой, сказал: – Je ne vous retiens plus, general; je souhaite le succes de vorte mission, [Я вас не задерживаю более, генерал; желаю успеха вашему посольству,] – и, развеваясь красной шитой мантией и перьями и блестя драгоценностями, он пошел к свите, почтительно ожидавшей его.