Создан новый корпус среднерусских текстов

Разработчики «Национального корпуса русского языка» объявили об открытии в рамках этого проекта нового исторического корпуса. Это корпус среднерусских текстов XV — начала XVIII века, объем которого составил три миллиона словоупотреблений. В корпуса вошли литературные произведения, летописи, жития, деловые грамоты, статейные списки, бытовая переписка.

В данный момент в среднерусском корпусе доступен поиск точных форм (без морфологической разметки). Также исследователь может составить свой подкорпус, ограничив поиск произведениями определенного автора, жанра, времени создания, функционального стиля (бытовой, официальный, деловой, гибридный или же церковнославянские тексты), а также искать в тексте конкретного произведения.

Также пополнен основной корпус русского языка, куда были добавлены тексты различных периодов, включая художественную прозу и мемуары XVIII — начала XXI века, а также тексты СМИ и электронной коммуникации. Объем новых текстов составил 20 миллионов словоупотреблений, таким образом общий объем основного корпуса возрос до 230 миллионов. Напомним, что помимо основного корпуса в «Национальный корпус русского языка» входят подкорпусы текстов СМИ 1990-2000-х годов, устной речи, акцентологический корпус, мультимедийный корпус, корпус параллельных текстов, поэтический корпус, корпус диалектных текстов и обучающий корпус русского языка.

Филолог Борис Орехов рассказал Pro Science о том, что же такое "среднерусский язык" и где вообще проходят границы языка:

«Термин "среднерусский язык", конечно, очень условный. И вдобавок не слишком удачный: может возникнуть путаница со среднерусской (в географическом, а не во временном смысле) диалектной зоной, то есть владимирско-поволжскими и новгородскими группами говоров. Всё-таки обычно говоря об этом периоде эволюции языка говорят просто "русский язык XV-XVII веков" (например, издаётся многотомный "Словарь обиходного русского языка Московской Руси XVI-XVII веков"). Но для того, чтобы понять логику развития Национального корпуса русского языка, этот термин подходит.

Дело в том, что на данный момент хороший корпус собран для последних трёх веков, то есть для языка, если немного упростить дело, который можно назвать современным. То, что на этом языке написано, в общем и целом понятно нам, современным его носителям: мы узнаём слова, понимаем, что они значат и в каких грамматических отношениях состоят друг с другом. Следующим шагом должен быть охват исторического материала.

Известно, что русский язык XI-XIV веков уже заметно отличался от современного и поэтому его обычно называют древнерусским, подчёркивая тем самым значительную дистанцию с тем, как мы говорим сейчас. Корни в древнерусском языке большей частью те же, но зачастую значат они немного или совсем другое, чем сейчас. Там другая морфология, отличается система глагольных времён и даже состав фонем. Работа по превращению памятников этого периода в корпус - сложная. Но она уже идёт и очень скоро древнерусская часть станет составной частью большого Национального корпуса русского языка. Но важна поступательность движения.

До включения древнерусского периода в корпус нужно преодолеть шаг от XV до XVIII века, который занимает срединное положение между уж очень сильно непохожим на наш древнерусским периодом и вполне понятным нам языком современным. Отсюда и "среднерусский": в чём-то он такой же, как привычный нам язык последних столетий, а в чём-то несёт в себе слишком много архаических черт. Существует показательная для этого случая издательская традиция текстов среднерусского языка, которые даются в переводе довольно неохотно - в расчёте на то, что читатель всё-таки поймёт написанное. Произведения древнерусской литературы (XI-XIV веков) при этом обычно переводятся.

Чётких границ период развития языка, конечно, не имеет. Эволюция лингвистических объектов континуальна, а дискретность в неё вносят исследователи, которым проще разделить свой материал, чтобы понять, какие в нём действуют механизмы. Лучше всего это иллюстрируется хорошо известным парадоксом о куче песка. Если убирать из неё песчинки по одной, в какой-то момент кучей оставшийся песок назвать уже будет нельзя. Это произойдёт явно раньше, чем от бывшей кучи останется только одна песчинка, но в какой точно момент, сказать сложно. Три песчинки тоже мало для кучи. Десять? Пятьдесят? Граница нечёткая, невычислимая. Так же и с языком: никто не может сказать, в какой момент уже достаточное количество корней поменяло своё значение в сторону современного, а в грамматике исчезло достаточно старых форм, чтобы мы могли сказать, что перед нами новый этап эволюции языка».