24 марта 2019, воскресенье, 18:27
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.Дзен

НОВОСТИ

СТАТЬИ

PRO SCIENCE

СКОЛКОВО

ЛЕКЦИИ

АВТОРЫ

28 февраля 2013, 20:31

Создан новый корпус среднерусских текстов

Книжные лавочки на Спасском мосту в XVII веке. А.М. Васнецов, 1916 г.
Книжные лавочки на Спасском мосту в XVII веке. А.М. Васнецов, 1916 г.

Разработчики «Национального корпуса русского языка» объявили об открытии в рамках этого проекта нового исторического корпуса. Это корпус среднерусских текстов XV — начала XVIII века, объем которого составил три миллиона словоупотреблений. В корпуса вошли литературные произведения, летописи, жития, деловые грамоты, статейные списки, бытовая переписка.

В данный момент в среднерусском корпусе доступен поиск точных форм (без морфологической разметки). Также исследователь может составить свой подкорпус, ограничив поиск произведениями определенного автора, жанра, времени создания, функционального стиля (бытовой, официальный, деловой, гибридный или же церковнославянские тексты), а также искать в тексте конкретного произведения.

Также пополнен основной корпус русского языка, куда были добавлены тексты различных периодов, включая художественную прозу и мемуары XVIII — начала XXI века, а также тексты СМИ и электронной коммуникации. Объем новых текстов составил 20 миллионов словоупотреблений, таким образом общий объем основного корпуса возрос до 230 миллионов. Напомним, что помимо основного корпуса в «Национальный корпус русского языка» входят подкорпусы текстов СМИ 1990-2000-х годов, устной речи, акцентологический корпус, мультимедийный корпус, корпус параллельных текстов, поэтический корпус, корпус диалектных текстов и обучающий корпус русского языка.

Филолог Борис Орехов рассказал Pro Science о том, что же такое "среднерусский язык" и где вообще проходят границы языка:

«Термин "среднерусский язык", конечно, очень условный. И вдобавок не слишком удачный: может возникнуть путаница со среднерусской (в географическом, а не во временном смысле) диалектной зоной, то есть владимирско-поволжскими и новгородскими группами говоров. Всё-таки обычно говоря об этом периоде эволюции языка говорят просто "русский язык XV-XVII веков" (например, издаётся многотомный "Словарь обиходного русского языка Московской Руси XVI-XVII веков"). Но для того, чтобы понять логику развития Национального корпуса русского языка, этот термин подходит.

Дело в том, что на данный момент хороший корпус собран для последних трёх веков, то есть для языка, если немного упростить дело, который можно назвать современным. То, что на этом языке написано, в общем и целом понятно нам, современным его носителям: мы узнаём слова, понимаем, что они значат и в каких грамматических отношениях состоят друг с другом. Следующим шагом должен быть охват исторического материала.

Известно, что русский язык XI-XIV веков уже заметно отличался от современного и поэтому его обычно называют древнерусским, подчёркивая тем самым значительную дистанцию с тем, как мы говорим сейчас. Корни в древнерусском языке большей частью те же, но зачастую значат они немного или совсем другое, чем сейчас. Там другая морфология, отличается система глагольных времён и даже состав фонем. Работа по превращению памятников этого периода в корпус - сложная. Но она уже идёт и очень скоро древнерусская часть станет составной частью большого Национального корпуса русского языка. Но важна поступательность движения.

До включения древнерусского периода в корпус нужно преодолеть шаг от XV до XVIII века, который занимает срединное положение между уж очень сильно непохожим на наш древнерусским периодом и вполне понятным нам языком современным. Отсюда и "среднерусский": в чём-то он такой же, как привычный нам язык последних столетий, а в чём-то несёт в себе слишком много архаических черт. Существует показательная для этого случая издательская традиция текстов среднерусского языка, которые даются в переводе довольно неохотно - в расчёте на то, что читатель всё-таки поймёт написанное. Произведения древнерусской литературы (XI-XIV веков) при этом обычно переводятся.

Чётких границ период развития языка, конечно, не имеет. Эволюция лингвистических объектов континуальна, а дискретность в неё вносят исследователи, которым проще разделить свой материал, чтобы понять, какие в нём действуют механизмы. Лучше всего это иллюстрируется хорошо известным парадоксом о куче песка. Если убирать из неё песчинки по одной, в какой-то момент кучей оставшийся песок назвать уже будет нельзя. Это произойдёт явно раньше, чем от бывшей кучи останется только одна песчинка, но в какой точно момент, сказать сложно. Три песчинки тоже мало для кучи. Десять? Пятьдесят? Граница нечёткая, невычислимая. Так же и с языком: никто не может сказать, в какой момент уже достаточное количество корней поменяло своё значение в сторону современного, а в грамматике исчезло достаточно старых форм, чтобы мы могли сказать, что перед нами новый этап эволюции языка».

Обсудите в соцсетях

Система Orphus
«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ Марс Металлургия Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Юпитер акустика антибиотики античность археология архитектура астероиды астрофизика бактерии бедность библиотеки биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты киты климатология комета кометы компаративистика космос культура лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука неандертальцы нейробиология неолит обезьяны общество онкология открытия палеолит палеонтология память папирусы паразиты перевод планетология погода политика право приматы психиатрия психоанализ психология психофизиология птицы ракета растения религиоведение рептилии робототехника рыбы сердце смертность сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство школа экология эпидемии эпидемиология этология язык Древний Египет Западная Африка Латинская Америка Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад альтернативная энергетика аутизм биология бозон Хиггса глобальное потепление грипп информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция финансовый рынок черные дыры эволюция эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: [email protected]
Адрес: 129090, г. Москва, Проспект Мира, дом 19, стр.1, пом.1, ком.5
Телефон: +7 929 588 33 89
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2019.