Вчера в Институте русского языка имени В. Виноградова состоялась презентация "Национального корпуса русского языка". Лингвисты, литературоведы, да и все гуманитарии наконец-то получили удобный инструмент для исследований, а русский язык получил по заслугам – корпусы большинства крупных литературных языков открыты уже давно.
Корпус – это коллекция специальным образом подобранных текстов на том или ином языке. В отличие от электронных библиотек, он предназначен не для чтения текстов, а для извлечения из них лингвистически важной информации. "Национальный корпус — это не собрание “интересных” или “полезных” текстов; это собрание текстов, интересных или полезных для изучения языка", - пишут создатели корпуса. Это, во-первых, определяет состав текстов: они должны быть статистически грамотно подобраны, с тем чтобы отражать языковую ситуацию эпохи. Во-вторых, они должны содержать разметку различных типов – каждому слову, словосочетанию, предложению и т.д., а также и каждому тексту в целом должен быть приписан ряд характеристик. Для слов – "начальная форма", род, число, падеж, лицо и т.д., для словосочетаний – их синтаксическая функция в предложении, для предложений же – их тип по некоторым известным классификациям. Исследователь может задать круг текстов по жанру, времени создания или, например, по автору и искать в них что-нибудь вроде неодушевленных существительных в родительном падеже. Каждый, кто пробовал делать это с текстами без разметки, поймет разницу.
Количество параметров, по которым может осуществляться поиск, в разных корпусах разное. Но принцип один: с помощью разметки можно найти то, что невозможно (или очень сложно) найти, пользуясь привычным неудобным “Ctrl+F”. О сравнении с популярным еще недавно выписыванием примеров из книжек, например, на карточки речь, конечно, и вовсе не идет.
Задачи, в решении которых может быть полезен национальный корпус: от литературоведческих исследований вроде "Местоимения у писателя N" до лингвистических вроде "Эволюции синтаксической конструкции NN в XIX-XX вв." С его помощью можно даже, скажем, учить иностранный язык. Вообще говоря, сложно представить себе ученого, так или иначе работающего с текстом, которому не облегчил бы работу хорошо организованный корпус.
Наличие корпуса стало едва ли не критерием культурной значимости языка, индикатором зрелости научной среды. Важный литературный язык, не зафиксированный в корпусе, – это немножко моветон. Теперь языку нужны не только грамматика и словарь, но еще и корпус – а грамматика и словарь создаются с немалым участием последнего. Разумеется, образцовый корпус создан на английском материале.
Представленный вчера Национальный корпус русского языка – не первая попытка осуществить нечто подобное в России. Разработки в этой области начались в 1980-х годах, но до завершающей стадии, за редким исключением, не доходили. Имеется всего один русский корпус с морфологической разметкой (и это несмотря на сложную русскую морфологию!), но и он по ряду причин не слишком пригоден для работы. Новый корпус, разработанный московскими и петербургскими лингвистами, включает более 20 млн. слов, тексты разных жанров с начала XIX по конец XX века, богатую разметку. Он предоставляет хорошие поисковые возможности. В процессе создания корпуса был выработан ряд оправдавших себя приемов, новых для корпусной лингвистики.
Теперь у российской науки есть шанс стать законодателем мод в этой области. Во всяком случае, иностранные коллеги очень интересуются.