Полiт.ua Государственная сеть Государственные люди Войти
5 декабря 2016, понедельник, 19:41
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

02 мая 2013, 14:08
Дмитрий Сичинава

Полк, дивизия, корпус русского языка

Jan Avendano
Jan Avendano

Дмитрий Сичинава
Фото: В. Люсина

Интервью с Дмитрием Владимировичем Сичинавой, старшим научным сотрудником Отдела корпусной лингвистики и лингвистической поэтики Института русского языка им. В. В. Виноградова РАН. Беседовал Лев Усыскин.

Л.У.: Что это за проект - Национальный корпус русского языка? Для чего это нужно, кто, когда и зачем это придумал? И какие есть аналоги в других странах, в других языках?

Д.С.: Корпус - это (говоря на уровне определения, максимально сжато) собрание уникальных, не повторяющихся текстов в электронном, компьютерном, машиночитаемом виде, доступных для поиска, обработки, снабженных разметкой, упрощающей этот поиск, и репрезентативных для данного языка в целом или для какой-то части этого языка. Например, можно представить себе корпус древнерусского языка. Это все тексты с XI по XIV века. Корпус смсок. Собрать все смс мы не можем, но мы можем какой-то процент взять от Москвы, какой-то от Сибири, из разных мест, где люди обмениваются смс-сообщениями на русском языке. Или корпус газет за такие-то годы - тоже распространенная задача. Берутся газеты за такие-то годы на данном языке, несколько представительных газет разных сторон политического спектра, разные города, разные факторы. В любом случае, выбирается некоторая область, в которой создаются или раньше создавались, как в случае исторических корпусов, тексты, и из них делается некоторая выборка. Если текстов в этой области сравнительно немного, как, например, древнерусских, классических латинских, текстов на еще каком-нибудь мертвом языке, то здесь материал может быть взят полностью. Или, например, русские тексты XVIII века, опубликованные в XVIII веке. Если их все собрать, их тоже было бы сравнительно немного. Вот что такое корпус.

Для чего он нужен? Нужен он, прежде всего, для того, чтобы статистически или хотя бы на глаз оценивать частотность тех или иных явлений в языке. Еще искать примеры на эти явления. Например, если нужны примеры на какое-нибудь орфографическое правило для диктанта, то традиционно учитель придумывал эти примеры из головы или перечитывал русскую классику и находил там эти примеры. Или брал с полки русскую грамматику и выписывал эти примеры. Составители русской грамматики, в свою очередь, или перечитывали русскую классику и выписывали примеры на карточки, или держали её в голове, но таких людей мало. Например, люди типа Виноградова помнили очень хорошо не только классику, но и какой-нибудь журнал «Вестник Европы» за 1875 год. Для того, чтобы легко находить примеры на какое-то явление, нужно иметь либо фотографическую память, либо картотеку. А чтобы выяснить, какая конструкция бывает чаще: по сравнению или в сравнении, что чаще употреблялось в начале XIX века и что чаще в конце XIX века, в какое время происходит переход, происходит ли вообще – тут, пожалуй, даже картотекой не обойдешься, потому что нужно какие-то яркие вещи сравнивать с нейтральным фоном. По сравнению с, в сравнении с - это две одинаково яркие вещи. А вот, допустим, между домов и между домами. Между домов - это устаревшая норма, между домами - современная. Но понятно, что в XX веке между домами будет море, все их не выпишешь. В XIX веке их тоже будет море, но между домов будет встречаться на этом фоне чуть чаще. Вот, как это соотнести? Ни вручную выписывать все на карточки, ни на память помнить нельзя.

Л.У.: Но ведь выбор текстов, которые достойны включения, получается, во-первых, достаточно произволен - это субъективное усмотрение каких-то людей, а во-вторых, даже если считать, что эти люди руководствуются научными взглядами и принципами, все равно корпус все время пополняется и пополняется, он асимметричен. Можно ведь туда засунуть какой-то текст, который эту выборку исказит?

Д.С.: Во-первых, он не настолько открыт, хотя и принимаются решения о каких-то дополнениях. Во-вторых, влияние асимметрии выборки на языковые параметры не такое сильное. Например, Михаил Леонович Гаспаров брал сборники типа «Избранные сочинения», когда обследовал какие-то размеры. Это он все делал вручную. Корпусов не было, он пользовался выборками.

Л.У.: Ему нужны были какие-то статистические результаты?

Д.С.: Да, и он часто пользовался теми или иными сборниками избранных сочинений. Он иногда брал полные сочинения авторов, но для ряда задач подсчеты делались на тех или иных неполных изданиях, иногда даже на хрестоматиях. Полные собрания сочинений существуют, например, у Пушкина и других классиков, но не для всех больших и малых стихотворцев пушкинской поры. Гаспаров говорил так: «Люди, делая выборку из некоторых совокупностей, вряд ли делали ее по стиховым параметрам. Они делали ее исходя из каких-то своих вкусов. Поэтому есть надежда, что такие параметры при этом не исказились». Это верно и для корпуса. Например, если мы решим, что будем включать «Вестник Ставрополья», а «Голос Ставрополья» включать в корпус не будем, то при этом у нас все-таки есть некое разумное представление о том, что вряд ли журналисты, работающие в одной из этих газет, имеют значимые различия в языковых предпочтениях по целому ряду параметров с теми, кто пишет в другой.

Л.У.: Это плохо работает, потому что генетические признаки сцеплены. Можно отбирать собак по наличию белого пятна на лбу, и эта выборка будет характерна по каким-то охотничьим качествам, о чем прекрасно знает опытный кинолог.

Д.С.: Иногда сцепленность тоже проявляется. Я не случайно привожу поэтические примеры, у нас есть и поэтический корпус, где все стиховые параметры тоже размечены. Там, безусловно, обнаружилось сцепление некоторых этих признаков. Например, в антологиях поэзии XVIII века чаще отбирали басни, которые носят более занимательный характер, чем, скажем, оды, которые писались километрами из одних и тех же слов. Разумеется, басни пишутся вольным ямбом, оды - четырехстопным, а эпические поэмы - шестистопным. Понятно, что у вольного ямба происходит в эту сторону некоторое смещение частотности. То есть, безусловно, во многих случаях, где у нас нет возможности взять весь материал, происходят какие-то такие искажения. Но опыт показывает, что все-таки стомиллионный корпус более-менее сбалансирован.

Л.У.: Сто миллионов чего?

Д.С.: Сто миллионов словоупотреблений. Не разных слов, а вхождений слова в текст.  Объем во многих случаях компенсирует эти искажения признаков, которые, конечно, могут быть, но с увеличением объема нивелируются. Допустим, у Горького есть яркие индивидуальные особенности. Если у нас в корпусе будет большой перевес Горького, это исказит картину. Например, у него был составной предлог, который он любил: вплоть к. В общем, по большому корпусу видно, что это встречается почти только у Горького. Если есть один автор с каким-то явным приемом, который почти нигде больше не встречается, то чем больше корпус, тем меньше это будет заметно на общем фоне. И мы можем тем лучше судить об этой эпохе, чем меньше в ней будет процент этих ярких индивидуальностей. Будут складываться некоторые общие тенденции, т.е. можно отобрать много собак с белыми пятнами, но если собак с белыми пятнами будет десять на фоне тысячи других собак, то, возможно, эти искажения будут не так заметны.

Л.У.: Хорошо, теперь вернемся к применению этой штуки. Одну вещь я понял: это можно использовать в педагогической практике.

Д.С.: Есть другая практика - редакторская. Допустим, в тексте человек написал между домов, вы хотите ему показать, что сейчас чаще говорят между домами, что между домов звучит архаично. Вы можете это легко показать. Что-то из этого будет написано в грамматике или стилистике, но не все. Все предусмотреть ни Розенталь, ни Шведова не могли. Такой мелкой вариативности в языке много. Более того, создавая новые нормы, создатели нормативных грамматик должны смотреть, что реально употребляется. Понятно, что это в принципе независимые вещи – норма и что говорится – но не совсем, потому что если в качестве нормы в программу будет введено что-то, чего люди реально уже не говорят или говорят существенно реже, то эта норма окажется нежизнеспособной. Например, в одном пособии рекомендуется писать только обязательства по договору, но не договорные обязательства. В общем, корпус показывает, что договорные обязательства встречаются почти в три раза чаще, чем обязательства по договору. Понятно, что такой рекомендации никто не заметит.

До сего времени я говорил только о лексике, но корпус помогает искать и грамматические параметры, не привязанные к какому-либо слову. Например, найти все дательные падежи, найти все предложные падежи после предлога по. Типа по приезде, по возвращении. Вот, например, несколько лет тому назад после выхода новых словарей была большая общественная реакция со стороны всякого рода интеллигентных блогеров и не только интеллигентных блогеров, которые говорили, что русский язык гибнет из-за того, что сейчас будет кофе среднего рода. Хотя нормативные рекомендации, разрешающие кофе среднего рода, существуют с 1981 года в словаре. Этого никто не замечал. В конце концов, интеллигентные блогеры не обязаны читать словари, они могут что-то читать в ленте новостей. Хотелось бы, конечно, увидеть, кто употреблял это слово в среднем роде, но дело в том, что если вы возьмете библиотеку Мошкова или Яндекс, вы не найдете кофе среднего рода. Можно найти кофе, но кофе среднего рода найти нельзя. А в корпусе делается это так: берется прилагательные и местоимения среднего рода, но не в любом падеже, а в винительном или именительном, потому что в остальных падежах средний род совпадает с мужским - Моего кофе, моему кофе. Только мое кофе -  именительный и винительный падежи. То есть искать сочетания местоимений-прилагательных вроде мое или просто прилагательных, например, черное, со словом кофе. И оказалось, что все русские эмигранты только так и писали: Набоков, Анненков.

Л.У.: Это возникло чисто в эмигрантском контексте?

Д.С.: Это возникло в XVIII веке, как минимум, у Новикова. В XIX веке тоже есть кофе среднего рода (в той мере, в какой там вообще употребляется кофе, а не кофий). Там, где употребляется кофе, он или оно может быть обоих родов. У эмигрантов закрепляется средний род, в СССР - мужской.

Л.У.: А почему?

Д.С.: По-видимому, по требованиям редакторов, начиная с 1930-х годов. Возможно, вышел нормативный словарь и так далее. Понимаете, в СССР в начале 1930-х годов любую норму было ввести куда проще. Были нормативные словари, были стилистические рекомендации для редакторов.

Л.У.: Власть наказывает.

Д.С.: Была возможность наказания, но это не столь важно. Для тех редакторов это, наверное, важно, чтобы ничего такого не пропускать. Понятно, что кофе - это то, что отрефлексировано и с этого времени воспринимается как знак избранности, адын кофе и адын булочка – это вошло в анекдот. То, что в начале XX века мужского рода были пальто, метро и десятки других слов иностранного происхождения, обычно французского, просто никому не известно.

Когда в Москве начали с конца 20-х годов планировать и строить метро, оно первое время называлось в мужском роде, но к тому времени, как его построили и открыли, оно уже закрепилось в среднем. Так что он надел свой пальто - это в XIX веке было совершенно нормально.

Л.У.: С другой стороны, у Льва Толстого в «Анне Карениной» военное пальто среднего рода.

Д.С.: Нет, я не говорю, что только. Я говорю, что в этой точке была вариативность. Я не говорю, что нельзя было сказать военное пальто. Я говорю, что сказать военный пальто было тоже можно. Ну, или, например, раньше говорили только звонИт, потом стали говорить звОнит. И это считается ужасной вещью - говорить звОнит. Человек, говорящий звОнит, как бы отлучается от приличного общества. Но ведь раньше, в XIX веке, говорили клеИт, а сейчас говорят клЕит. Раньше говорили курИт, сейчас говорят кУрит, солИт - сОлит. СолИт –  так до сих пор говорят наши матери и бабушки, это еще можно услышать. Корпус позволяет видеть такие вещи.

Это не значит, что этого не видели раньше. Были замечательные книги, например, «Очерки по исторической грамматике русского литературного языка в XIX веке», она вышла в 60-е годы. Это тоже корпусные технологии до появления корпусов. Люди просматривали огромное количество журналов, газет, классики. Им даже удавалось сделать статистические подсчеты. В общем, эта проблематика, – то, что касается редакторов, нормы, – близка всем, кто пишет по-русски.

Л.У.: Правильно я понимаю, что теперь все эти результаты на таком доказательном уровне стали доступны в быту?

Д.С.: Да.

Л.У.: То есть два школьника с помощью этого могут друг другу объяснять что-то.

Д.С.: Да, но при этом я не хочу сказать, что теперь мы не имеем право запрещать слово звОнит и кофе среднего рода, но понимать историю вопроса полезно. Во-первых, норма должна иметь какую-то адекватность реальности и, во-вторых, норма не должна делать вид, что она нечто священное. Надо понимать, что она условная.

Л.У.: Давно висит на языке вопрос злоупотребления. Можно ли предполагать, что корпус таким образом становится инструментом формирования нормы? Можно ли через него проводить свои представления о том, какая должна быть норма?

Д.С.: Как, например?

Л.У.: Человек, который имеет полномочия пополнять этот корпус…

Д.С.: Может вредить? Умышленно ввести туда большое количество агентов, протаскивать и подсовывать?

Л.У.: Вот это возможно?

Д.С.: Я думаю, вряд ли. Потому что норма все-таки определяется не прямолинейно исходя из корпуса. И, во-вторых, корпус пополняется без явных перекосов в сторону каких-то определенных авторов или каких-то групп текстов. Если говорить о том, что раньше вообще эмигрантская литература как бы отсутствовала для научного изучения и никакие истории языка 60--70-х годов ее не упоминали, причем даже дореволюционные произведения тех же авторов смотреть  можно было, дореволюционные книги были в библиотеках, то в этом смысле доступность базы, безусловно, может приводить к некоторому смещению. В принципе, мы можем себе представить на месте пополнителя корпуса какого-нибудь национал-патриота, который начнет в больших количествах вносить газету «Дуэль», «Наш современник». Они у нас есть, причем раньше они были в довольно больших количествах, но потом их отчасти сбросили …

Л.У.: То есть из корпуса еще и что-то исключается?

Д.С.: Были случаи исключения текстов из корпуса по двум причинам. Во-первых, для улучшения баланса. Например, одна компания в свое время предоставила нам некоторые тексты из своей базы, и была сделана некоторая выборка. Но потом оказалось, что там миллион словоупотреблений «Нашего современника». На тот момент это было много. Какую-то часть мы выбросили. Но по этой причине тексты уже давно не исключаются из корпуса, потому что он уже очень большой и устойчивый. Он вполне держится на воде. А вторая причина, по которой тексты до сих пор исключаются из корпуса и довольно часто - это выяснение их ненадлежащего качества. К сожалению, это происходит не всегда сразу. Я могу сослаться на такой случай: была включена «История Российская» Василия Никитича Татищева, изданная одним из наших крупных издателей-монополистов. Умолчание не нарочно, я действительно не помню, каким именно, но одним из крупных российских издательств. Потом выяснилось, что там попадаются какие-то странные сочетания слов и какие-то слова, каких при Татищеве быть не могло. Оказалось, что это издание – чудовищного рода смесь невежества с мистификацией. Они попытались сделать Татищева по своему разумению более приемлемым для современного читателя, что-то сократив, что-то заменив, где-то поменяв слова на новые. Некоторых мест они не поняли, «исправили» их для понятности и синтаксической связности, которая, заметим, и у реального Татищева часто хромает.

Л.У.: Мистифицировать Татищева - это вообще постмодернизм.

Д.С.: Постмодернизм в квадрате, учитывая общий характер достоверности этого сочинения. Но в данном случае нас не интересует достоверность татищевских известий, потому что мы не историки. Нас интересует язык Татищева, который, безусловно, был очень яркий и оригинальный. Отображение стиля летописи, собственно его язык с «училисчами» и «манускрыптами» и так далее. Понятно, что этот текст для исследования языка Татищева использовать нельзя. Мы его выкинули.

Вообще, случаи облегченных, адаптированных и переделанных изданий старых текстов, не объявленных на обложке, – нередкая практика. Их вредоносность в том, что это не объявлено. Если бы там было написано: «адаптированное издание с переводом на современный язык» - это бы не вызвало у меня никаких возражений. Более того, я бы это приветствовал, потому что такие издания для молодежи и студентов нужны: сокращенные, увлекательные, с упрощенным языком и так далее. Конечно, это надо делать лучше, чем в реально появляющихся сейчас изданиях, но само направление правильное. Другое дело, когда тексты выдаются за то, чем они не являются. Один такой издатель выпустил «Войну и мир», заявив, что издает первую авторскую редакцию, где меньше «мира», куда больше «войны», экшена, куда меньше «высокоумных» (это цитата) рассуждений. Этот текст к первой авторской редакции не имел, в общем, никакого отношения. Издатель, он же редактор, кроил текст Толстого по своему разумению. Это уже печально, но печальнее всего, что такой текст уже переведен на испанский. Один из последних испанских переводов «Войны и мира» сделан с этого текста.

Л.У.: А он в курсе был?

Д.С.: Переводчик, конечно, был не в курсе. Переводчик, в лучшем случае, думал, что переводит первую редакцию Льва Николаевича Толстого. Кто-то в Испании купил перевод, чтобы учить испанский язык, и обнаружил, что текст другой. Так вот, тексты, пойманные на искажении, снимаются, и довольно часто снимаются другие тексты XVIII--XIX веков: сочинения княгини Дашковой, дневник Павла Пущина, к примеру, или письма Тютчева к родным.  Обычно выясняется, что это перевод с французского. Это очень типично для начала XIX века, обнаружить в корпусе необъявленный перевод с французского или, например, с польского – письма декабриста Корниловича маме. Знаете, как выясняется, что они представляют собой перевод? Декабрист Корнилович называет свою маму мама. Разумеется, в 20-30-е годы XIX века называть маму мамой немыслимо. Мама, мамка - это кормилица. Надо называть либо maman, либо матушка. А переводчик в наше время это слово смог употребить. Проверяем – действительно перевод. Или, допустим, дневник Павла Пущина привлек мое внимание тем, что Павел Пущин в 1812 году одевает шарф. На самом деле первое одеть в смысле «надеть» встретилось у Павла Васильевича Анненкова в письмах о французской революции в 1848 году. И там у него священник одевает епитрахиль, а кто-то в соседнем предложении уже что-то надевает. То есть у  него это еще колеблется, но там есть одевать точно. Дневник Павла Пущина оказался переводом с французского, правда, довольно ранним, 1909 года, что уже интересно.

Л.У..: Я подумал, что шарф смутил.

Д.С.: Нет. Так вот, первый пример сочетания одеть что-то якобы у Пущина. Второй пример - дневник матроса Егора Киселева. Матрос –  участник антарктической экспедиции Беллинсгаузена, это 1821 год, – ведет дневник. Там написано: «капитан наш вождю ихнему ожерелье на шею одел» и еще что-то вручил. Все изложено таким утрированным народным языком: прилагательные в конце, ихний и так далее. Первая публикация - какой-то морской сборник, 1940-е годы. То есть с большой долей вероятности это либо мистификация времен борьбы с космополитизмом, либо более ранняя, еще до войны, когда в 39-ом году объявили ноту Норвегии на Антарктиду.

Л.У.: Как это Норвегии на Антарктиду?

Д.С.: Норвегия объявила своими владениями землю Александра I, остров Буве, и еще что-то в Южной Атлантике, на что Молотов ответил, что Советский Союз сам может объявить права на эти земли, но предпочитает этого в настоящее время не делать. В результате до сих пор на российских картах остров Буве подписан как никому не принадлежащий, хотя на всех остальных картах он подписан как норвежский. А Норвегия объявила права чуть не на весь сектор до Южного полюса.

Л.У.: Что хотят, то и делают.

Д.С.: Что хотят, то и делают. В любом случае, это моя гипотеза насчет того, что это подделка, но с этим текстом надо быть предельно осторожным, учитывая то, что там какие-то очень странные истории его нахождения и то, что он появился в период борьбы с космополитизмом и чуть раньше, когда вся эта история с плаванием Беллинсгаузена тиражировалась в огромных количествах, и то, что там одел за двадцать семь лет до первого бесспорного вхождения. Часто ищешь в корпусе пример на что-то, находишь какой-то очень ранний изолированный пример, и оказывается, что текст может быть квалифицирован как недостоверный, причем на основании не только этого примера. В итоге мини-расследований выяснилось, что в большинстве таких странных случаев перевод с французского или высока вероятность фальсификации. Перевод с польского - это редкий случай. Не всегда в изданиях оговаривается, что какой-то текст - это перевод. Или это глубоко зарыто в примечаниях, идет в народ, в интернет, в корпус, а потом выясняются такие вещи.

Возвращаясь к вашему вопросу, надо ли изымать ли текст из корпуса ради баланса или нет, отвечаю: уже нет. Уже достаточно большой объем.

Л.У.: А по подозрению на недостоверность?

Д.С.: Подозрение на недостоверность означает, что данный текст не может отвечать ни за что вообще, как в случае с Татищевым, или за дату, как в случае с переводами. Пока переводы в основной корпус не включаются, а включаются в параллельный корпус вместе  с оригиналами, выровненные по предложениям. Но переводы вообще-то могут представлять интерес для изучения языка, например, если речь идет о древнерусском языке или тем более старославянском, где больше ничего нет. В любом случае, такие переводы, о которых выше шла речь, не могут быть привязаны к дате написания оригинала, и их сейчас разумнее исключать.

Л.У.: Немножко о технической стороне дела. Когда этот проект появился, кто его инициировал, кто его финансирует, кто осуществляет?

Д.С.: Именно русского языка или корпуса как таковые?

Л.У.: Сначала русского языка.

Д.С.: Идея создания корпуса русского языка, тогда он назывался Машинный фонд русского языка, относится к 1980-м годам. Инициатором считается академик Андрей Петрович Ершов, математик. Ведь и первые корпуса английского языка были созданы не лингвистами, а математиками и программистами, поскольку в 60-е годы такая профессия уже была.

Л.У.: Из Новосибирска?

Д.С.: Из Новосибирска. Совершенно верно. Андрею Петровичу принадлежит идея этого Машинного фонда, и он ее разрабатывал вместе с сотрудником Института русского языка В. М. Андрющенко. В 80-е годы было довольно много проведено подготовительной работы по созданию Машинного фонда.

В 86-ом году Андрей Петрович умер еще не очень старым человеком, это в известной степени замедлило процесс, но что-то продолжалось. В Институте был создан отдел Машинного фонда, вышло очень много статей о теориях и архитектуре Машинного фонда, даже книга была, и было набрано сколько-то текстов. В то время еще отсутствовали планшетные сканеры и программы распознавания. Тексты сначала набирались вручную, набирались практикантами бесплатно. Качество у этого, по правде сказать, не очень хорошее. У Мошкова – и то лучше. Но по тем временам был некоторый прорыв.  С какого-то момента появились коммерческие коллекции, продававшиеся на дисках, там была в основном фантастика и что еще должно, с точки зрения коммерсанта, интересовать мужчину: литература про автомобили, компьютеры. Но там была и классика, было много переводов, была современная литература.

Еще позже появилась библиотека Мошкова в Интернете, и у лингвистов тоже появлялись свои личные корпуса, свои коллекции текстов, в которых они что-то искали. Один из этих лингвистов, В. З. Демьянков, называл свою коллекцию «оппортунистический» корпус – это то, что ему удалось собрать, пользуясь предоставленными возможностями.

Разумеется, там нельзя было искать грамматику типа среднего рода кофе или формы родительного падежа на -у: поднял с пола или поднял с полу, чашка чая или чашка чаю. Такие вещи там нельзя было искать, но конкретные формы, лексику можно было искать довольно успешно. У каждого были свои коллекции, они пересекались по-разному. В них бывали опечатки, которые начинали довольно быстро тиражироваться. Например, один лингвист как-то написал целый абзац про пример из «Мастера и Маргариты», где фигурировал не чуявший вины ресторан. Там было довольно много рассуждений про то, каким образом понятие вины может быть приписано неодушевленному субъекту типа ресторана. Хорошо, что заметил корректор. Корректоров, которые читали «Мастера и Маргариту», все меньше и меньше, а которые помнят «Мастера и Маргариту» в этом месте и могут заподозрить неладное, наверное, еще меньше, но корректор читал роман и помнил, что в этом месте никакой вины в тексте просто нет, а ресторан не чует всего-навсего беды. Ну, просто человек набирал руками тексты, или было плохое распознавание. Я помню, что в Машинном фонде самые чудовищные искажения были не в прозе, а в стихах, где совершенно очевидно, что набиравший эти тексты студент издевался, что это были не опечатки, а сознательная диверсия, типа «дева милая, к возврату другу сердце сбереги», вместо «к возврату» набрано «к разврату». Или вместо «кивая головой» - «кривая голова». Я смотрел для корпуса тексты Бенедиктова из Машинного фонда. Не знаю, как там у более крупных авторов, но Бенедиктова набирал явно какой-то человек с большим чувством юмора.

Нормального корпуса тогда создать так и не удалось: чтобы он был доступен в интернете, чтобы в нем было много текстов, чтобы он был в цивилизованном виде. И на новом уровне за это взялись в начале 2000-х годов. Сначала стали делать небольшой корпус, снимая грамматическую омонимию типа печь — печь (существительное и глагол) или печи, печи, печи - это родительный, дательный и множественное число. Это делалось вручную. Все тексты прочитывались, вручную размечались.

Л.У.: А кто этим занимался?

Д.С.: Этим занялись аспиранты и студенты МГУ за деньги Яндекса. И этим занялся Владимир Александрович Плунгян, лингвист-морфолог и типолог, сейчас он член-корреспондент Академии наук. Этим занялся и я, в то время студент четвертого курса, и еще несколько человек. Потом где-то в 2003 году появилась идея создать Национальный корпус русского языка, именно с таким названием. Название предложили не мы, а наши петербургские коллеги. В частности, Вадим Борисович Касевич - в то время, по-моему, декан или замдекана филфака СПбГУ. И было решено, что Яндекс, который на тот момент спонсировал этот корпус, разместит его для поиска на своем сервере. С этого момента нам начали давать гранты на филологические исследования, а не просто на то, чтобы в рамках информационной системы поиска развивать какие-то корпусные технологии.

Л.У..: А гранты от кого?

Д.С.: Гранты были разные, от Президиума РАН, в частности. Сейчас основной источник – программа «Корпусная лингвистика» Президиума РАН. Программа эта идет не только на корпус русского языка. Программа эта идет на корпуса, к примеру, калмыцкого, бурятского, татарского и других языков. Программа идет, например, на собрание древнерусских и прочих исторических корпусов. Но она, в частности, поддерживает и основной корпус. В меньшей степени участвуют РФФИ, РГНФ,  но в разные годы это было по-разному. Программа Президиума РАН действует последние шесть лет. До этого еще была программа Историко-филологического отделения РАН.

Л.У.: От частных каких-то организаций?

Д.С.: Частные организации помогали нам сделать армянский корпус, над которым работала примерно наша же команда. Не я лично, но некоторые другие сотрудники, не все из которых, кстати, при этом владеют армянским, но интересуются им как типологи. Армянский корпус был создан на частные деньги и вместе с ним платформа, на которой у нас есть всякие нерусские корпуса языков России, и не только России. В частности, из языков России там - это калмыцкий, осетинский, лезгинский, бурятский корпуса. Из языков зарубежья - это монгольский, албанский, новогреческий. У греков, как ни странно, нет нормального новогреческого корпуса. И вот эта платформа для нерусских корпусов была сделана частной компанией, которая поддержала армянский корпус. Там в руководстве были и энтузиасты, и очень грамотные менеджеры.

Яндекс на начальных этапах дал очень сильный толчок, и сейчас Яндекс хостит корпус, по корпусу осуществляется разработанный ими поиск. Это важный момент. А вообще руководство корпуса - это некоммерческое партнерство, которое базируется в Институте русского языка имени Виноградова в Москве, но которое включает лингвистов из других институтов, в том числе из Петербурга, Саратова, Воронежа, из других мест. Некоммерческое партнерство сотрудничает с организациями типа Яндекса для поиска и прочего, и оно обладает авторскими правами на разметку этих текстов, на базу данных. А на сами тексты авторскими правами обладают либо их авторы, либо никто, если они в общественном достоянии по времени. Но, в общем, многие программисты хотят не только доступ к корпусу через поиск, но и иметь скачанный корпус оффлайн и обрабатывать его. Потому что сейчас мы только ищем в интернете, какая-то статистика при этом выдается, но, конечно, для программиста быстрее и проще все нужное считать самому. Сейчас мы будем раздавать миллион словоупотреблений из этого корпуса для оффлайнового доступа, и это стало возможным именно в результате образования некоммерческого партнерства.

Л.У.: А как обстоит дело со всякими авторскими правами?

Д.С.: Это очень хитро решается. Если ты, грубо говоря, Акунин или Прилепин - ты можешь подать в суд на тех, кто дает читать твои тексты. А мы их не даем читать. Мы даем искать, а расширяем контекст по три предложения в две стороны. И вычитать так весь текст нельзя. На таких условиях нам свои тексты давали многие издательства, в том числе «Вагриус», и авторы. На самом деле авторские права - это бич корпусной лингвистики, из-за чего сейчас многие корпуса требуют пароля для того, чтобы в них можно было только искать через интернет, не говоря уже о скачивании. Сейчас для того, чтобы скачать небольшую часть нашего корпуса, надо прислать скан документа и заполнить анкету, где сказано: «не будем использовать это дело в коммерческих целях и будем заниматься научно-исследовательской работой там-то и там-то». А во многих корпусах услуги предоставляются только при регистрации, то есть там нужно зарегистрироваться, что-то заполнить, и они тебе через какое-то время бесплатно пришлют пароль.

Если за корпус некоммерческие исследователи платят деньги, как в британском корпусе, например, то это, как правило, вполне символические деньги. Из-за авторских прав прямой доступ затруднен; все, кто имеют к корпусу доступ, должны как-то оставить свои имя и фамилию, чтобы, если им вдруг придёт в голову распечатывать эти тексты и их продавать, вчинить иск можно было им, а не тем, кто выставил тексты в корпус. На самом деле вероятности у самих создателей корпуса столкнуться с иском мало, потому что те, кто профессионально занимается сутяжничеством и составлением всех подобных исков о нарушении авторских прав, как правило, составляют эти иски против тех, с кого есть, что получить. А от некоммерческого партнерства нельзя рассчитывать добиться таких денег, которые интересуют подобных людей. Это в известной степени нас огораживает, но все-таки хотелось быть защищенными не только практически, но и теоретически.

Л.У.: И сколько народу систематически работает?

Д.С.: 30-50. При этом тех, кто координирует более одного проекта, порядка десяти.

Л.У..: Эти люди больше ничем не занимаются? У них это основная работа?

Д.С.: Нет, таких, видимо, вообще нет.

Л.У.: Какие есть проблемы?

Д.С.: Проблемы появления непригодных текстов типа Татищева, но это легкий случай. Можно выбросить и о нем забыть. Но есть другие ошибки, которые возникают на разных этапах работы. Например, если это основной корпус со снятой омонимией, то там ошибки в выборе падежей или омонимов, или полуавтоматический анализатор, учитывающий синтаксис; этот анализатор регулярно делал глупости. Это потом «отливается в граните» и обнаруживается через несколько лет, что караул, у нас неправильно. Кроме того, приходится править опечатки в текстах вручную.

Дальше, занятость людей другими вещами. Человек обладает квалификацией, чтобы чем-то заниматься, но в этом году, например, у него большая загрузка на другой работе, или он беременный, что-то в этом духе. Это как всегда в российских научных проектах, когда нет возможности во что-то погрузить людей на 100%.

Дальше, оптимизация поиска, чтобы не было ошибок в цифрах. Чтобы серверы не висели. У нас, по-моему, два сервера - один дублирует другой. Иногда бывают периоды, но редко, слава богу (раньше было чаще), когда поисковая система сообщает «поиск временно недоступен». Иногда хотелось бы что-то усовершенствовать, например, в поиске, но работа может занять год и перенестись на следующий год, потому что сотрудники Яндекса тоже параллельно занимаются какими-то другими проектами. Поэтому есть проблемы с нашей стороны - с текстом, с разметкой, которая просто из-за огромного объема не всегда адекватна, и должен быть контроль со стороны программистов, прежде всего, за организацией поиска, предоставлением доступа к статистике по текстам и так далее. Это такие основные вещи.

При этом у нас развиваются новые направления. Например, замечательный мультимедийный корпус, по которому можно искать. Я часто привожу в пример слово бухгалтер. Можно послушать фрагменты советского кино с этим словом. В клипах из четырех секунд можно услышать, как кто это слово произносит: «бухалтер», «бугалтер» или как-то еще. Некоторые тексты там размечены по жестикуляции. Можно посмотреть, какие жесты их сопровождают. Например, «Бриллиантовая рука», там все эти жесты очень характерные, комически утрированные.

Еще одно направление - параллельные корпуса. Это тексты и их переводы на какой-то язык. Там оригинал и перевод выровнены предложение в предложение. Можно искать, например, как на английский переводят русское слово вообще. Часто оно «вообще» отсутствует. Или русское слово уметь. Ну, или если один и тот же текст переводили разные переводчики - там интересно, какие статистически возможны разные решения. У нас сначала были только англо-русский корпус и немецко-русский. Сейчас уже и украинский, белорусский, польский довольно большие. И есть французский, итальянский, испанский, но они маленькие пока. Недавно начали параллельный армянско-русский, это оказалось легко, потому что в одноязычный армянский в свое время включили очень много переводов, в том числе, с русского.

Часто есть проблема достать перевод. Многие переводы в отличие от оригиналов в электронном виде куда менее доступны. В случае с переводами с английского на русский это не сложно, а вот, скажем, украинская классика на русском, переводы с русского на армянский - все это в советское время выходило, это надо специально искать.

Обсудите в соцсетях


ПОДГОТОВКА ИНТЕРВЬЮ: Лев Усыскин
Система Orphus
Loading...
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Facebook Google GPS IBM iPhone PRO SCIENCE видео ProScience Театр Wi-Fi альтернативная энергетика «Ангара» античность археология архитектура астероиды астрофизика Байконур бактерии библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса визуальная антропология вирусы Вольное историческое общество Вселенная вулканология Выбор редакции гаджеты генетика география геология глобальное потепление грибы грипп демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение зоопарк Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии коронавирус космос криминалистика культура культурная антропология лазер Латинская Америка лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. открытия палеолит палеонтология память педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории происхождение человека Протон-М психология психофизиология птицы ракета растения РБК РВК регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент русский язык рыбы Сингапур смертность Солнце сон социология спутники старообрядцы стартапы статистика технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология фольклор химия христианство Центр им.Хруничева школа эволюция эволюция человека экология эпидемии этнические конфликты этология ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.