26 марта 2019, вторник, 01:09
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.Дзен

НОВОСТИ

СТАТЬИ

PRO SCIENCE

СКОЛКОВО

ЛЕКЦИИ

АВТОРЫ

13 февраля 2014, 17:21

Новый инструмент лингвистических исследований

Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002
Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002

Сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН создан и пополняется электронный корпус текстов на четырех языках малочисленных народов Сибири — ненецком, телеутском, шорском и эвенкийском. Проект осуществляется в рамках программы Президиума РАН «Корпусная лингвистика» (2012-2014 гг.).

 
 

Лингвисты, антропологи и фольклористы, специализирующиеся на языках Сибири, получили доступ к еще одному инструменту, при помощи которого они могут создавать выборку важнейших сопряженностей для каждого слова, собирать статистику употребления лексем/словоформ, анализировать контекст словоупотребления в заданном тексте и во всем корпусе, сравнивать списки словоформ из всех представленных в корпусе текстов (по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам). 

Языки описываемого Корпуса относятся к тюркской (шорский и телеутский) и тунгусо-манчжурской (эвенкийский) ветвям алтайской макросемьи, а также к самодийской ветви уральской семьи языков (ненецкий).

 
Дмитрий Функ

На сайте проекта хранятся как исходные (включая рукописи, аудио- и видеозаписи), так и нормализованные (т.е. приведенные к орфографической норме соответствующего языка или диалекта) варианты записи текстов. Самые ранние тексты на шорском языке были записаны В.В. Радловым в 1861 году. База постоянно пополняется, так в книжном подкорпусе ненецкого языка недавно появились переводы Евангелия от Луки и Евангелия от Марка. Кроме того, есть современные газетные тексты на ненецком и эвенкийском, записи 1930-х — 1950-х из книг Г.М. Василевич (эвенкийский), архивные записи Н.П. Дыренковой (шорский), нескольких сборников ненецкого фольклора разных лет

«Наш корпус — не единственный из числа тех, что имеют дело с языками малочисленных народов Сибири, но — самый открытый, самый большой и с массой опций, которых нет в корпусах у профессиональных лингвистов, в чем целиком и полностью заслуга нынешнего руководителя проекта — Кирилла Шаховцова», — рассказал ProScience идейный вдохновитель и первый руководитель проекта — Дмитрий Анатольевич Функ, профессор, д.и.н., заведующий кафедрой этнологии МГУ.

 
Кирилл Шаховцов. Фото: Александра Терехина

«Система позволяет идентифицировать пары похожих предложений в заданных текстах и искать предложения похожие на заданное по всему корпусу или набору текстов. Это очень нравится фольклористам, так как можно легко выявлять различные устойчивые выражения и прочие «формулы», они давно говорят о сотрудничестве», - уточняет Кирилл Шаховцов, к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН, нынешний руководитель проекта.

Мысли о создании корпуса текстов на языках малочисленных народов Сибири появились у Дмитрия Анатольевича еще в 2007—2008 годах, когда он заведовал отделом Севера и Сибири Института этнологии и антропологии РАН. Оформить проектную заявку помог утренний звонок директора института: «В начале 2011 г. Валерий Александрович Тишков обратился ко мне с вопросом: «Мы что-нибудь знаем о корпусной лингвистике?». Разумеется, я ответил: «Да!». Через полчаса после звонка заявка на грант была отправлена директору. Так был получен первый грант на этот проект» (подробнее о корпусной лингвистике – см. лекцию Владимира Плунгяна «Почему современная лингвистика должна быть лингвистикой корпусов»).

Основой корпуса стали архивные материалы профессора Д.А. Функа по шорскому языку, пополняемые в ходе проекта новыми сборами в поле. «Наполнять корпус планировалось в основном шорскими материалами — это мои записи фольклора, которые я вел, начиная с 1983 г. Этих записей столько, что даже введенное сейчас в корпус — это в лучшем случае четверть имеющегося у меня. Эвенкийские тексты во многом являются результатом реализации данного проекта, позволившего совершать дополнительные полевые выезды для записи и расшифровки текстов», — поясняет профессор.

 
Надежда Мамонтова с эвенкийскими детьми. Фото: Кирилл Шаховцов

В прошлом году проект получил поддержку от двух фондов: РГНФ выделил грант на анализ эвенкийских и ненецких текстов, а Фонд фундаментальных лингвистических исследований — на расшифровку части записей Дмитрий Анатольевича 1983—85 гг.

Среди участников проекта – Александра Терехина, занимающаяся наполнением ненецкого корпуса, который был добавлен в 2012 году. Часть ненецкого материала записывалась в поле специально для проекта. Надежда Мамонтова, защитившая в прошлом году кандидатскую диссертацию по языку и идентичности эвенков, сейчас отвечает за наполнение эвенкийского корпуса и руководит проектом РГНФ. 

Что касается самих представителей малочисленных народов Сибири, то некоторые из них (в частности, шорцы) участвуют в этом проекте, другие же, воодушевившись реализацией идеи, лишь демонстрируют готовность принять в нем участие. «Это на мониторе картинка красивая и все легко и быстро находится, сравнивается и т. п., но чтобы этой картинки добиться, надо элементарно часами, сутками, месяцами сидеть не вылезая из-за компьютера и вбивать по определенной методе эти самые тексты, а если это звук, то сначала его расшифровывать и т.д. и т.п.», — сетует Дмитрий Анатольевич.

 
Александра Терехина. Интервью с носителем эвенкийского языка. Фото: Кирилл Шаховцов

Пока уровень финансирования не вполне соответствует затрачиваемым усилиям, что не позволяет ни быстро расширить круг охвата языков, ни интенсифицировать обработку имеющихся материалов, а архивных записей по всей России крайне много.

В тексте использованы фотографии из экспедиции к эвенкам «Информационно-прикладная миссия в Эвенкийском муниципальном районе Красноярского края по сбору информации для подготовки рекомендаций по поддержке языков, находящихся под угрозой исчезновения», организованной в июне 2011.

Обсудите в соцсетях

Система Orphus
«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ Марс Металлургия Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Юпитер акустика антибиотики античность археология архитектура астероиды астрофизика бактерии бедность библиотеки биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты киты климатология комета кометы компаративистика космос культура лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука неандертальцы нейробиология неолит обезьяны общество онкология открытия палеолит палеонтология память папирусы паразиты перевод планетология погода политика право приматы психиатрия психоанализ психология психофизиология птицы ракета растения религиоведение рептилии робототехника рыбы сердце смертность сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство школа экология эпидемии эпидемиология этология язык Древний Египет Западная Африка Латинская Америка Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад альтернативная энергетика аутизм биология бозон Хиггса глобальное потепление грипп информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция финансовый рынок черные дыры эволюция эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: [email protected]
Адрес: 129090, г. Москва, Проспект Мира, дом 19, стр.1, пом.1, ком.5
Телефон: +7 929 588 33 89
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2019.