Полiт.ua Государственная сеть Государственные люди Войти
7 декабря 2016, среда, 11:34
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

13 февраля 2014, 17:21

Новый инструмент лингвистических исследований

Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002
Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002

Сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН создан и пополняется электронный корпус текстов на четырех языках малочисленных народов Сибири — ненецком, телеутском, шорском и эвенкийском. Проект осуществляется в рамках программы Президиума РАН «Корпусная лингвистика» (2012-2014 гг.).

 
 

Лингвисты, антропологи и фольклористы, специализирующиеся на языках Сибири, получили доступ к еще одному инструменту, при помощи которого они могут создавать выборку важнейших сопряженностей для каждого слова, собирать статистику употребления лексем/словоформ, анализировать контекст словоупотребления в заданном тексте и во всем корпусе, сравнивать списки словоформ из всех представленных в корпусе текстов (по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам). 

Языки описываемого Корпуса относятся к тюркской (шорский и телеутский) и тунгусо-манчжурской (эвенкийский) ветвям алтайской макросемьи, а также к самодийской ветви уральской семьи языков (ненецкий).

 
Дмитрий Функ

На сайте проекта хранятся как исходные (включая рукописи, аудио- и видеозаписи), так и нормализованные (т.е. приведенные к орфографической норме соответствующего языка или диалекта) варианты записи текстов. Самые ранние тексты на шорском языке были записаны В.В. Радловым в 1861 году. База постоянно пополняется, так в книжном подкорпусе ненецкого языка недавно появились переводы Евангелия от Луки и Евангелия от Марка. Кроме того, есть современные газетные тексты на ненецком и эвенкийском, записи 1930-х — 1950-х из книг Г.М. Василевич (эвенкийский), архивные записи Н.П. Дыренковой (шорский), нескольких сборников ненецкого фольклора разных лет

«Наш корпус — не единственный из числа тех, что имеют дело с языками малочисленных народов Сибири, но — самый открытый, самый большой и с массой опций, которых нет в корпусах у профессиональных лингвистов, в чем целиком и полностью заслуга нынешнего руководителя проекта — Кирилла Шаховцова», — рассказал ProScience идейный вдохновитель и первый руководитель проекта — Дмитрий Анатольевич Функ, профессор, д.и.н., заведующий кафедрой этнологии МГУ.

 
Кирилл Шаховцов. Фото: Александра Терехина

«Система позволяет идентифицировать пары похожих предложений в заданных текстах и искать предложения похожие на заданное по всему корпусу или набору текстов. Это очень нравится фольклористам, так как можно легко выявлять различные устойчивые выражения и прочие «формулы», они давно говорят о сотрудничестве», - уточняет Кирилл Шаховцов, к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН, нынешний руководитель проекта.

Мысли о создании корпуса текстов на языках малочисленных народов Сибири появились у Дмитрия Анатольевича еще в 2007—2008 годах, когда он заведовал отделом Севера и Сибири Института этнологии и антропологии РАН. Оформить проектную заявку помог утренний звонок директора института: «В начале 2011 г. Валерий Александрович Тишков обратился ко мне с вопросом: «Мы что-нибудь знаем о корпусной лингвистике?». Разумеется, я ответил: «Да!». Через полчаса после звонка заявка на грант была отправлена директору. Так был получен первый грант на этот проект» (подробнее о корпусной лингвистике – см. лекцию Владимира Плунгяна «Почему современная лингвистика должна быть лингвистикой корпусов»).

Основой корпуса стали архивные материалы профессора Д.А. Функа по шорскому языку, пополняемые в ходе проекта новыми сборами в поле. «Наполнять корпус планировалось в основном шорскими материалами — это мои записи фольклора, которые я вел, начиная с 1983 г. Этих записей столько, что даже введенное сейчас в корпус — это в лучшем случае четверть имеющегося у меня. Эвенкийские тексты во многом являются результатом реализации данного проекта, позволившего совершать дополнительные полевые выезды для записи и расшифровки текстов», — поясняет профессор.

 
Надежда Мамонтова с эвенкийскими детьми. Фото: Кирилл Шаховцов

В прошлом году проект получил поддержку от двух фондов: РГНФ выделил грант на анализ эвенкийских и ненецких текстов, а Фонд фундаментальных лингвистических исследований — на расшифровку части записей Дмитрий Анатольевича 1983—85 гг.

Среди участников проекта – Александра Терехина, занимающаяся наполнением ненецкого корпуса, который был добавлен в 2012 году. Часть ненецкого материала записывалась в поле специально для проекта. Надежда Мамонтова, защитившая в прошлом году кандидатскую диссертацию по языку и идентичности эвенков, сейчас отвечает за наполнение эвенкийского корпуса и руководит проектом РГНФ. 

Что касается самих представителей малочисленных народов Сибири, то некоторые из них (в частности, шорцы) участвуют в этом проекте, другие же, воодушевившись реализацией идеи, лишь демонстрируют готовность принять в нем участие. «Это на мониторе картинка красивая и все легко и быстро находится, сравнивается и т. п., но чтобы этой картинки добиться, надо элементарно часами, сутками, месяцами сидеть не вылезая из-за компьютера и вбивать по определенной методе эти самые тексты, а если это звук, то сначала его расшифровывать и т.д. и т.п.», — сетует Дмитрий Анатольевич.

 
Александра Терехина. Интервью с носителем эвенкийского языка. Фото: Кирилл Шаховцов

Пока уровень финансирования не вполне соответствует затрачиваемым усилиям, что не позволяет ни быстро расширить круг охвата языков, ни интенсифицировать обработку имеющихся материалов, а архивных записей по всей России крайне много.

В тексте использованы фотографии из экспедиции к эвенкам «Информационно-прикладная миссия в Эвенкийском муниципальном районе Красноярского края по сбору информации для подготовки рекомендаций по поддержке языков, находящихся под угрозой исчезновения», организованной в июне 2011.

Обсудите в соцсетях

Система Orphus
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Facebook Google GPS IBM iPhone PRO SCIENCE видео ProScience Театр Wi-Fi альтернативная энергетика «Ангара» античность археология архитектура астероиды астрофизика Байконур бактерии библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса визуальная антропология вирусы Вольное историческое общество Вселенная вулканология Выбор редакции гаджеты генетика география геология глобальное потепление грибы грипп демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение зоопарк Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии коронавирус космос криминалистика культура культурная антропология лазер Латинская Америка лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. открытия палеолит палеонтология память педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории происхождение человека Протон-М психология психофизиология птицы ракета растения РБК РВК регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент русский язык рыбы Сингапур смертность Солнце сон социология спутники старообрядцы стартапы статистика технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология фольклор химия христианство Центр им.Хруничева школа эволюция эволюция человека экология эпидемии этнические конфликты этология ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.