будущее есть!
  • После
  • Конспект
  • Документ недели
  • Бутовский полигон
  • Колонки
  • Pro Science
  • Все рубрики
    После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша
После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша

Конспекты Полит.ру

Смотреть все
Алексей Макаркин — о выборах 1996 года
Апрель 26, 2024
Николай Эппле — о речи Пашиняна по случаю годовщины геноцида армян
Апрель 26, 2024
«Демография упала» — о демографической политике в России
Апрель 26, 2024
Артем Соколов — о технологическом будущем в военных действиях
Апрель 26, 2024
Анатолий Несмиян — о технологическом будущем в военных действиях
Апрель 26, 2024

После

Смотреть все
«После» для майских
Май 7, 2024

Публичные лекции

Смотреть все
Всеволод Емелин в «Клубе»: мои первые книжки
Апрель 29, 2024
Вернуться к публикациям
лингвистика этнология
Июль 17, 2025
Pro Science
Функ Дмитрий Шаховцов Кирилл

Новый инструмент лингвистических исследований

Новый инструмент лингвистических исследований
ps_cjs_12_02
Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка. 2002. Источник: corpora.iea.ras.ru

Сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН создан и пополняется электронный корпус текстов на четырех языках малочисленных народов Сибири — ненецком, телеутском, шорском и эвенкийском. Проект осуществляется в рамках программы Президиума РАН «Корпусная лингвистика» (2012-2014 гг.).

 
 

Лингвисты, антропологи и фольклористы, специализирующиеся на языках Сибири, получили доступ к еще одному инструменту, при помощи которого они могут создавать выборку важнейших сопряженностей для каждого слова, собирать статистику употребления лексем/словоформ, анализировать контекст словоупотребления в заданном тексте и во всем корпусе, сравнивать списки словоформ из всех представленных в корпусе текстов (по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам). 

Языки описываемого Корпуса относятся к тюркской (шорский и телеутский) и тунгусо-манчжурской (эвенкийский) ветвям алтайской макросемьи, а также к самодийской ветви уральской семьи языков (ненецкий).

 
Дмитрий Функ

На сайте проекта хранятся как исходные (включая рукописи, аудио- и видеозаписи), так и нормализованные (т.е. приведенные к орфографической норме соответствующего языка или диалекта) варианты записи текстов. Самые ранние тексты на шорском языке были записаны В.В. Радловым в 1861 году. База постоянно пополняется, так в книжном подкорпусе ненецкого языка недавно появились переводы Евангелия от Луки и Евангелия от Марка. Кроме того, есть современные газетные тексты на ненецком и эвенкийском, записи 1930-х — 1950-х из книг Г.М. Василевич (эвенкийский), архивные записи Н.П. Дыренковой (шорский), нескольких сборников ненецкого фольклора разных лет

«Наш корпус — не единственный из числа тех, что имеют дело с языками малочисленных народов Сибири, но — самый открытый, самый большой и с массой опций, которых нет в корпусах у профессиональных лингвистов, в чем целиком и полностью заслуга нынешнего руководителя проекта — Кирилла Шаховцова», — рассказал ProScience идейный вдохновитель и первый руководитель проекта — Дмитрий Анатольевич Функ, профессор, д.и.н., заведующий кафедрой этнологии МГУ.

 
Кирилл Шаховцов. Фото: Александра Терехина

«Система позволяет идентифицировать пары похожих предложений в заданных текстах и искать предложения похожие на заданное по всему корпусу или набору текстов. Это очень нравится фольклористам, так как можно легко выявлять различные устойчивые выражения и прочие «формулы», они давно говорят о сотрудничестве», - уточняет Кирилл Шаховцов, к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН, нынешний руководитель проекта.

Мысли о создании корпуса текстов на языках малочисленных народов Сибири появились у Дмитрия Анатольевича еще в 2007—2008 годах, когда он заведовал отделом Севера и Сибири Института этнологии и антропологии РАН. Оформить проектную заявку помог утренний звонок директора института: «В начале 2011 г. Валерий Александрович Тишков обратился ко мне с вопросом: «Мы что-нибудь знаем о корпусной лингвистике?». Разумеется, я ответил: «Да!». Через полчаса после звонка заявка на грант была отправлена директору. Так был получен первый грант на этот проект» (подробнее о корпусной лингвистике – см. лекцию Владимира Плунгяна «Почему современная лингвистика должна быть лингвистикой корпусов»).

Основой корпуса стали архивные материалы профессора Д.А. Функа по шорскому языку, пополняемые в ходе проекта новыми сборами в поле. «Наполнять корпус планировалось в основном шорскими материалами — это мои записи фольклора, которые я вел, начиная с 1983 г. Этих записей столько, что даже введенное сейчас в корпус — это в лучшем случае четверть имеющегося у меня. Эвенкийские тексты во многом являются результатом реализации данного проекта, позволившего совершать дополнительные полевые выезды для записи и расшифровки текстов», — поясняет профессор.

 
Надежда Мамонтова с эвенкийскими детьми. Фото: Кирилл Шаховцов

В прошлом году проект получил поддержку от двух фондов: РГНФ выделил грант на анализ эвенкийских и ненецких текстов, а Фонд фундаментальных лингвистических исследований — на расшифровку части записей Дмитрий Анатольевича 1983—85 гг.

Среди участников проекта – Александра Терехина, занимающаяся наполнением ненецкого корпуса, который был добавлен в 2012 году. Часть ненецкого материала записывалась в поле специально для проекта. Надежда Мамонтова, защитившая в прошлом году кандидатскую диссертацию по языку и идентичности эвенков, сейчас отвечает за наполнение эвенкийского корпуса и руководит проектом РГНФ. 

Что касается самих представителей малочисленных народов Сибири, то некоторые из них (в частности, шорцы) участвуют в этом проекте, другие же, воодушевившись реализацией идеи, лишь демонстрируют готовность принять в нем участие. «Это на мониторе картинка красивая и все легко и быстро находится, сравнивается и т. п., но чтобы этой картинки добиться, надо элементарно часами, сутками, месяцами сидеть не вылезая из-за компьютера и вбивать по определенной методе эти самые тексты, а если это звук, то сначала его расшифровывать и т.д. и т.п.», — сетует Дмитрий Анатольевич.

 
Александра Терехина. Интервью с носителем эвенкийского языка. Фото: Кирилл Шаховцов

Пока уровень финансирования не вполне соответствует затрачиваемым усилиям, что не позволяет ни быстро расширить круг охвата языков, ни интенсифицировать обработку имеющихся материалов, а архивных записей по всей России крайне много.

В тексте использованы фотографии из экспедиции к эвенкам «Информационно-прикладная миссия в Эвенкийском муниципальном районе Красноярского края по сбору информации для подготовки рекомендаций по поддержке языков, находящихся под угрозой исчезновения», организованной в июне 2011.

Функ Дмитрий Шаховцов Кирилл
читайте также
Pro Science
Эксперименты империи. Адат, шариат и производство знаний в Казахской степи
Май 15, 2024
Pro Science
Раскопки в Телль Ваджеф
Май 15, 2024
ЗАГРУЗИТЬ ЕЩЕ

Бутовский полигон

Смотреть все
Начальник жандармов
Май 6, 2024

Человек дня

Смотреть все
Человек дня: Александр Белявский
Май 6, 2024
Публичные лекции

Лев Рубинштейн в «Клубе»

Pro Science

Мальчики поют для девочек

Колонки

«Год рождения»: обыкновенное чудо

Публичные лекции

Игорь Шумов в «Клубе»: миграция и литература

Pro Science

Инфракрасные полярные сияния на Уране

Страна

«Россия – административно-территориальный монстр» — лекция географа Бориса Родомана

Страна

Сколько субъектов нужно Федерации? Статья Бориса Родомана

Pro Science

Эксперименты империи. Адат, шариат и производство знаний в Казахской степи

О проекте Авторы Биографии
Свидетельство о регистрации средства массовой информации Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством Российской Федерации по делам печати, телерадиовещания и средств массовой информации.

© Полит.ру, 1998–2024.

Политика конфиденциальности
Политика в отношении обработки персональных данных ООО «ПОЛИТ.РУ»

В соответствии с подпунктом 2 статьи 3 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» ООО «ПОЛИТ.РУ» является оператором, т.е. юридическим лицом, самостоятельно организующим и (или) осуществляющим обработку персональных данных, а также определяющим цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.

ООО «ПОЛИТ.РУ» осуществляет обработку персональных данных и использование cookie-файлов посетителей сайта https://polit.ru/

Мы обеспечиваем конфиденциальность персональных данных и применяем все необходимые организационные и технические меры по их защите.

Мы осуществляем обработку персональных данных с использованием средств автоматизации и без их использования, выполняя требования к автоматизированной и неавтоматизированной обработке персональных данных, предусмотренные Федеральным законом от 27 июля 2006 г. № 152-ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.

ООО «ПОЛИТ.РУ» не раскрывает третьим лицам и не распространяет персональные данные без согласия субъекта персональных данных (если иное не предусмотрено федеральным законом РФ).