20 мая 2019, понедельник, 09:47
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.Дзен

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

12 декабря 2013, 14:49

Лингвистические базы данных

zompist.com
 
Интеллектуальный партнер проекта

Развитие лингвистической типологии заставляет ученых все чаще прибегать к такому удобному инструменту, как базы данных. О некоторых подобных проектах, таких как база данных «Языки мира» или «Типологическая база данных адъективной лексики», ProScience уже рассказывал, в репортаже о конференции «Диалог-2013». В этот раз мы, сосредоточившись на лингвистической типологии, не будем рассматривать этимологические базы данных и языковые корпуса.

Начнем мы с двух проектов, которые появились в виде доступных онлайн баз данных совсем недавно, в ноябре этого года. Один из них – Atlas of Pidgin and Creole Language Structures (APiCS), ранее выпущенный в виде книги издательством Oxford University Press. APiCS Online позволяет выяснить, какие лингвистические характеристики имеют различные языки контактного происхождения, то есть пиджины, креольские и смешенные языки. В базе на данный момент описано 76 языков, каждый из которых охарактеризован по 130 параметрам. Среди этих параметров есть фонетические (наличие носовых гласных, тонов, губно-зубных щелевых согласных), лексические (различаются ли обозначения синего и зеленого цвета, одним словом или разными обозначают рука и палец, синий и зеленый цвет, как обозначается различие пола у животных), грамматические (порядок слов, есть или нет двойственное число у местоимений, противопоставлены ли формы инклюзива и эксклюзива, какая система вида и времени глаголов). Можно даже узнать, где распространены языки, в которых слезы называются сложным словом со структурой типа «глаз + вода». Карты, которыми снабжена база APiCS Online, позволяют оценить географическое распространение интересующих пользователя явлений.

Есть в числе параметров APiCS Online такие, которые специфически именно для пиджинов и креольских языков. Например, во многих таких языках слово со значением ‘ребенок’ или ‘маленький’ восходит к португальскому прилагательному pequeno. Оно может иметь вид, например, piccaninny, pikin или pickney. Аналогичная история с глаголом ‘знать’, который в ряде креольских языков выглядит, как save , savvy или sabi. Эти слова происходят от португальского или испанского saber или французского savoir. Распространение этих слов в контактных языках мира помогает восстановить историю формирования этих языков.

К сожалению, в APiCS Online пока очень мало данных из пиджинов и креольских языков на основе русского. В базу вошло описание лишь одного – дальневосточного китайско-русского пиджина. Его подготовила Е. В. Перехвальская, работающая в Институте лингвистический исследований РАН.

Также недавно была открыта база AfBo («A world-wide survey of affix borrowing») посвящена случаям заимствования, но не лексики, а словообразовательных и грамматических показателей – аффиксов. Над ее созданием семь лет работал Франк Сейфарт из Института эволюционной антропологии Общества Макса Планка (Лейпциг). На данный момент в AfBo описаны 657 заимствованных аффиксов. Обратившись к этой базе, можно, например, узнать, что из русского языка в карельский были заимствованы 6 аффиксов, в язык алеутов острова Медный – 15, в кильдинский саамский – 5, в язык литовских цыган – 5, в идиш – 13, в иврит – 6. Заимствования из русского в иврит представлены суффиксами -ник- (например, в слове kibúcnik), -ист-, -чик-, -ер-, -изм-, а также встречающимся, правда, только в шуточном словообразовании формантом -ология-. База позволяет искать не только по языкам, но и по значениям аффиксов. Можно узнать, какие аффиксы заимствуются наиболее часто, или выяснить, в каких языках встречается, например, заимствованные показатели множественного числа.

Если речь идет о языковых заимствованиях, нельзя не упомянуть о проекте The World Loanword Database (WOLD), существующем с 2009 года. Он посвящен как раз лексическим заимствованиям и охватывает данные по 369 языкам-источникам заимствований и 41 языку, принимающему заимствования. Возможен поиск по значениям, например, мы узнаем, какие языки заимствовали слово «свадьба», а какие – слово «развод». Можно только пожалеть, что эта интересная база данных не пополняется.

В перечне типологических баз данных обязательного упоминания заслуживает «Всемирный атлас языковых структур» (The World Atlas of Language Structures, WALS). В виде книги он появился в 2005 году, а в 2008 стал доступен в интернете. В базе данных представлены 192 различных языковых характеристики. В основном это грамматические и синтаксические характеристики, но присутствуют также фонетические и даже лексические. В качестве отдельного параметра есть и тип системы письма. Обратившись к WALS, можно выяснить даже, насколько верно предположение, что в языках местоимения первого лица часто содержат звук [м], а местоимения второго лица – звук [т]. База снабжена краткими статьями работавших над ней лингвистов, где описываются и комментируются включенные в WALS языковые явления. Возможно составление пользовательских карт, где комбинируются данные по нескольким характеристикам. Всего в WALS используются данные более чем двух тысяч языков, но не для всех из них описаны все параметры, однако репрезентативность WALS достигается наличием 100 языков, обязательно присутствующих в описании любого из признаков.

Сразу много независимо созданных типологических баз данных объединены в The Typological Database System (TDS), расположенную на сайте университета Утрехта. Другая система типологических баз (AUTOTYP) поддерживается учеными из Лейпцигского университета и Калифорнийского университета в Беркли. Свои типологические базы ведутся также лингвистами из университетов города Кан (Франция) и Павии (Италия). Несколько небольших баз доступны на сайте группы по изучению морфологии университета Суррея. Среди них есть посвященные, например, согласованию, синкретизму в выражении категории лица, супплетивизму, дефектным парадигмам. Ученые из Утрехта и Берлина собрали базу данных по показателям реципрока («взаимного залога»).

Архив языковых универсалий (The Universals Archive), доступный на сайте университета Констанца (Германия), содержит комментированный список из 2029 характеристик, которые свойственны всем или, по крайней мере, многим языкам мира. На том же сайте есть и коллекция явлений, которые претендуют на то, чтобы считаться уникальными или крайне редкими.

Если вы интересуетесь фонетическими системами языков мира, можно обратиться к специализированной базе данных UCLA Phonological Segment Inventory Database. Там можно сравнить фонетический инвентарь разных языков, увидеть, в каких языках он наиболее богат, а в каких – крайне невелик, посмотреть, насколько широко представлен в языках мира тот или иной звук. Также будут полезны база данных Лейденского университета, посвященная типам ударения, или база тональных систем, которую создали в Беркли.

Есть и базы данных, относящиеся к лексической типологии. Тот же Калифорнийский университет в Беркли поддерживает базу данных, посвященную цветообозначениям в различных языказ. В университете Граца (Австрия) создана база данных, посвященная интересному явлению – редупликации. В специализированной базе можно даже сравнить числительные от одного до десяти в более чем пяти тысячах языков.

Обсудите в соцсетях

Система Orphus
«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ Марс Металлургия Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Юпитер акустика антибиотики античность археология архитектура астероиды астрофизика бактерии бедность библиотеки биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты киты климатология комета кометы компаративистика космос культура лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука нацпроекты неандертальцы нейробиология неолит обезьяны общество онкология открытия палеолит палеонтология память папирусы паразиты перевод питание планетология погода политика право приматы психиатрия психоанализ психология психофизиология птицы ракета растения религиоведение рептилии робототехника рыбы сердце смертность сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство школа экология эпидемии эпидемиология этология язык Древний Египет Западная Африка Латинская Америка НПО «Энергомаш» Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад альтернативная энергетика аутизм биология бозон Хиггса глобальное потепление грипп информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция финансовый рынок черные дыры эволюция эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: [email protected]
Адрес: 129090, г. Москва, Проспект Мира, дом 19, стр.1, пом.1, ком.5
Телефон: +7 929 588 33 89
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2019.