Полiт.ua Государственная сеть Государственные люди Войти
10 декабря 2016, суббота, 09:51
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

Конференция «Диалог»: новые лингвистические проекты

Конференция «Диалог»: новые лингвистические проекты
Конференция «Диалог»: новые лингвистические проекты

С 29 мая по 2 июня в Москве проходила конференция «Диалог 2013» - крупнейшая регулярная конференция по компьютерной лингвистике в России, которая проводится уже в девятнадцатый раз. Ее тематика включает в себя как теоретические лингвистические исследования, так и прикладные вопросы, относящиеся к автоматической обработке языка, корпусной лингвистике, автоматическому переводу, извлечению информации. В этом году участники «Диалога» представили коллегам немало новых проектов, о некоторых из которых мы кратко расскажем в нашем обзоре.

О работе над типологической базой данных «Языки мира» рассказали В. Д. Соловьев и В. Н. Поляков. Для языков, представленных в базе данных есть возможность получить информацию по более чем трем тысячам параметров: фонетических, грамматических, синтаксических свойств. Есть возможность сравнивать два языка по выбранным критериям. В докладе рассказывалось о научных исследованиях, сделанных при помощи этой базы данных.

В докладе Д. О. Добровольского сообщалось о разработке немецко-русского фразеологического словаря он-лайн, основанного на корпусных данных. Фрагменты этого словаря доступны на сайте Института иностранных языков в Мангейме. Традиционно фразеологические словари содержали ограниченное число случайно набранных примеров или вообще не содержали примеров употребления идиом. Есть проблемы и при составлении двуязычных словарей. Например, немецкое выражение jmdn. an der Nase herumführen обычно переводят русским водить за нос, однако при анализе реальных примеров употребления этого выражения оказывается, что во многих случаях более удачным переводом было бы надуть, одурачить или обвести вокруг пальца. В частности, это вызывается тем, что выражение водить за нос крайне редко используется в форме совершенного вида. В результате в словаре, основанном на корпусных данных, приводятся все возможные эквиваленты идиомы с указаниями, в каких условиях каждый из них предпочтительнее использовать.

О. Н. Ляшевская представила проект «Частотного лексико-грамматического словаря». В отличие от обычного частотного словаря, где указывается частота встречаемости слов, в этом словаре должны содержаться данные о частоте каждой из форм слова, например, падежных форм существительного. Словарь ответит на вопрос, что встречается чаще: дом, дома, дому, домом... или говорю, говоришь, говорил, говорила, говорите...

У слова шепот формы творительного падежа составляют более 70 процентов употреблений, у слова поза более половины употреблений — в предложном падеже, у слова тропинка — в дательном

Лингвисты довольно давно заметили, что частота грамматических форм отдельных слов или групп слов может значительно отличаться от частоты этих форм в языке в целом. В среднем распределение частот падежей русских существительных, по данным Национального корпуса русского языка, таково: именительный — 27,06%, родительный — 29,23%, дательный — 5,98%, винительный — 18,66%, творительный — 8,44%, предложный — 10,63%. Однако, например, у слова шепот формы творительного падежа составляют более 70 процентов употреблений, у слова поза более половины употреблений — в предложном падеже, у слова тропинка — в дательном. Канадские лингвисты Салли Райс и Джон Ньюман заметили, что английские слова think, mean, know, довольно близкие по смыслу, имеют разное частотное распределение форм времени, лица и числа. Обнаруживать такие явления в русском языке исследователям поможет частотно-грамматический словарь.

Есть у такого словаря и прикладное значение. С помощью него можно при разработке программ обучению русскому языку как иностранному определять последовательно учебных тем, например, в каком порядке знакомить студентов с русскими падежами. Также преподаватели смогут, разбирая со студентами новую грамматическую категорию, подбирать для примеров и упражнений те слова, в которых она наиболее часто встречается в русских текстах.

Компьютерный словарь русских паронимов был создан Е. И. Большаковой и И. А. Большаковым. Необычность этого словаря в том, что он сделан не путем отбора паронимов вручную, а с помощью автоматического выбора слов компьютером. Напомним, что паронимы — это слова одного корня, созвучные друг другу, но различающиеся по смыслу: невежаневежда, двигательдвижитель, экономическийэкономичныйэкономный, одетьнадеть. Ученые разработали алгоритм, позволяющий автоматически выбрать из словаря русского языка пары и группы паронимических слов. В результате работы программы были выделены 21802 паронимических ряда, объединяющие 192024 слова. Компьютерный словарь может использоваться для автоматического анализа правильности употребления паронимов в тексте.

Латинскому прилагательному altus может соответствовать русское высокий, когда речь идет о горе или здании, или глубокий, когда речь идет о реке.

В поле зрения лексической типологии чаще всего попадают существительные (названия частей тела, степеней родства) или глаголы, а вот имена прилагательные, за исключением цветообозначений, куда реже удостаиваются внимание исследователей. Восполнить этот пробел призвана «Типологическая база данных адъективной лексики», о которой рассказали М. В. Кюсева, Т. И. Резникова и Д. А. Рыжова. Напомним, что одним из основных вопросов лексической типологии является то, какими способами разные языки «упаковывают семантический материал в слова». Обратившись к прилагательным, мы видим, что русскому слову острый в коми-зырянском языке соответствуют два — лэчыд и ёсь. Первое обозначает признак режущих инструментов — ножей, пил, кос, а второе — колющих инструментов или объектов с зауженным кончиком — стрел, копий, колов, а также носов, подбородков. Во французском прилагательных, обозначающих остроту, целых три: tranchant (ножи и пр.), aigu (иглы и пр.) и pointu (объекты типа подбородка). В русском языке есть слово тонкий, а в хантыйском, говоря о плоских тонких объектах (книгах, матрасах, стенах) надо употребить слово uoxəł, говоря о цилиндрических предметах (стеблях, веревках столбах) — слово vas’. При этом слово vas’ употребляется и в тех  случаях, когда в русском используется слово узкий (например, «узкая дорога»). Латинскому прилагательному altus может соответствовать русское высокий, когда речь идет о горе или здании, или глубокий, когда речь идет о реке. База данных, которую планирует создать группа ученых, будет способна отвечать на вопросы типа: «в каких языках значения ‘высокий по размеру’ и ‘расположенный высоко’ передаются разными словами?», «всегда ли слово со значением ‘тяжелый по весу’ означает также и ‘трудный’?» и так далее.

О первых результатах работы над грамматическим словарем и программой морфологического анализа для русских текстов XVIII–XIX веков речь шла в докладе А. Е. Полякова, С. О. Савчук и Д. В. Сичинавы. Программа должна автоматически определять грамматические характеристики слов и используется при работе над корпусом среднерусских текстов в составе Национального корпуса русского языка.

П. И. Браславский с коллегами рассказали о проекте большого открытого тезауруса русского языка YARN (Yet Another RussNet). Подобные тезаурусы, первый из которых начал разрабатываться в Принстоне в 1986 году (Princeton Wordnet), представляют собой семантические сети, узлами которых служат не отдельные слова, а синонимические ряды (синсеты, synset от synonym set). Синсеты связаны между собой различными отношениями (часть-целое, род-вид, антонимия и так далее). Подобная семантическая сеть может использоваться для разнообразных задач компьютерной обработки текстов. Такие словари тезаурусы, получившие название «ворднеты», сейчас, по данным всемирной WordNet-ассоциации, разработаны для 73 языков, в том числе для латыни и санскрита.

О. А. Казакевич и М. И. Воронцова представили проект многофункционального интернет‑ресурса «Малые языки Cибири: наше культурное наследие». В рамках проекта планируется собрать материалы материалы по малым языкам бассейна Среднего Енисея и Среднего и Верхнего Таза — селькупскому, кетскому и эвенкийскому. Обследовав в лингвистических экспедициях поселки, где живут носители этих языков, исследователи формируют социолингвистическую базу данных, показывающую, в насколько сохранился язык в каждом населенном пункте: число говорящих, их возраст, степень владения языком и так далее. Также во время экспедиций ученые создают озвученные словари каждого языка. Заранее подготовив тематический словарь на русском языке, они предлагают информанту для каждого русского слова четко произнести эквивалент на родном языке, а также перевести на родной язык предложение, в котором есть это слово. Будут также опубликованы тексты на разных диалектах изучаемых языков, как записанные в экспедициях, так и взятые из архивов. Тексты снабжаются транскрипцией, переводом, а записанные в недавних экспедиция также аудио и видеозаписями. На сайте будут присутствовать грамматические очерки языков, обучающие программы, документальные фильмы и фотографии.

Обсудите в соцсетях

Система Orphus
Loading...
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Big data Dragon Facebook Google GPS IBM iPhone MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi Адыгея Александр Лавров альтернативная энергетика Анастасия Волочкова «Ангара» антибиотики античность археология архитектура астероиды астрофизика аутизм Байконур бактерии библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса британское кино Византия визуальная антропология викинги вирусы Вольное историческое общество Вселенная вулканология Выбор редакции гаджеты генетика география геология геофизика глобальное потепление грибы грипп дельфины демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение зоопарк зрение Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии космос криминалистика культура культурная антропология лазер Латинская Америка лексика лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг моллюски Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. одаренные дети онкология открытия палеолит палеонтология память папирусы паразиты педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории продолжительность жизни происхождение человека Протон-М психология психофизиология птицы РадиоАстрон ракета растения РБК РВК РГГУ регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент русский язык рыбы сердце сериалы Сингапур сланцевая революция смертность СМИ Солнце сон социология спутники старообрядцы стартапы статистика такси технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология фольклор химия христианство Центр им.Хруничева школа школьные олимпиады эволюция эволюция человека экология эмбриональное развитие эпидемии этика этнические конфликты этология Юпитер ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.