будущее есть!
  • После
  • Конспект
  • Документ недели
  • Бутовский полигон
  • Колонки
  • Pro Science
  • Все рубрики
    После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша
После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша

Конспекты Полит.ру

Смотреть все
Алексей Макаркин — о выборах 1996 года
Апрель 26, 2024
Николай Эппле — о речи Пашиняна по случаю годовщины геноцида армян
Апрель 26, 2024
«Демография упала» — о демографической политике в России
Апрель 26, 2024
Артем Соколов — о технологическом будущем в военных действиях
Апрель 26, 2024
Анатолий Несмиян — о технологическом будущем в военных действиях
Апрель 26, 2024

После

Смотреть все
«После» для майских
Май 7, 2024

Публичные лекции

Смотреть все
Всеволод Емелин в «Клубе»: мои первые книжки
Апрель 29, 2024
Вернуться к публикациям
лингвистика язык компьютерная лингвистика русский язык
Июнь 19, 2025
Pro Science
Руссо Максим

Диалог–2014

Диалог–2014
Dialogue
Диалог-2014

С 4 по 8 июня в Бекасово под Москвой проходила крупнейшая отечественная конференция по компьютерной лингвистике «Диалог». Она проходит уже в двадцатый раз. Конференция посвящена разработке компьютерных моделей языка, прикладным сферам их применения (машинный перевод, извлечение знаний из текстов, компьютерная лексикография, поисковые технологии), корпусной лингвистике, связи лингвистической типологии с компьютерной лингвистикой. Уделяется внимание также разработке компьютерных лингвистических ресурсов и использованию в качестве такого ресурса интернета.

Традиционно организатором конференции выступает компания ABBYY. Также учредителями конференции стали Институт лингвистики РГГУ, Институт проблем информатики РАН, Институт проблем передачи информации РАН, компания Yandeх и Филологический факультет МГУ. На конференции прозвучали доклады более 250 специалистов из России, Германии, Италии, США, Украины, Великобритании, Франции, Белоруссии, Эстонии и Чехии. Мы сможем упомянуть лишь малую часть из них. Полностью материалы конференции «Диалог-2014» опубликованы на ее сайте, где доступен сборник статей «Компьютерная лингвистика и интеллектуальные технологии» и презентации прозвучавших докладов.

Методы анализа происходящий в наши дни процессов в русском языке были рассмотрены в докладе В. Магомедовой (СПбГУ) и Н. Слюсарь (ВШЭ, СПбГУ). В качестве примера были выбраны формы сравнительной степени прилагательных, в которых происходит чередование согласного (сладкий – слаще, сухой – суше и пр.). В ненормативной речи эти чередования порой отсутствуют (когда говорят сухее вместо суше). Для того, чтобы оценить эти тенденции, определить в каких типах слов они проявляются наиболее сильно, лингвисту нужен специальный инструмент. В этом качестве авторами доклада была представлена разработанная ими программа «Lingui-Pingui», которая позволяет автоматически составлять запросы в поисковую систему Яндекс, сортировать и анализировать полученные результаты.

Синтаксические свойства неологизмов из области киноиндустрии анализировались в докладе А. Пестовой (Институт русского языка РАН). Поскольку эти слова попали в русский язык недавно, у них нет устоявшейся модели управления, то есть требования, чтобы зависимые от них слова выступали в определенном падеже. Обнаруживается, что, например, слово трейлер в значении ‘рекламный ролик фильма’ в речи разных людей требует разного оформления зависимых слов: трейлер «Аватара», трейлер к «Аватару», трейлер для «Аватара», трейлер на «Аватар» и даже трейлер по «Аватару». Аналогично ведут себя слова тизер, сиквел, приквел, ремейк. Однако статистический анализ показывает тенденцию к употреблению этих слов с родительным падежом без предлога (по образцу трейлер «Аватара»). Видимо, при дальнейшем освоении этих слов данная синтаксическая модель станет единственной.

Проблема создания частотного словаря значений слов была рассмотрена в докладе Б. Иомдина (Институт русского языка РАН, ВШЭ), А. Лопухиной (Институт русского языка РАН), Г. Носырева (Яндекс). В существующих частотных словарях единицей выступает слово, без учета его конкретных значений. Тогда как интерес вызывает сравнительная частотность употребления слова в разных значениях. Что чаще обозначает слово альбом: книгу с репродукциями или фотографиями, тетрадь с чистыми листами или же сборник музыкальных произведений? В ходе эксперимента выяснилось, что значение, которое люди называют самым частым для какого-либо слова, далеко не всегда совпадает с тем значением, которое они определяют как частое, когда им дают список всех возможных значений этого же слова. Для слова альбом значение ‘собрание музыкальных произведений’ назвали самым частотным лишь около 8% информантов, а при предъявлении списка значений именно его чаще всего оценивали как «часто используемое» (77 %). С практической точки зрения частотный словарь значений слов может найти применения для разрешения многозначности при анализе текста, а также в области преподавания языка при создании лексических минимумов, разговорников, учебников и обучающих ресурсов. Также подобные данные важны при изучении эволюции лексической системы языка.

Г. Кустова (Институт русского языка РАН) описала некоторые виды сложных предложений русского языка с существительным в главном предложении и союзом который в придаточном. Среди них встречаются предложения, выражающие желательный признак (Где сейчас найдешь няньку, чтобы ладила и с ребенком, и с родителями?), несоответствие признака (Я не попугай, чтобы повторять чужие слова), наличие или отсутствие ресурса (У нас есть время, чтобы сходить в кино).

В докладе В. Подлесской (РГГУ) на материале корпусов устных рассказов была предложена классификациях языковых средств, которые использует говорящий при самоисправлении, когда обнаруживает, что сказанное не удовлетворяет его.

Д. Сичинава (Институт русского языка РАН) и И. Качинская (МГУ) рассказали о работе над корпусом диалектных текстов в составе Национального корпуса русского языка (НКРЯ). В и докладе были представлены существующие на данный момент проекты по русских диалектных корпусов. В планах создателей «Корпуса диалектных текстов» НКРЯ объединение текстов, записанных во всех регионах, где живут носители русского языка, от исконной территории в европейской части России и мест дальнейшего расселения в Сибири и Дальнем Востоке, до диалектов русских этнических групп за рубежом, таких как старообрядцы Канады и США, молокане Азербайджана и другие. Для работы с диалектным корпусом была создана программная среда «Рабочее место диалектолога». Диалектные записи, вносимые в корпус, снабжаются грамматической разметкой.

Доклад К. Воронцова (Вычислительный центр МГУ, МФТИ) и А. Потапенко был посвящен вероятностным тематическим моделям как средству автоматического выявления тем документов. Эти модели основаны на статистическом анализе и определении групп слов, которые часто встречаются совместно. В дальнейшем выделенные темы могут использоваться для автоматического аннотирования, категоризации текстов, информационного поиска.

Исследования участников конференции касались и такой темы, как семантика русских жестов. В докладе Е. Гришиной (Институт русского языка РАН) были проанализированы русские жесты, включающие в себя в качестве компонента соединение пальцев  и определены значения, которые этими жестами передаются (‘точность’, ‘маленький объект’, ‘объект’, ‘центр’, ‘соединение’).

Руссо Максим
читайте также
Pro Science
Эксперименты империи. Адат, шариат и производство знаний в Казахской степи
Май 15, 2024
Pro Science
Раскопки в Телль Ваджеф
Май 15, 2024
ЗАГРУЗИТЬ ЕЩЕ

Бутовский полигон

Смотреть все
Начальник жандармов
Май 6, 2024

Человек дня

Смотреть все
Человек дня: Александр Белявский
Май 6, 2024
Публичные лекции

Лев Рубинштейн в «Клубе»

Pro Science

Мальчики поют для девочек

Колонки

«Год рождения»: обыкновенное чудо

Публичные лекции

Игорь Шумов в «Клубе»: миграция и литература

Pro Science

Инфракрасные полярные сияния на Уране

Страна

«Россия – административно-территориальный монстр» — лекция географа Бориса Родомана

Страна

Сколько субъектов нужно Федерации? Статья Бориса Родомана

Pro Science

Эксперименты империи. Адат, шариат и производство знаний в Казахской степи

О проекте Авторы Биографии
Свидетельство о регистрации средства массовой информации Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством Российской Федерации по делам печати, телерадиовещания и средств массовой информации.

© Полит.ру, 1998–2024.

Политика конфиденциальности
Политика в отношении обработки персональных данных ООО «ПОЛИТ.РУ»

В соответствии с подпунктом 2 статьи 3 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» ООО «ПОЛИТ.РУ» является оператором, т.е. юридическим лицом, самостоятельно организующим и (или) осуществляющим обработку персональных данных, а также определяющим цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.

ООО «ПОЛИТ.РУ» осуществляет обработку персональных данных и использование cookie-файлов посетителей сайта https://polit.ru/

Мы обеспечиваем конфиденциальность персональных данных и применяем все необходимые организационные и технические меры по их защите.

Мы осуществляем обработку персональных данных с использованием средств автоматизации и без их использования, выполняя требования к автоматизированной и неавтоматизированной обработке персональных данных, предусмотренные Федеральным законом от 27 июля 2006 г. № 152-ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.

ООО «ПОЛИТ.РУ» не раскрывает третьим лицам и не распространяет персональные данные без согласия субъекта персональных данных (если иное не предусмотрено федеральным законом РФ).