Полiт.ua Государственная сеть Государственные люди Войти
11 декабря 2016, воскресенье, 14:50
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

С ABBYY Compreno компьютер поймет вас правильно

ABBYY Compreno
ABBYY Compreno
ABBYY

Сегодня резидент «Сколково» компания ABBYY, активно занимающаяся разработками в области компьютерной лингвистики, объявила о выпуске первых коммерческих продуктов, основанных на технологии Compreno, которая обеспечивает понимание компьютером текстов на естественных языках. 

Знаменитый физик Сергей Вавилов говорил, что современный читатель находится перед Гималаями библиотек в положении золотоискателя, которому надо отыскать крупинки золота в массе песка. Отметим, что эти слова были произнесены в 1947 году, когда темпы роста объема информации по нашим меркам были мизерными, да и волновала академика Вавилова по большей части проблема поиска нужных данных в публикациях научных журналов.

Сейчас ситуация стала еще драматичней. В зависимости от критериев оценки срок, за который общее количество информации в мире удваивается, в наши дни определяют в диапазоне от двух месяцев до года. Теперь читателя можно сравнить уже не с золотоискателем, ищущим крупинку золота в массе песка, а с безумцем, который хочет найти молекулу в мировом океане.

Но у современного человека есть помощник, которого не было у Сергея Вавилова. За почти 70 лет значительно шагнула вперед компьютерная техника. И быстродействие вычислительных машин, и их «умения» позволяют нам переложить задачу по поиску «крупинок золота в массе песка» на компьютерные программы. Когда это только начиналось под скромным названием «автоматизация информационного поиска», компьютер мог лишь сортировать данные в каталогах и выдавать их в ответ на запрос пользователя, ориентируясь на краевую перфорацию в перфокарте. Теперь же программа может анализировать тексты в поисках нужной информации, и мы уже говорим о задачи «извлечения данных» (data mining).

Программы легко могут анализировать структурированные данные – представленные в виде таблиц, списков, баз данных. Они могут анализировать огромные объемы информации, подвергать их статистической обработке со скоростью, недоступной человеку. Но проблема в том, что большая часть информации в мире представлена в виде неструктурированных данных. И нам хочется, чтобы программа умела работать с ними. Мы хотим, чтобы она могла анализировать, например, библиотеки статей прессы, отсевая ненужное и выбирая информацию по интересующему нас вопросу. Не стоит забывать и о том огромном количестве текстов, которые каждый день создают пользователи социальных сетей. Эти тексты тоже содержат информацию, которая может быть интересна и политическому аналитику, и экономисту, и даже, например, эпидемиологу (анализируя записи сети микроблогов Twitter, исследователи научились предсказывать эпидемии гриппа). Но пользователя в социальной сети уж точно не заставишь выдавать информацию в структурированном виде. Значит, программа должна извлекать нужные данные из текста.

Первым шагом в этом направлении становится поиск ключевых слов в тексте. Но тут начинаются лингвистические проблемы. Специалист по протезированию зубов, ищущий статьи о новых разработках в этой области, вряд ли будет доволен, когда в место стоматологических мостов ему предложат почитать о конструировании железнодорожных мостов. Если человек ищет публикации про футболиста Вагнера Лава, то ему только помешают сведения о знаменитом оперном композиторе Рихарде Вагнере. Задача же того, кому интересна свежая информация об африканском государстве Того, и вовсе становится непреодолимой: простая программа поиска не сможет отличить название страны от местоимения. Препятствием становятся многозначность слов и наличие в текстах омонимов. Часто как пример омонимии, трудной для компьютерного анализа, приводят фразу: «Эти типы стали есть на складе». О чем идет речь? О наличии на складе каких-то марок металла или о том, что какие-то люди питаются в складском помещении? Правильный выбор можно сделать только оценив более широкий контекст. Здесь мы делаем второй вывод: программа должна быть способна понимать смысл текста и учитывать его при поиске данных. Только тогда она сможет отсеять не относящееся к делу и извлечь из текстов именно нужные данные.

Тут вступает в дело компьютерная лингвистика. Что должна уметь компьютерная программа, чтобы учитывать смысл текста? Она должна понимать семантику слов и структуру предложений. Иными словами – иметь семантический и синтаксический анализатор.

Подобную технологию компьютерного понимания текстов компания ABBYY разработала в системе ABBYY Compreno. Эта система состоит из двух основных компонентов. Во-первых, она включает иерархически организованное представление семантики слов. Иерархия состоит в том, что смыслы представлены в виде «дерева», где можно проследить вхождение частных понятий в более общие. К понятию «движение», например, относятся частные случаи: «бежать», «идти», «ползать», «лететь» и так далее. На данный момент в эту семантическую иерархию включены 110000 универсальных понятий, не зависящих от конкретного языка, 120 000 русских слов и 130000 английских слов. Созданы также описания терминологии отдельных специальных областей: IT, бизнеса, финансов, маркетинга, HR, юриспруденции, медицины, нефтегазовой терминологии.

Во-вторых, ABBYY Compreno имеет синтаксический анализатор, которые определяет структуру предложения и отношения между входящими в него словами. В этой области программа умеет справляться с немалым числом «подводных камней», которые не составляют проблем для человека, владеющего языком, но требуют специальных алгоритмов для компьютерного анализа. Среди таких случаев опущение повторяющейся части предложения («Маша говорит и читает по-шведски, а Катя – по-норвежски») или местоименная анафора («Маша хорошо знает шведский язык. Она изучала его пять лет.). Программа синтаксического анализа в этих случаях понимает, что в первом предложении Катя по-норвежски говорит и читает, а во втором она – это Маша, а он – это шведский язык. Для более точного синтаксического анализа используются данные о семантике слов, которые хранятся в семантическом компоненте. Он позволяют описать связи между словами в предложении и функцию этих слов (действие, место и пр.). Наконец, используются статистические алгоритмы, которые, например, помогают справиться с омонимией. Проанализировав количество слов из разных семантических областей, с которыми связано многозначное слово, программа выберет нужное значение. В результате программа оказывается способной учитывать контекст и правильно понять фразу «Эти типы стали есть на складе» в зависимости от того, идет речь о металлургии или о поведении складских работников.

Перспективность разработки такой системы оценивалось столь высоко, что компания ABBYY вложила в ее создание более 80 миллионов долларов (по состоянию на весну 2014 года). Также на работу над этим проектом около 14 миллионов долларов (475 млн. рублей) выделил «Фонд Сколково», резидентом которого стала компания.

Итак, ABBYY Compreno обладает всеми описанными выше умениями. Создать компьютерную программу, настолько детально анализирующую тексты на естественном языке, конечно, интересная задача для лингвистов и программистов. Но каково ее практическое применение? Оно довольно широко: от машинного перевода до интеллектуального поиска информации. Если говорить о задачах поиска и извлечения информации из текста, то такая система учитывать при работе не только ключевые слова, но и их значения, связи между словами и контекст, что значительно повышает качество работы. Именно таким программным продуктом является представленный сейчас ABBYY Intelligent Search, основанный на технологии Compreno. Он предназначен для интеллектуального поиска данных в корпоративных хранилищах и обладает всеми описанными выше лингвистическими умениями.

Второй продукт, который базируется на той же технологии Compreno, ABBYY Intelligent Tagger предназначен для структурирования имеющейся информации. Он может находить в текстах документов определенные объекты (названия организаций, персон, мест, даты и денежные суммы), что позволяет в дальнейшем автоматически классифицировать и сортировать эти документы, организовывать их автоматическую обработку с той или иной целью.

Обсудите в соцсетях

Система Orphus
Loading...
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Facebook Google GPS IBM iPhone PRO SCIENCE видео ProScience Театр Wi-Fi альтернативная энергетика «Ангара» античность археология архитектура астероиды астрофизика Байконур бактерии библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса визуальная антропология вирусы Вольное историческое общество Вселенная вулканология Выбор редакции гаджеты генетика география геология глобальное потепление грибы грипп демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение зоопарк Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии коронавирус космос криминалистика культура культурная антропология лазер Латинская Америка лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. открытия палеолит палеонтология память педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории происхождение человека Протон-М психология психофизиология птицы ракета растения РБК РВК регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент русский язык рыбы Сингапур смертность Солнце сон социология спутники старообрядцы стартапы статистика технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология фольклор химия христианство Центр им.Хруничева школа эволюция эволюция человека экология эпидемии этнические конфликты этология ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.