Связанные данные в университетах

Ирина Радченко – советник директора по информационным ресурсам НИУ Высшая школа экономики, приглашенный эксперт НП «Информационная культура», преподаватель Школы открытых данных, один из организаторов открытого образовательного проекта Datadrivenjournalism.ru, специалист по системному анализу, автоматизированным системам управления и обработки информации. В настоящее время занимается исследованиями и разработкой проектов в таких областях, как связанные данные (Linked Data), открытый доступ (Open Access) и открытые данные (Open Data).

Когда мы говорим об облаках связанных данных, то это большие данные?

Однозначно ответить сложно, но ответ скорее “да”, чем “нет”. С одной стороны, подо все формальные характеристики больших данных это не подпадает, а с другой стороны, в общем-то, жесткого определения больших данных в мировой практике сейчас нет. Есть действительно большие данные, например генерируемые различными научными организациями типа NASA, CERN и т.д. Есть, опять же, метеорологические  данные и прочие научные данные. Такие данные без колебаний можно назвать большими, в том плане, что их много, они разнообразные, к ним предъявляется требование достоверности, и их нужно быстро обрабатывать и иметь достаточно пространства, чтобы их хранить (в соответствии с основными характеристиками больших данных, которые дают такие агентства, как Gartner Inc).

Облако связанных данных, по сути, - это распределенная база данных, состоящая из различных баз, объединенных между собой при помощи унифицированных словарей или онтологий. На эти онтологии есть свои спецификации, которые разрабатывались, в том числе и в консорциуме W3C. Это также касается каталогов государственных данных и онтологий, использующихся для описания людей, как например, онтология FOAF (Friend Of A Friend). Здесь основная идея в том, что требуется организовать онтологии таким образом, чтобы они описывали данные, востребованные в конкретных базах данных. Например, очень востребованы базы данных по экспертам, научным сотрудникам, научным публикациям, учебным курсам и т.д. Это если говорить про онтологии, востребованные в университетах, занимающихся исследованиями в области связанных данных. Таких университетов довольно много на Западе. Они выкладывают свои данные в виде связанных открытых данных и делают их “перевязку” в облаке связанных открытых данных.

Принимая это все во внимание, можно сказать, что облако связанных открытых данных является примером больших данных.

Связанные данные – это не всегда открытые данные?

Связанные данные - это необязательно открытые данные. Они могут быть неоткрытыми. Поэтому говорят отдельно об LOD, Linked Open Data (открытые связанные данные), и отдельно о Linked Data (связанные данные). Linked Data - это название подхода к представлению данных на основе рекомендаций консорциума W3C. Это просто связанные данные. Но когда мы говорим про открытые связанные данные, это означает как раз объединение этих связанных данных в глобальную распределенную открытую базу связанных данных, в облако LOD Cloud. Связанные данные могут быть, конечно, и закрытыми. Например, это практикуется внутри корпораций, и в общем-то в этом случае логично не выпускать эти данные наружу, тут об открытости речи нет. Но эти данные внутри корпорации тоже могут быть заключены в единое корпоративное виртуальное пространство, объединяющие разнородные корпоративные базы данных, и некоторые корпорации сейчас вкладывают большие средства как раз в исследования в области связанных данных.

Вам когда-нибудь случалось иметь дело со связанными корпоративными данными?

У нас был проект по связанным данным в 2012 году, и по этому поводу выходила статья по Linked Enterprise Data (LED, связанные корпоративные/предпринимательские данные). Вообще, в мире есть несколько центров, которые занимаются связанными корпоративными данными. Этим занимается  OpenLink Software, продвигающая свой сервер Virtuoso, организация 3 Round Stones – «три круглых камня», французская компания Antidot, ирландский институт DERI, и этим же интересуется Лейпцигский университет. И группа этого университета под управлением профессора Зёрена Ойра (Sören Auer), помимо проектов в области связанных данных, занимаются также и Linked Enterprise Data. Получается, что в принципе эта коммерческая тема существует, но она в таком незрелом состоянии, что говорить о том, что ею серьезно занимаются крупные игроки на рынке, преждевременно.

Но в то же время этой темой очень интересуется, например, такая корпорация, как IBM, и с большой вероятностью внутри IBM есть специальная исследовательская группа, которая занимается именно связанными корпоративными данными.

Скажите, пожалуйста, в чём смысл проектов по университетским связанным данным?

Если говорить об университетских связанных данных, с точки зрения единой корпоративной сети, то конечно же, плюс заключается в том, что они поддерживают  интеграцию с мировой сетью связанных открытых данных. То есть в этой большой распределённой базе появляется некоторое количество наборов университетских данных, которые можно перевязать с другими данными этой базы. Например, с научными данными в какой-либо предметной области, цифровыми библиотеками, которые также представлены в облаке связанных данных. Более того, цифровые библиотеки были одними из центров исследований в области связанных данных. Ведь что такое цифровая  библиотека? Цифровая библиотека – это каталог. Желательно аннотировать каждую единицу этого каталога некоторой дополнительной информацией – метаданными, или данными от данных, как их иногда не совсем корректно называют. И собственно эти аннотации идеально включать в онтологии. То есть как раз сама структура библиотек идеально ложится под связанные данные: под аннотирование, перевязку и прочее.

Возвращаясь, опять же, к связанным университетским данным в контексте глобальной распределенной базы связанных данных, университетские данные удобно перевязывать с научными данными в определенных областях, их удобно связывать с цифровыми библиотеками, с различными базами экспертов, с учебными курсами и так далее. Если говорить про связанные данные внутри университета, то здесь очень удобно проводить аналогии со связанными корпоративными данными. Собственно, это внутренняя перевязка всех данных в университете.

В современном университете, ориентированном на мировые образовательные стандарты, существует очень много различных баз данных, относящихся к процессам жизнедеятельности университета. Это могут быть базы данных по сотрудникам, по учебным курсам, связанные с образовательной системой в целом и многие другие. И в связи с этим существует большая проблема интеграции этих баз данных внутри университета. В этом смысле университет можно представить себе как предприятие или, как сейчас принято говорить, платформу. При попытке интеграции данные из одной базы не всегда синхронизируются с данными из другой базы. Возникает куча ошибок при синхронизации баз, при выгрузке данных из одной базы в другую. То есть это сложная и важная задача, и связанные данные – это мощный инструментарий для её решения. Кстати, сейчас принято рассматривать управление университетом как управление неким  предприятием. Более того, есть даже стратегия развития университета по аналогии со стратегией развития предприятия.

В России?

Да, и в России уже тоже. Есть монографии на русском языке, где методики по стратегии развития предприятий перенесены на стратегии развития университетов. И, собственно, в этом ракурсе становится понятна аналогия между связанными университетскими данными и связанными корпоративными данными. Проблемы одни и те же: куча баз, которые надо интегрировать, перевязать между собой, нужно очистить и подготовить данные, и всё это необходимо сделать таким образом, чтобы было удобно осуществлять запросы к этим связанным данным, причем сложные запросы, которые могут задаваться в контексте той или иной потребности. Вот для чего все это надо.

И плюс ко всему, новизна и исследовательская компонента проекта накладывает определенную потребность в формировании образовательного и научного сообщества вокруг этого проекта. Но и сам проект дает определенные преимущества для университетов.  Во-первых, это международное сотрудничество и обмен опытом с зарубежными университетами, у которых есть схожие программы по обучению и работе со связанными данными. Во-вторых, это международные проекты вроде проекта связанных университетов (Linked Universities). Также есть некоторое количество университетов, не входящих в этот европейский проект, но осваивающих эту тему (Оксфордский университет, Стэнфордский университет и другие). То есть для международного сотрудничества в области связанных данных не обязательно вступать в какие-то ассоциации. Это может быть и чисто исследовательское сотрудничество.

Сейчас основная проблема в развитии связанных университетских данных заключается в том, что это проект нового образца, нового типа. Он включает в себя множество компонентов: научных, образовательных, инновационных. Например, если делать его как образовательный проект, то инновационная составляющая будет проседать. Студенты не смогут качественно проделать эту работу, хотя бы потому, что количество времени, затрачиваемого студентом на проект, ограничено. То есть студент-магистрант, который учится 2 года и уходит из университета, не сможет принять участие в дальнейшем развитии проекта. Соответственно, здесь надо задействовать разные ресурсы: нанимать разработчиков, которые могут качественно организовать инфраструктурную поддержку специально под проект; создать новые учебные курсы с участием тех людей, которые разбираются в этой теме. И сюда же надо привлекать студентов, но студентов нужно подтягивать на небольшие проекты с небольшими объемами работ, которые они в состоянии сделать. И это может быть разработка интересных мобильных приложений, разработка любых полезных приложений на основе связанных данных.

Допустим, в техническом вузе можно привлечь к разработке студентов-программистов. А что с гуманитарными делать?

Даже в гуманитарных вузах сейчас существуют компьютерные кафедры и соответствующие специализации. Конечно, прежде всего, это должны быть студенты, которые умеют программировать, потому что порог вхождения в эти технологии достаточно высок. Но в принципе, сюда можно подключать и студентов гуманитарных специальностей. Хотя это сделать сложнее. Есть новое направление, которое называется социальная семантическая паутина (Social Semantic Web). Это подраздел семантического веба, и в контексте учебной программы этой дисциплины вполне можно подключить студентов-гуманитариев. В частности, к этому проявляют интерес социологи.

Социологи – понятно, многие из них так или иначе имеют дело с данными, хотя бы в связи с опросами. А, например, историки, философы?

Из историков можно сюда подключить тех, кто занимается археологией. По применению связанных данных в археологии есть несколько статей, есть даже проект The STELLAR (Semantic Technologies Enhancing Links and Linked data for Archaeological Resources), посвященный именно связанным археологическим данным. Это действительно мощное направление. Трудно, конечно, сравнивать по масштабам со связанными биоданными, т.к. биологи, по понятным причинам, как раз были одними из первых, кто всем этим заинтересовался. И медики, конечно. То есть и у биологов, и у медиков есть множество баз данных, которые надо приводить в приличный вид и перевязывать между собой. И сейчас подобное движение началось и у археологов.

А если рассматривать самую общую канву, то, конечно же, практически любые дисциплины и науки, в том числе и философию, можно представлять в виде связанных данных. Потому что в любой дисциплине есть свои эксперты, есть тематические публикации, то есть можно к этому проекту подходить именно с ракурса вхождения в международную экспертную сеть.

Фактически любую дисциплину можно так или иначе аннотировать. Те понятия, которые мы можем формализовать в рамках дисциплин, можно и представить в виде связанных данных.

Допустим, в каком-нибудь университете все базы уже интегрированы и стали связанными. Как этим можно практически воспользоваться?

Поиск экспертов по своей тематике, создание сложных запросов в междисциплинарных областях. Например, требуется узнать, сколько белых человек определенной возрастной группы, живущих в двухэтажных коттеджах в таком-то городе, пользуются таким-то продуктом. Это сложный запрос, составленный из запросов к разным базам, находящихся в разных местах. Он подразумевает обращение к базе данных людей, к базе данных недвижимости, к базе данных продуктов и географической базе данных. Аналогичным образом ученый может использовать сложные запросы по  нескольким дисциплинам, когда нужно произвести поиск по нескольким базам данных, и эти данные наложить друг на друга, по аналогии с тем, как это используется в мэшапах. Например, когда нужно учесть археологическую, географическую, медицинскую, биологическую компоненту плюс данные по количеству заболеваний в конкретном районе. Из серии «сколько чернокожих человек с такого-то по такой-то год болели в Аризоне такой-то болезнью». То есть это фактически выполнение междисциплинарного  исследования по различным базам научных данных.  В этом случае связанные данные позволяют автоматизировать, облегчить работу с данными из разных баз.

Есть ещё одно направление использования - это поиск учебных материалов по схожей тематике. В университетах существует множество похожих учебных курсов, но не связанных друг с другом, и никто не знает, кто, что и на каком факультете читает. Точнее, отчасти знают, отчасти нет. А ведь можно сделать очень удобную вещь. Например, я решаю в курс по своей дисциплине включить какое-то занятие по схожей дисциплине, но у меня нет необходимых наработок. Как раз при помощи базы связанных данных я могу найти что-то похожее, чтобы включить в свой курс, связаться с коллегой, спросить разрешение на использование материалов и включить их в свой курс.

А предполагает ли наличие такой вот университетской базы возможность выйти в какой-то момент на буквально текст, например, какую-нибудь монографию? Предполагается ли, что эти базы должны интегрировать и конкретные цифровые артефакты, которые они аннотируют?

Это зависит от уровня и степени детализации и аннотирования конкретной книги или иного объекта. То есть в принципе существуют алгоритмы, реализующие поиск по неструктурированным данным. Но это уже из других областей, таких как Data Mining, Machine Learning  и так далее.

Связанные данные университета – это открытые связанные данные?

Да, это открытые связанные данные.

Открытые всем? Или только университетам-союзникам?

Открытые всем.

В идеале? Или в реальности?

По тем проектам, которые я знаю, они все открыты. Нет, можно, конечно, создать в университете две отдельные базы – закрытую внутреннюю для внутренних нужд, как в случае с корпорациями, и внешнюю открытую.

А где между ними граница?

Внутренняя база – это перевязка баз «для служебного пользования», и они вообще никаким образом наружу не выходят. Ведь технически в проведении границ никаких проблем нет. Внутренние базы – во внутренних сетях. Они не связаны с внешними базами, передача данных во внешние базы данных осуществляется при помощи дампов. А те, которые внешние, выкладываются отдельными наборами открытых данных и связаны с наборами данных из облака связанных данных.

Какая мотивация может быть у университетов, чтобы открывать свои данные? Они ведь предоставляют их бесплатно и открыто, что они получают взамен?

Это возможность международного сотрудничества в области открытых данных; это прозрачность и подотчетность; и это повышение критериев “видимости и находимости” (visibility, findability), то есть “присутствие” ученых в международном пространстве. Это фактически инновационный проект, результатом которого может стать создание университетов нового образца, когда можно будет всему миру предъявить образовательные и научные разработки вуза, показать деятельность и высокий уровень работ вуза. Ну и, конечно, это интеграция и сотрудничество. Интеграция на уровне обмена данными с другими университетами и сотрудничество в плане ведения совместных разработок по проектам в различных областях.