В Мультимедийном центре «РИА-Новости» состоялось, мероприятие, посвященное открытым данным, прозрачности управления и тому, как это все воплощается на практике. Мероприятие состояло из двух частей. Первая была посвящена международному опыту. Там выступали с докладами зарубежные эксперты, которых пригласил НИУ ВШЭ и российский офис международного консорциума W3C. Вторая представляла собой расширенное заседание Совета по открытым данным, организованное Открытым правительством. В феврале 2013 г. на мероприятии, организованном также Открытым правительством, речь шла о том, что к 15 июля должно быть раскрыто не менее 500 наборов данных из различных ведомств, согласно президентскому указу от 7 мая 2012 г. Сейчас была отчетная часть.
Надо сказать, что доклады зарубежных экспертов так или иначе затрагивали так называемые «связанные данные» (linked data) и их применение в публикации открытых государственных данных, а также их дальнейшей обработке. Собственно, речь идет о том, что все публикуемые данные приведены в соответствие с неким стандартом и связаны между собой ссылками, что позволяет работать не с каким-то одним набором данных за раз, а сразу с несколькими, подключая их по мере надобности. Такую систему организации данных можно сравнить с организацией Всемирной паутины, в которой есть автономные сайты, но они связаны между собой ссылками. С одной стороны, это удобно, потому что таким образом расширяются возможности координации работы. С другой стороны, для работы с данными в таком формате требуется больше компетентности, чем для работы с данными в более распространенных форматах.
С этим связана идущая сейчас яростная полемика между различными институтами, занимающимися открытыми данными. В полемике есть два лагеря. Один из них – это адепты связанных данных. Его вдохновитель и идейный лидер – Тим Бернерс-Ли. Направление, в русле которого развивается это направление, называется Semantic Web (семантическая паутина), и оно представлено международной зонтичной организацией World Wide Web Consortium (W3C). W3C занимается собственно тем, что разрабатывает стандарты публикации информации в Сети. Другой лагерь, идейное ядро которого представляет Open Knowledge Foundation (OKFN) во главе с Руфусом Поллоком, - это движение за максимальное упрощение формата публикации данных (simple data format).
Суть конфликта состоит в следующем. К настоящему моменту мировые лидеры как в бизнесе, так и в политике в массе своей признают, что открытые данные – в принципе вещь полезная. Их использование может качественно улучшить координацию действий ведомственных организаций, подкрепить престижную нынче риторику государственной прозрачности, а главное, открытые данные выгодны экономически – во-первых, потому что позволяют бизнесам оптимизировать свою работу, во-вторых, потому что создают большую область для создания новых бизнесов и, соответственно, рабочих мест. Но после того как это признали теоретически, нужно реализовать это на практике. А тут уже возникают проблемы.
Главная проблема в том, что это новая область, в которой пока сравнительно мало кто разбирается. С одной стороны, надо, чтобы люди начали действительно использовать открытые данные и применять их в своей работе. С другой стороны, надо, чтобы эти данные были достаточно точными и удобными для работы. Чтобы сделать данные удобными, нужно выработать некий стандарт. А чтобы люди стали массово их использовать, надо сделать так, чтобы этот стандарт был достаточно простым в освоении.
Позиция OKFN состоит в том, что данные надо публиковать в самых простых форматах (CSV или JSON), чтобы каждый мог их просто взять и сразу использовать. Они даже организовали специальный проект по переработке баз данных с целью привести их в простой и удобный вид. Позиция W3C – в том, что базы данных должны быть, в первую очередь, связаны между собой, потому что благодаря этому их эффективность многократно увеличится. OKFN, в свою очередь, возражает, что если вместо того чтобы сразу опубликовать данные, их владелец будет месяцами приводить их в соответствие стандартам, то это никуда не годится: лучше пусть сразу выкладывает как есть. Таким образом, консенсуса пока нет, а есть весьма оживленная дискуссия.
Но для мероприятия 15 июля зарубежных докладчиков подбирал российский офис W3C, поэтому речь шла исключительно о публикации и применении связанных данных.
Сёрен Ауэр (Soeren Auer), координатор панъевропейского проекта LOD2 (Linked Open Data) рассказывал о том, какие перспективы открывает использование связанных данных. Он привел три примера: данные по госбюджету (как основа для общественной оценке государственных расходов); исследовательские данные, позволяющие устанавливать связи между учеными и научными сообществами по всему миру; и транспортные данные, которые очень важны для мегаполисов. Кстати, пользу от прозрачности госбюджета Ауэр, помимо прочего, видит в том, что граждане начинают обращать внимание на энергетические расходы и, как следствие, стараются рациональнее регулировать свое собственное энергопотребление.
При условии стандартизации данных на международном уровне может появиться большой спрос на приложения (а это область инновационного бизнеса), которыми будут пользоваться граждане, компании и научные институты. Однако речь идет о больших массивах данных, которые еще только предстоит систематизировать и упорядочить. Для этого должна сформироваться экосистема, благодаря которой нынешнее информационное общество преобразуется в общество данных.
После этого Франсуа Шарфф (François Scharffe) рассказал о том, каким образом открытые связанные данные используются во Франции для создания многофункциональных приложений. В частности, он говорил о приложении для формирования маршрутов по городу на основе трех наборов данных (один из них по паркам, с указанием «интересных деревьев»). Причем это приложение, при условии соответствия данных стандартам, может использоваться для любых других городов.
Еще один доклад – Анны и Дитера Фензель (Anna Fensel, Dieter Fensel) – тоже был посвящен многофункциональному приложению, разработанному в Австрии для города Инсбрука и ориентированному на туристов. Оно, помимо указания достопримечательностей и прокладывания маршрутов, может также использоваться для прямого бронирования гостиниц, что выгодно и туристам, и гостиницам, так как благодаря этому можно обходиться без посредников.
Хотя речь шла о необходимости распространения осведомленности о таких технологиях и возможностях, докладчики говорили преимущественно о том, как чем это выгодно для бизнеса (выгода для пользователей подразумевалась, но в основном в качестве аргумента в пользу основного тезиса). Уже после доклада на вопрос о том, ведется ли в соответствующих странах какая-нибудь просветительская работа в области открытых данных, направленная непосредственно на граждан, и Франсуа Шарфф, и Дитер Фензель сказали, что такие инициативы им неизвестны, а информирование граждан о пользе открытых данных происходит как раз в процессе их взаимодействия с приложениями. Тут можно вспомнить о том, что OKFN, исходя из своей стратегии, очень много внимания уделяет именно обучению всех желающих азам работы с данными.
После зарубежных докладов последовала российская часть – о достижениях в области раскрытия государственных данных. Среди докладчиков были преимущественно чиновники, а также заместитель главного редактора «РИАН» Валерий Третьяков и Иван Бегтин в качестве представителя гражданского общества и эксперта по открытым данным.
Министр РФ Михаил Абызов рассказал о том, что план по раскрытию данных выполняется успешно – и даже некоторых аспектах перевыполняется, - а также поделился дальнейшими планами. В частности, он сообщил, что на настоящий момент ведомства опубликовали более 800 наборов данных; что созданы порталы бюджетной системы РФ, правовой статистики и госзакупок; и что было проведено 3 конкурса для разработчиков. Дальше, среди прочего, планируется внедрять Хартию G8 об открытых данных, создавать «Школу открытых данных», проводить новые конкурсы для разработчиков приложений, а также разрабатывать методику востребованности открытых данных. Еще планируется, как минимум, 10 наборов данных привести в соответствие со стандартами W3C.
О востребованности говорили почти все докладчики – в том смысле, что надо в первую очередь раскрывать те данные, которые наиболее востребованы гражданами. Востребованность понимается как массовость спроса – в первую очередь потребительского – на ту или иную информацию, предоставляемую государственными сервисами.
Сергей Беляков, замминистра экономического развития РФ, рассказал, что лидерами по раскрытию ведомственных данных стали Москва, а также Амурская и Ульяновская области. Еще он сказал, что по итогам раскрытия данных последует общественная реакция, которая будет стрессом для ведомственных работников, не привыкших реагировать на критику и работать с обратной связью. Замминистра связи и массовых коммуникаций РФ Алексей Волин отметил важность гражданского контроля и отметил, что надо бы предусмотреть меру ответственности для ведомств, если они не раскрывают данные, которые должны раскрывать. На вопрос о том, какую меру ответственности он предлагает, он ответил «сажать не хочется», после чего участники президиума некоторое время смеялись, но больше не спрашивали.
Выступавший от Минобрнауки Сергей Салихов сообщил, что подведомственные инстанции раскрыли 17 наборов данных, но что один из самых востребованных пунктов – данные по ЕГЭ – пока не раскрыт. Этому препятствует неопределенность точки зрения, с которой их следует раскрывать. С одной стороны, объяснил он, надо различать индикаторы качества обучения в школе и фиксирование знаний конкретных учеников. С другой стороны, есть еще проект оценивать губернаторов, в числе прочего, по тому, насколько высоки результаты ЕГЭ. И все это ведет к тому, что данные не раскрываются.
Иван Бегтин отметил, что сам тот факт, что данные начали раскрывать, уже отраден, но для того, чтобы все это действительно работало, необходимо приложить еще много усилий. Ссылаясь на отзывы пользователей, Бегтин сказал, в частности, что люди регулярно жалуются на несовершенство предоставленных данных. Часто встречаются ошибки в системах координат; в огромном количестве случаев подход к публикации данных совершенно формальный – выкладываются просто наборы данных, без каких-либо описаний; бывает, что данные вроде бы выложены, но не скачиваются. Иными словами, большинство проблем носят технический характер. О множестве недоработок в раскрытых наборах данных говорили, кстати, и разработчики приложений на подведении итогов конкурса по открытой полиции. В общем-то, это естественно: раз процесс только что начался, без ошибок не обойтись, и самое время все тестировать и исправлять. Однако зачастую это невозможно сделать из-за отсутствия обратной связи – Бегтин посоветовал уделить этому моменту пристальное внимание. В ответ на замечания Салихова по поводу данных о результатах ЕГЭ он сказал, что если на уровне министерства и есть какие-то сомнения, то на уровне школ ничего такого нет, и они вполне публикуют результаты. Поэтому если Минобрнауки в скором времени не откроет данные, это граждане просто соберут соответствующую информацию с сайтов школ и тем самым раскроют их без участия министерства.
Выступивший в заключение мероприятия Валерий Третьяков рассказал о том, что «РИА-Новости» открыли собственный портал данных, причем с использованием связанных данных. Замысел, безусловно, прогрессивный, хотя судить о том, насколько воплощение по итогам доработки будет ему соответствовать, пока трудно.