Школа открытых данных: образовательный эксперимент

В сентябре 2013 г. в Москве начала работать Школа открытых данных, созданная по инициативе НП «Информационная культура» при поддержке Открытого правительства. Это в большой мере экспериментальный проект – прежде всего, в силу своей тематики.

Процесс раскрытия данных на официальном уровне сам по себе начался не так давно – первопроходцами в 2011 г. стали США и Великобритания. Негосударственные организации и сообщества, занимающиеся сбором и публикацией доступных данных в открытом доступе, стали появляться чуть раньше – например, Open Knowledge Foundation (Британия) появился в 2004 г., а Sunlight Foundation (США) – в 2006 г., - но все равно в недалеком прошлом. Долгое время этой темой занимались в основном программисты, а также отчасти гражданские активисты (зачастую те же, которые участвовали в полемике о копирайте и отстаивали неприкосновенность частной жизни интернет-пользователей). Также темой открытых данных интересовались некоторые журналисты, но их было сравнительно мало. Предприниматели, если и интересовались, то разве что теоретически, потому что по факту на основе имевшихся тогда открытых данных было трудно создать привлекательный для аудитории продукт.

По мере того, как тема набирала популярность на официальном уровне, не в последнюю очередь в силу своего коммерческого потенциала, ею всю больше интересовались СМИ, а вслед за ними и их аудитория. Так как открытые данные – это, прежде всего, данные, которыми, в принципе, могут пользоваться все желающие, то и интерес у аудитории был в значительной мере практический: как это делать. Конечно, человечество располагает изрядным опытом в области обработки данных. Но, во-первых, и этого опыта пока недостаточно, потому что объемы данных и мощность инструментов для их обработки постоянно растут. Во-вторых, опыт публикации данных онлайн, совсем невелик: как минимум, еще не существует общепризнанных стандартов публикации. Само по себе формирование и распространение этих стандартов требует времени. Кроме того, и у публикаторов данных сейчас зачастую не хватает опыта, который бы позволил им избегать ошибок и недоработок.

Как бы то ни было, открытые данные уже публикуются, и ими можно пользоваться. Интерес к работе с ними тоже есть – и у предпринимателей, и у активистов, и у журналистов, и у госслужащих – иными словами, у представителей таких областей, которые традиционно не требовали обязательных навыков или осведомленности в этой области.

Государство, если оно уже начало раскрывать официальные данные, обычно заинтересовано в том, чтобы граждане ими так или иначе пользовались, поэтому склонно поддерживать образовательные и просветительские проекты такой направленности. Перед организаторами этих проектов, в свою очередь, встает ряд вопросов: чему именно учить? Как организовать учебный процесс? На какую аудиторию рассчитывать? Каких экспертов и специалистов привлекать? Однозначный ответ на этот вопрос сейчас едва ли возможен, поэтому такие проекты всегда в той или иной мере экспериментальные, и Школа открытых данных – в частности. По итогам почти полугодового существования характер эксперимента сформировался, и теперь представляет собой вполне последовательную и целостную картину.

Как это устроено

В своем физическом воплощении Школа открытых данных представляет собой последовательность регулярно организуемых занятий, проходящих в разных точках Москвы (перед каждым занятием адрес уточняется). Занятия бесплатные, по их итогам на сайте Школы публикуются видеозаписи лекций, их расшифровки и презентации – все в открытом доступе и под свободной лицензией. Таким образом, она находится в числе открытых образовательных ресурсов – направления, которое сейчас набирает силу во многих странах мира.

Занятия тематически распределяются на две основные категории: по открытым данным и по журналистике данных. Первоначально планировалось, что занятия по открытым данным будут ориентированы преимущественно на госслужащих и разработчиков ПО, и акцент будет делаться на теоретических и технических моментах. Журналистика данных была вынесена в отдельную категорию как одна из наиболее распространенных практик в использовании открытых данных, где требуется множество специфических прикладных навыков – например, работы с инструментами визуализации данных.

Естественно, никто не препятствует госслужащим посещать занятия по журналистике данных, а журналистам – по открытым данным. По факту большинство слушателей посещают и то, и другое. Характер занятий в значительной степени определяется тем, кто его проводит. Это могут быть просто лекции или лекции, совмещенные с мастер-классами. Помимо общего тематического единства, в настоящий момент лекции между собой никак не связаны, то есть это не последовательный курс, а точечное освещение разных тем. Преимущество такой организации в том, что она позволяет подключиться к процессу на любом этапе. Иными словами, каждая лекция носит, прежде всего, обзорно-просветительский характер, но при этом там всегда предоставляется множество ссылок на ресурсы для более углубленного изучения.

Итак, у каждого занятия есть своя тема, которая раскрывается в процессе, а последующие лекторы могут по своему усмотрению либо учитывать содержание предыдущих лекций и опираться на него, либо выстраивать свое выступление независимо от предшественников. К настоящему моменту в Школе открытых данных состоялось восемь занятий, из которых четыре были по открытым данным и четыре – по журналистике данных. Занятия будут проводиться и в дальнейшем, но некоторое общее представление об их тематике и характере можно составить уже на основании имеющегося сейчас.

Обзор занятий

Открытые данные

Первая лекция по открытым данным была вводной. Ее провели Ирина Радченко и Иван Бегтин. В теоретической части речь шла о том, что такое открытые данные, где и кем они публикуются, какие области затрагивают и какие институты (или центры компетенции) развивают эту тему. Практическая часть представляла собой презентацию работы с системой управления данными CKAN, на основе которой, в частности, работает российский Хаб открытых данных.

Второе занятие представляло собой три полуторачасовые лекции подряд. Речь шла о семантической паутине (Semantic Web) и связанных данных. С лекциями выступили специалисты из Лейпцигского университета: Амрапали Завери (Amrapali Zaveri), Конрад Хёффнер (Konrad Hoeffner) и Иван Ермилов (Ivan Ermilov). Завери в своей лекции рассказывала о том, что такое связанные данные, зачем они нужны, чем определяется их качество, а также показывала, как это работает, на примере DBpedia. DBpedia представляет собой базу структурированных данных, извлеченных из Википедии и связанных между собой. Хёффнер рассказывал о технических аспектах работы со связанными данными на примере платформы Open Spending (открытые расходы). Наконец, Ермилов рассказывал о том, какие существуют способы организации и хранения данных, а также о конвертации форматов, позволяющей связывать между собой данные из разных баз.

Третье занятие было посвящено геоданным, и его проводил Максим Дубинин (GISLAB, NextGIS). Речь шла о специфических форматах геоданных, способах их визуального представления, проблемах в работе с ними, а также об инструментах, с помощью которыми их можно обрабатывать.

Четвертое занятие, которое провел Юрий Катков (WikiVote!), тематически отчасти пересекалось с лекциями второго занятия – речь шла о семантической паутине и связанных данных. В первой части занятия была лекция, в которой подробно описывалось, каким образом структурируются связанные данные; вторая часть представляла собой мастер-класс, на котором Катков на примере конкретных запросов показывал технику работы со связанными базами данных.

Журналистика данных

Первое занятие было вводным: речь шла о том, какие существуют трактовки термина «журналистика данных» (этих трактовок существует великое множество), какие источники данных существуют в Сети, что требуется для того, чтобы начать заниматься журналистикой данных. Хотя техники работы бывают весьма сложными, и совершенству нет предела, есть совсем простые инструменты вроде таблиц Google, с помощью которых можно сделать первые шаги в этой области.

На втором занятии по журналистике данных, которое проводил Иван Бегтин, речь шла об инструментах визуализации данных. В большом количестве случаев визуализация представляет собой важный компонент материалов, сделанных на основе данных. В самом простом случае она позволяет проиллюстрировать некоторые закономерности в данных. Если визуализация интерактивная, то она фактически представляет собой инструмент, с помощью которого даже человек, неискушенный в работе с данными, может исследовать соответствующий набор данных и самостоятельно извлекать из него нужную ему информацию. Бегтин в своей лекции, в частности, представил список соответствующих инструментов, различающихся по областям применения и уровню сложности в освоении.

Третье занятие состояло из двух частей. В первой Ирина Радченко рассказывала об организации процесса обработки данных при создании так называемых «цифровых историй» - нарративов, в основе которых лежат данные. Во второй части (мастер-классе) Иван Бегтин демонстрировал обработку работу с помощью инструмента Open/Google Refine, специфика которого состоит в том, что он, с одной стороны, достаточно гибок и многофункционален, чтобы быть профессиональным журналистским инструментом, а с другой стороны, не требует навыков программирования, которых зачастую требуют другие системы анализа и визуализации данных.

Наконец, четвертое занятие представляло собой мастер-класс по журналистике данных, который проводила Наталья Карбасова (Hubert Burda Media, Мюнхен), имеющая уже изрядный опыт в этой области. Речь, опять же, шла преимущественно о визуализации данных, однако, в отличие от второго занятия, акцент был сделан не столько на технических особенностях инструментов и типах визуализаций, сколько на примерах удачных и неудачных визуализаций и критериях выбора тех или иных видов визуализации в зависимости от конкретных задач.

Таким образом, Школа открытых данных в настоящий момент действует как открытая образовательно-просветительская платформа с отчетливым прикладным уклоном. В отличие от собственно просветительских инициатив, основная цель которых – познакомить аудиторию с содержанием той или иной области, занятия в Школе открытых данных ориентированы на то, что слушатели будут так или иначе применять полученные знания на практике. Эта черта свойственна многим нынешним образовательным инициативам, адресованным широкой аудитории и предполагающих приобретение конкретных навыков, необходимых для решения тех или иных задач. Особенно такой род просветительства характерен для областей, связанных с технологиями, программированием и, в частности, с открытыми данными.