Полiт.ua Государственная сеть Государственные люди Войти
6 декабря 2016, вторник, 17:14
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

Данные для журналистов

Церемония вручения премии 2012 года за журналистику данных (Data Journalism Awards)
Церемония вручения премии 2012 года за журналистику данных (Data Journalism Awards)

24 апреля 2013 г. Открытое правительство провело в Москве первый семинар по журналистике данных. Явление, в своем роде, неординарное по ряду причин.

Контекст

Исторически сложилось так, что там, где журналистика данных уже набрала коммерческие обороты – например, в Великобритании и в США – журналистское сообщество было одной из движущих сил, участвовавших в формировании концепции открытых данных еще до того, как Обама предписал государственную «открытость и прозрачность», и она стала престижным трендом. Яркая тому иллюстрация – дата-блог газеты Guardian, существующий с 2006 г. (данные в Британии официально открыли в 2010 г.).

В Британии к тому моменту, как государство запустило сайт с открытыми ведомственными данными, уже вовсю действовала некоммерческая организация Open Knowledge Foundation, которая всячески продвигала тему открытости, а потом, на волне государственной популярности, стала получать и хорошее финансирование. Благодаря этому она в настоящий момент развернула бурную образовательную деятельность – в частности, проект School of Data (школа данных), который публикует разнообразные руководства и уроки, а также организует многопользовательские обучающие онлайн-программы вроде Data Expedition. Кроме того, эту тему уже давно и с большим размахом продвигал Тим Бернерс-Ли, один из ключевых деятелей в этой области. В США образовательную деятельность, в том числе бесплатно и онлайн, ведет, например, журналистский университет Poynter University.

В Британии это, пожалуй, несколько больше окрашено гражданским энтузиазмом, в США – образование в этой сфере (речь ни в коем случае не о начинаниях Sunlight Foundation, например), - большим профессионализмом и, как следствие, коммерцией. Но ни в одном из этих случаев инициатива не исходила непосредственно от государственной инстанции. Таким образом, самобытность первого российского семинара по журналистике данных как минимум в том, что он, в отличие от своих тематических аналогов в иных местах, был инициирован государством.

Зачем этот семинар понадобился Открытому правительству? Дело в том, что в июле 2013 г. российские ведомства, следуя сформулированному в президентском указе от 7 мая 2012 г. требованию «обеспечить доступ в сети Интернет к открытым данным, содержащимся в информационных системах органов государственной власти Российской Федерации», должны открыть доступ к 500 наборам данных. И действительно, подготовка к обеспечению доступа стремительно ведется, то есть базы к указанному сроку должны открыться. Но кому это надо, что с этим делать и, главное, как, - мало кто знает.

Огромные базы данных с длинными перечнями невнятных цифр уже сами по себе многих приводят в уныние; кроме того, судя по вопросам из зала на посвященных этому мероприятиях, общественность сомневается в том, что эти данные будут отражать хоть какую-то реальность. Соответственно, нужно срочно просвещать общественность на предмет того, что с этими данными делать. Просвещать журналистов полезно вдвойне: с одной стороны, по прямому назначению, чтобы они сами использовали открывшиеся базы в своей работе; с другой стороны, чтобы они по итогам мероприятия донесли до более широкой общественности мысль о том, кому это всё может пригодиться.

Конечно, нельзя сказать, чтобы вся инициатива исходила исключительно от правительства. Тему открытых данных (журналистики данных – в частности) уже давно развивает, например, Иван Бегтин, который в качестве эксперта консультировал и продолжает консультировать государственные инстанции по этому вопросу, и Открытое правительство к нему регулярно обращается. В «РИА Новости» перевели и выложили у себя на сайте «Пособие по журналистике данных» (Data Journalism Handbook). Строго говоря, это не совсем пособие, если понимать под пособием некое последовательное методическое руководство. Это, скорее, компиляция различных иллюстрирующих примеров того, что имеется в виду под журналистикой данных, как это бывает устроено и что получается в результате, - а также некоторые советы по поводу того, с какой стороны к этому подступиться.

Матчасть

Во вводном выступлении представитель Открытого правительства Екатерина Шапочка рассказала участникам семинара о том, что такое открытые данные (главные признаки – машиночитаемость и общедоступность) и каким образом они могут улучшить жизнь гражданам и бизнесу. Акцент был сделан на повышении качества госуслуг, создании новых бизнес-моделей на стыке госуслуг и новых технических возможностей, усилении гражданского контроля, а также качества жизни населения по причине того, что повысится информированность – например, о качестве жилья или школ, - что позволит людям делать более точный выбор.

С точки зрения Открытого правительства, всё так и есть, хотя если говорить о науке о данных (Data Science) и журналистике данных как одном из её практических применений (а речь идет о семинаре по журналистике данных), - это весьма ограниченный подход. Да, журналистика данных, конечно, имеет дело с открытыми государственными данными, но пользуется и другими источниками. Собственно, с точки зрения Data Science, вся информация Интернета может быть представлена как данные, которые можно собирать в базы по заданному признаку, чтобы затем эти базы анализировать. Популярный источник данных – это социальные сети, например, Twitter и Facebook, которые собирают информацию о своих многочисленных пользователях, и эти данные в анонимизированном виде вполне доступны при использовании специальных скриптов, позволяющих собирать их с сайтов (так называемый web-scraping). Данные могут быть самыми разными – начиная с того, сколько пользователей у сети в той или иной стране, и заканчивая частотой употребления каких-нибудь слов.

Однако вернемся к открытым государственных данным, к факту существования которых пытались привлечь внимание посредством этого семинара. Пока, по словам Шапочки, речь идет только об открытии баз данных – то есть, в идеале, скачиваемых таблиц в машиночитаемом формате. В принципе, уже существенный шаг. Но как заметили некоторые участники семинара, хотелось бы видеть какие-нибудь встроенные инструменты для работы с этими данными – исходя из того, что речь идет о привлечении журналистов, а не хакеров. Журналисты могут не располагать достаточной технической компетенцией для обработки таких больших массивов данных. Пока подобных инструментов не предусмотрено, хотя в дальнейшем вроде бы планируется их приспособить. А общественную грамотность в области оперирования данными, как отметила Шапочка, надо повышать. В этом деле Открытое правительство рассчитывает на активность отдельных просветителей (вроде Бегтина) и НКО.

Инструментарий

На семинаре выступал представитель Google Ринат Сафин. В принципе вполне закономерно: тут и цифровые технологии, и, главное, сам Google как первый инструмент для человека, начавшего заниматься работой с данными, в частности журналистикой данных. Дело в том, что Google, среди прочего, масштабно создает инструменты именно для такой работы. Так, у него есть специальный сервис Google Public Data, который позволяет целенаправленно искать сайты, на которых выкладываются официальные данные. Есть проект Google Ngrams, который позволяет искать повторяющиеся слова и конструкции по всем оцифрованным художественным произведениям, которыми располагает Google Books. Есть также пользующаяся большим уважением среди дата-журналистов (и не только журналистов) бесплатная программа Google Refine, которая специально создана для того, чтобы «чистить» данные.

Чистка данных — это важный и сложный подготовительный этап работы с базой данных, потому что без этого велик риск получить от базы либо крайне невнятный, либо принципиально ложный результат. В самом безобидном варианте это может быть связано с форматированием — когда базу выкладывают в том виде, в которой она была отформатирована под нужды её конкретного ведомственного пользователя. Очень распространенный случай представляет собой база, в которой нет унифицированной системы обозначений — просто потому, что она слишком большая, чтобы отследить все возможные погрешности. Кто-то добавил к какой-нибудь, скажем, фамилии лишний пробел, другой — лишнюю строку, третий сделал ошибку в той же фамилии, четвертый написал её сокращенно, пятый с инициалами, а шестой вообще использовал номер дела, под которым носитель этой фамилии фигурировал. Итого, считая «чистое» написание, семь возможных вариантов написания одной и той же фамилии. Таблица, естественно, будет считать это как семь разных значений, хотя значение на самом деле одно. Расчеты и выводы, сделанные на основе такой базы, будут ошибочными.

Наконец, третий — и тоже довольно распространенный случай — это когда таблицу намеренно портят, а точнее представляют (с помощью форматирования) в таком виде, что её данные не содержат информации, которую могли бы содержать в чистом виде. В свое время была опубликована обстоятельная статья Джона Раффеншпергера (John F. Raffensperger) о 37 способах скрыть данные в таблице.

Иными словами, Google тут был бы весьма в тему. Однако выступление было совсем не об этом. Рассказывали преимущественно о том, как пользоваться поисковой системой: какие существуют специализированные поисковики у Google (например, Google-картинки), а также информационные агрегаторы вроде Google Alerts. Еще подробно рассказывали, как фильтровать запросы с помощью поисковых операторов по типу файлов, по определенному сайту или домену.

По способу применения и функционирования к заявленной теме ближе всего было упоминание сервиса Google Trends, который ведет статистику поисковых запросов и позволяет ею оперировать. В частности, на основе этого сервиса был образован сервис Google Flu, который позволяет отслеживать частоту поисковых запросов, касающихся заболеваний гриппом и, соответственно, предсказывать эпидемии. Правда, как раз предсказательная сила у Google Flu весьма относительна, потому что частота запросов зависит, в числе прочего, от таких эфемерных факторов как повышенный интерес СМИ к теме гриппа, который провоцирует интерес населения вне зависимости от фактических заболеваний.

На вопрос из зала о том, какие всё-таки существуют специальные продукты Google для работы с данными, Сафин ответил, что пока не готов подробно рассказать. Впрочем, упомянул о существовании такого набора приложений, как Google Fusion, который дает некоторые возможности для анализа и визуализации данных.

Что такое журналистика данных

Самому понятию журналистики данных в той или иной мере были посвящены все остальные выступления на семинаре - Александра Малютина, Бориса Грозовского и Ивана Слепцова. Они строились вокруг описания некоторых практик, которые с этой деятельностью ассоциируются.

Суть рассказа Александра Малютина сводилась к тому, что из баз данных журналисты могут почерпнуть много информации, что тут важно сотрудничество с программистами, которым желательно, в свою очередь, глубже разбираться в медийной тематике, что из базы данных, наконец, можно черпать не только подтверждающую информацию, но и целые сюжеты для материалов самой разной направленности.

Иван Слепцов рассказывал о том, как выбивать информацию из судов. С банком решений арбитражных судов, в принципе, работать можно. Проблемы начинаются на этапе поиска документов через сайт судов общей юрисдикции. Дело в том, что в результате поиска пользователь получает документы, в которых вся значимая информация вымарана. Это прямое нарушение законодательства, однако нарушение системное и общепринятое, поэтому в каждом конкретном случае, чтобы чего-то добиться, необходимо писать заявление на имя председателя суда с требованием предоставить документы. Если не реагирует председатель, надо обращаться в вышестоящие инстанции, попутно вынося истерики судей. Результат двоякий. С одной стороны, если потратить очень много времени и сил, можно получить требуемый документ. С другой стороны, этот документ будет ничтожной крупицей информации, а для того чтобы получить больше, надо много раз повторить ту же самую процедуру.

Борис Грозовский очертил общую ситуацию с открытостью, данными и журналистикой расследований в России. Он отметил удручающее интернет-невежество со стороны официальных инстанций: выкладывание данных в нечитаемом формате; выкладывание данных с последующим их удалением; внесение изменений в выложенные документы без ссылки на факт и время изменений; наконец, практику прикреплять документ в виде скачиваемого файла к новостям без какой-либо централизованной системы навигации. Журналистика расследований на основе открытых данных начала набирать обороты в западной профессиональной среде – в частности, стали появляться проекты в духе Propublica.org, которые на этом специализируются и в силу узости специализации добиваются существенно больших успехов, чем крупные издания вроде NY Times. Наконец, он отметил, что, в противоположность Западу, где анализом данных занимаются преимущественно профессионалы, в России это, скорее, удел непрофессионалов: основанная на данных аналитика чаще всего встречается у блогеров.

Недавно на «Полит.ру» была опубликована статья Ивана Бегтина, где он высказывает свою точку зрения на то, что представляет собой журналистика данных. В этом тексте он принципиально разводит понятия журналистики расследований и журналистики данных, в частности на том основании, что конечный продукт разный: в первом случае это текст, в котором данные приводятся в качестве подтверждения, а во втором это, прежде всего, инфографика, основанная на качественной базе данных и предоставляющая пользователю инструмент для производства самостоятельных выводов.

Стоит заметить, что унифицированного и нормативного определения журналистики данных не существует. Есть некоторая интуитивная область, которую принято обозначать таким образом. Вот, что пишет Пол Брэдшоу (Paul Bradshaw), автор одной из вводных статей в «Пособии по журналистике данных»: «Что же отличает журналистику данных от остальной журналистики? Возможно, это новые возможности, которые открываются, когда вы объединяете традиционный «нюх на новости», умение выведать все, что случилось, со способностью рассказать захватывающую и наглядную историю, с настоящим масштабом и разнообразием цифровой информации, которая ныне доступна» (оставляем неизменным перевод РИАН – «Полит.ру»).

Еще одна попытка определения, автор которого, Трой Тибодо (Troy Thibodeaux), написал для университета Poynter несколько вводящих в тему статей. «В конечном счете, - пишет он, - трудно определить, что именно представляет собой журналистика данных, потому что трудно определить, что такое данные. В конце концов, всё, что можно посчитать, можно счесть данными. Всё, что обрабатывает компьютер, – это данные. На каком-то уровне любая сегодняшняя журналистика – это журналистика данных (она ведь вся функционирует с помощью компьютера / “Computer Assisted”). Настоящая журналистика данных сводится к двум предрасположенностям: к склонности искать то, что можно представить в виде параметров, определить количественно и выразить в виде сопоставления в новостном сюжете; и к убежденность в том, что если к этим вещам правильно применить технологию, она может рассказать нам об этой истории нечто такое, что, с одной стороны, стоит знать, а с другой стороны, это нельзя узнать иными способами».

Наконец, в качестве иллюстрации приведем годичной давности вакансию газеты USA Today, которая искала себе в штат специалиста в области журналистики данных (уже нашла), представляя его себе следующим образом: «Команда по данным из USA TODAY предлагает вакансию опытному журналисту, у которого есть навыки добывать истории в базах данных и документах. Команда работает по разнообразным темам, начиная со спорта, заканчивая переписью населения, экономикой, здравоохранением, финансированием кампаний, образованием и развлечениями… Предпочтение отдается тем, у кого есть журналистское образование; минимум три года опыта работы в ежедневных изданиях; отличные навыки в области репортажей и письма… творческое мышление… свободное владение анализом данных (data analysis); опыт в использовании таких инструментов как системы управления базами данных на языке SQL, а также SPSS, R, SAS и/или Excel, для исследования данных, нахождения трендов и их измерения. Приветствуются кандидаты с опытом проведения статистического анализа, такого как регрессионный и корреляционный». Также требуется хороший навык обработки данными: «Вы знаете, как использовать имеющиеся инструменты или язык программирования, чтобы почистить грязные данные, собрать данные с сайте (scrape a website) или получить данные с помощью API. Вы оставили пылиться Microsoft Access ради сырого SQL. Вы знаете язык для создания скриптов (например, Python) или у вас есть сильное желание его выучить. Опыт в области картографии. Вы должны владеть ArcGIS, или QGIS, или какой-нибудь еще картографической платформой и уметь с её помощью находить закономерности. Бонус тем, у кого есть опыт работы с Python, Django, C#, ASP.NET, JavaScript, SQL Server».

Обсудите в соцсетях

Система Orphus

Главные новости

17:11 Суд Кирова отказал прокуратуре в принудительном приводе Навального
17:01 Канцлер ФРГ предложила запретить в Германии ношение паранджи
16:51 Скончался актер из «Игры престолов»
16:38 Фигурантам дела о ДТП в ХМАО предъявлены обвинения
16:24 СМИ сообщили о желании Джоли стать генсеком ООН
16:15 Путин назвал идиотским решение Литвы не пустить судей КС на конференцию
16:02 Прокуратура признала пропажу двух свидетелей по делу Немцова
15:51 В Доме болельщиков «Локомотива» прошли обыски по делу об экстремизме
15:35 Правозащитник «Открытой России» подал в суд на ФСБ из-за командировки на войну с Грузией
15:15 Суд отказал защите в вызове Кадырова на допрос по делу об убийстве Немцова
15:14 Крымский Владимир Путин отказался менять фамилию за новый iPhone
15:03 Компания Comindware автоматизирует работу ООН
14:58 Плазма спасет от «желудочного гриппа»
14:54 По делу о ДТП с детьми в ХМАО задержана директор спортшколы
14:47 В Петербурге школьник скончался после урока физкультуры
14:32 Суд приостановил дело по жалобе Google против ФАС
14:29 Верховный суд Польши отказался выдать Полански властям США
14:17 Суд освободил счета IKEA от ареста
14:14 Белорусские провайдеры начали блокировать Tor
13:49 Песков заверил историков в безопасности новой доктрины информбезопасности
13:34 Геремеев вызван в суд по делу об убийстве Немцова
13:33 Убивший приемных родителей-итальянцев россиянин совершил суицид
13:27 Независимые эксперты сравнили медицину в РФ со странами третьего мира
13:25 Мутко рассказал о новой атаке на спорт РФ
13:18 Леди Гага рассказала о своем заболевании
13:06 Созданы нанопроволоки из ДНК и серебра
13:02 Песков отказался называть встречи Путина с народом предвыборной кампанией
12:46 Соцсети и YouTube объявили о создании реестра террористического контента
12:39 США отозвали предложения по ситуации в Алеппо для России
12:11 Бернар Казнёв назначен новым премьер-министром Франции
12:02 СМИ сообщили имена погибших в Алеппо медсестер
11:59 Глава минфина Украины опроверг необходимость переноса «Евровидения»
11:45 СМИ рассказали о погибших в Сирии медсестрах из России
11:44 Минэнерго подтвердило участие Новака во встрече ОПЕК в Вене
11:38 СМИ узнали о судебном одобрении соглашения Джоли и Питта по опеке над детьми
11:29 Forbes рассказал о богатейших видеоблогерах
11:23 Резидент «Сколково» привлек $2 млн инвестиций на софт для бурения
11:14 СМИ сообщили о приглашении малых партий обсудить в Думе проект госбюджета
11:13 Беглый депутат Рады обвинил Порошенко в коррупции и взяточничестве
10:46 Шерлок Холмс помог исследовать память
10:44 Должник по кредиту угрожал взорвать банк в центре Москвы
10:42 В Домодедово из-за ливневого снега не смогли сесть 20 самолетов
10:20 Сегей Кириенко одобрил перевод Дадина в другую колонию
10:09 СМИ узнали о планах перебросить часть авиакрыла «Адмирала Кузнецова» в Хмеймим
09:59 Путин и Рикман вошли в топ упоминаний в российском Twitter в 2016 году
09:51 Счетная палата выступила против повышения тарифа в системе «Платон»
09:40 ОП попросит разрешить скорой помощи таранить неправильно припаркованные машины
09:32 СКР назвал имена причастных к обстрелам России в 2014 году украинских военных
09:25 Эрдоган ратифицировал соглашение по «Турецкому потоку»
09:22 Стоимость беспошлинных интернет-покупок снизится до 200 евро
Apple Boeing Facebook Google NATO PRO SCIENCE видео ProScience Театр Pussy Riot Twitter аварии на железной дороге авиакатастрофа Австралия автопром Азербайджан Александр Лукашенко Алексей Навальный алкоголь амнистия Анатолий Сердюков Ангела Меркель Антимайдан Армения армия Арсений Яценюк археология астрономия атомная энергия Афганистан Аэрофлот банковский сектор Барак Обама Башар Асад беженцы Белоруссия беспорядки бизнес биология ближневосточный конфликт болельщики «болотное дело» Борис Немцов Бразилия Великая Отечественная война Великобритания Венесуэла Верховная Рада взрыв взятка видеозаписи публичных лекций «Полит.ру» видео «Полит.ру» визовый режим Виктор Янукович «ВКонтакте» ВКС Владимир Жириновский Владимир Путин ВМФ военная авиация Вторая мировая война вузы выборы выборы губернаторов выборы мэра Москвы газовая промышленность «Газпром» генетика Генпрокуратура Германия ГИБДД гомосексуализм госбюджет Госдеп Госдума гражданская авиация Греция Гринпис Грузия гуманитарная помощь гуманитарные и социальные науки Дагестан Дальний Восток День Победы дети Дмитрий Медведев Дмитрий Песков Дмитрий Рогозин доллар Домодедово Донецк драка ДТП Евгения Васильева евро Евромайдан Евросоюз Египет ЕГЭ «Единая Россия» Екатеринбург естественные и точные науки ЖКХ журналисты закон об «иностранных агентах» законотворчество здравоохранение в России землетрясение «Зенит» Израиль Индия Индонезия инновации Интервью ученых интернет инфляция Ирак Ирак после войны Иран Иркутская область ислам «Исламское государство» Испания история История человечества Италия Йемен Казань Казахстан Канада Киев кино Китай Климат Земли, атмосферные явления КНДР Книга. Знание кораблекрушение коррупция космос КПРФ кража Краснодарский край кредиты Кремль крушение вертолета Крым крымский кризис культура Латвия ЛГБТ ЛДПР лесные пожары Ливия Литва литература Луганск Малайзия МВД МВФ медиа медицина междисциплинарные исследования Мексика Мемория метро мигранты МИД России Минздрав Минкульт Минобороны Минобрнауки Минфин Минэкономразвития Минюст мировой экономический кризис «Мистраль» Михаил Саакашвили Михаил Ходорковский МКС Молдавия Мосгорсуд Москва Московская область мошенничество музыка МЧС наводнение налоги нанотехнологии наркотики НАСА наука Наука в современной России «Нафтогаз Украины» некролог Нерусский бунт нефть Нигерия Нидерланды Нобелевская премия Новосибирск Новые технологии, инновации Нью-Йорк «Оборонсервис» образование ОБСЕ общественный транспорт общество ограбление Одесса Олимпийские игры ООН оппозиция опросы оружие отставки-назначения Пакистан Палестинская автономия пенсионная реформа Пентагон Петр Порошенко погранвойска пожар полиция Польша правительство Право «Правый сектор» преступления полицейских преступность происшествия публичные лекции Рамзан Кадыров РАН Революция в Киргизии рейтинги религия Реформа армии РЖД Роскомнадзор Роскосмос Роспотребнадзор Россельхознадзор Российская академия наук Россия Ростовская область РПЦ рубль русские националисты Санкт-Петербург санкции Саудовская Аравия Сбербанк связь связь и телекоммуникации Севастополь сельское хозяйство сепаратизм Сергей Лавров Сергей Собянин Сергей Шойгу Сирия Сколково Славянск Следственный комитет следствие Совет Федерации социальные сети Социология в России Сочи Сочи 2014 «Спартак» «Справедливая Россия» спутники СССР стихийные бедствия Стихотворения на случай стрельба суды суицид США Таиланд Татарстан театр телевидение теракт терроризм технологии транспорт туризм Турция тюрьмы и колонии убийство Украина Федеральная миграционная служба физика Финляндия ФИФА фондовая биржа Фоторепортаж Франсуа Олланд Франция ФСБ ФСИН ФСКН футбол Хабаровский край хакеры Харьков химическое оружие хоккей Центробанк Цикл бесед "Взрослые люди" Челябинская область Чечня шахты Швейцария Швеция школа шпионаж Эбола Эдвард Сноуден экология экономика экономический кризис экстремизм Южная Корея ЮКОС Юлия Тимошенко ядерное оружие Япония

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.