Эпидемия коронавируса — несомненно трагическое, крайне вредное и неудобное для всех явление, однако она дает нам уникальный шанс узнать много нового о себе самих. Хочется верить, что наступает время прорывов в области социологии и социальной психологии. Одно из интереснейших последствий пандемии — возникновение одной-единственной темы, которую в течение долгого времени освещают практически все медиа на всех языках и континентах без исключения. Мы в Полит.ру видим в этом хорошую возможность для метажурналистского расследования и пытаемся описать медиашторм, рожденный пандемией.
Именно этому посвящен проект «Трансформация картины мира в глобальном онлайн-пространстве под влиянием эпидемии COVID-19», который мы проводим совместно с факультетом коммуникаций, медиа и дизайна НИУ ВШЭ.
Сегодня — продолжение разговора с Иваном Бегтиным. Первую часть читайте по ссылке.
Иван Бегтин — директор АНО «Информационная культура», один из ведущих российских экспертов в области открытых данных (OpenData) и открытого государства (OpenGovernment). Автор общественных проектов ГосЗатраты, Школа открытых данных, Школа информационной культуры, Открытая полиция, Понятный русский язык, Цифровое сохранение, за его работой удобно следить при помощи отдельного блога.
ВОСКРЕСЕНСКИЙ: Давайте вернемся к нынешней ситуации: вместо развитой робо-журналистики у нас пока существует журналистика, к которой все — даже те, кто в этой профессии работает, — относятся довольно пренебрежительно. Но эти медиа формируют поток информации. Можем ли мы проанализировать этот поток методами дата-журналистики, есть ли инструменты, которые позволили бы выделить закономерности в потоке и и выйти на новый уровень осмысления?
БЕГТИН: Конечно, они есть. Но, как я понимаю, вы говорите скорее о событийном потоке?
ВОСКРЕСЕНСКИЙ: Вы начали с того, что не следует смешивать медиашторм и дата-журналистику. Это понятно, но перед нами сейчас стоит конкретная задача: описать развитие инфодемии, вызванной пандемией. Мы начали работать с некоторыми инструментами, у нас появились гипотезы. Но, во-первых, инструменты оказались не такими уж хорошими (или мы не научились ими пользоваться); во-вторых, мы выяснили, что информация, которая идет волной, повторяется и нагнетается, на самом деле имеет ограниченное число первоисточников. Как будто бросили в воду маленькие камушки, а от них огромные круги пошли. Как с этим работать, как найти здесь объективную картину?
БЕГТИН: Найти ее, конечно, всегда сложно, даже при наличии инструментов. Непрерывный мониторинг социальных сетей и медиа — это многомиллиардный рынок с большим количеством игроков как в мире, так и в России. Многие компании в течение нескольких десятилетий занимались тем, что разрабатывали алгоритмы кластеризации новостей, выявления именованных сущностей, и т.п.
Все это — довольно дорогие инструменты, но на них есть большой спрос. Условно говоря — как уловить самое начало инфовойны против какого-нибудь олигарха или его крупного холдинга, когда вместо медиапотока есть только зыбкая рябь по воде? Например, мне как общественному лоббисту нормативных изменений в государстве всегда интересно, какие законы будут приняты. Это можно понять заранее, когда видишь рябь на воде, — как правило, какой-нибудь депутат заявляет: «Ох, у нас обижают детей в цифровом пространстве». Все: морально надо готовиться к тому, что в ближайшее время Администрация президента либо через этого депутата, либо напрямую внесет какой-нибудь закон о защите детей в цифровом пространстве. То есть событие начинает происходить до того, как оно становится видимым. Поэтому запрос на то, чтобы видеть прогнозы и тренды, глобально в мире есть.
ВОСКРЕСЕНСКИЙ: Вы говорите, что используете информацию о трендах в своей лоббистской деятельности. Вы прибегаете к таким инструментам, как «Медиалогия» или «Бренд Аналитикс», или все-таки самостоятельно ведете мониторинг, пользуясь поисковыми навыками и своей командой?
БЕГТИН: Я очень много читаю и делаю свои инструменты, которые собирают поток новостей из нужных мне источников, в основном дайджестами. Но это очень персонифицированные решения. «Медиалогией» и «Бренд Аналитикс» я не пользуюсь, они ориентированы на PR-рынок, потому что там есть клиенты. Запрос на мониторинг «будущих» событий у них тоже есть, но он сложно решаемый. Если бы такие инструменты существовали, они в первую очередь были бы в распоряжении разведывательных агентств.
Есть огромное количество разного рода инсайтов. Вот, например, история, которую уже можно рассказать публично. Американские ученые, связанные военным контрактом, получили поток данных, из которых увидели, как некоторое количество людей сначала собрались на Архангельском ядерном полигоне, а потом разъехались кто на Кубу, кто в Азербайджан, кто в Армению, кто в несколько закрытых городов России. Источником этих важных для разведки данных послужили обычные мобильные приложения типа Тиндера.
Это — не рябь на воде, это — рябь под водой. Это некое еще не описанное в медиа событие. Но есть факты, за которыми аналитик или соответствующим образом сконструированный алгоритм может увидеть происходящее событие.
Разведывательные агентства мониторят огромное количество информации в открытых источников, чтобы знать о событиях и трендах до того, как они возникнут. Агентства умеют предсказывать и прогнозировать события по объему поставок стали, урана, по заключенным сделкам, по вскользь прошедшим новостям о каком-то конкретном человеке или компании, которые находится под наблюдением. Но стоит это очень дорого, миллиарды долларов, и это очень закрытый рынок. Я подозреваю, что в России такие инструменты тоже должны быть. Но даже если бы я знал о них наверняка, я бы сказал, что не знаю. Поэтому я не знаю.
ВОСКРЕСЕНСКИЙ: Круто. Я задам «рыхлый» вопрос. Мы все время говорим о вещах довольно «твердых» — об электоральных циклах, о разведывательных данных, и так далее. Но сейчас, изучая инфодемию, мы надеемся увидеть тренды, которые еще не «затвердели». Например, увеличилась ли в пандемийные месяцы взаимная поддержка или, наоборот, люди стали больше друг друга ненавидеть? Вирус вызвал не только эмоциональную реакцию, но и рациональную: поиск решений в непривычной ситуации, которая содержит как угрозы, так и возможности. Эти тренды, еще не ставшие «твердыми», потом превратятся в политику, в социальное поведение.
БЕГТИН: Тут много нюансов. Например, из-за законодательных ограничений или из-за общественного дискурса в России и в мире о некоторых вещах люди перестали публично говорить даже в социальных сетях. Все, что происходит публично, — уже не реальная жизнь человека. К сожалению, анализируя публичную информацию, очень сложно найти грань между естественными высказываниями и теми, что вызваны разного рода манипуляциями. Я так понимаю, что вы — медиа-люди — безусловно уверены в том, что все поддается манипуляции и что мы живем в сконструированной реальности.
Поэтому, честно говоря, я не знаю до конца ответа на этот «рыхлый» вопрос. Я считаю, что у граждан потихоньку вырабатывается некоторый иммунитет на медиа-влияние. Доверие к СМИ снижается ежегодно, а в России индекс доверия к чему бы то ни было и так всегда был низкий. Но что придет на смену традиционным медиа? Сейчас это — полуанонимные и анонимные телеграм-каналы, но и к ним предъявляются требования хотя бы минимальной достоверности. А все медиа, которые занимаются госпропагандой, настолько портят себе репутацию, что переходят в разряд недостоверных, даже давая качественный контент.
ВОСКРЕСЕНСКИЙ: Это очевидно, да. Но у нас еще есть гипотеза о том, что под влиянием шаблонов, которыми руководствуются редакторы, возникают моно-темы. Например, есть три публикации по поводу фейков, связанных с коронавирусом. И вдруг на их основе возникает огромная волна публикаций, которая длится месяцами. Массовые уважаемые издания ссылаются друг на друга, пережевывают и нагнетают эту моно-тему, и уже трудно понять, с чего все началось. А когда начинаешь это анализировать, оказывается, что истории как таковой на самом деле или нет, или она незначительна.
БЕГТИН: Будем честны: массовое издание не является синонимом уважаемого. Массовые издания занимаются в основном тем, что эксплуатируют основные страхи широкой аудитории — умереть, заболеть, стать нетрудоспособным. В случае с коронавирусом кликабельные заголовки подменили собой реальные новости. Логика действий этих медиа никак не изменилась в связи с пандемией. Просто тема по объективным причинам оказалась протяженной во времени, поэтому вы так явно видите эти все не подтверждаемые пруфлинками тексты. В целом же тут нет ничего нового.
ВОСКРЕСЕНСКИЙ: Как вы считаете, каким образом работа с данными в медиа может повлиять на развитие журналистики с точки зрения возвращения профессии рациональности и человечности? То есть может ли это пойти ей на пользу?
БЕГТИН: Конечно, может. Но массовой аудитории объективная правда или множество достоверных сведений просто не нужны. На это нет потребительского запроса. Можно постить котиков, можно публиковать новости о том, как очередная звезда появилась где-нибудь в купальнике, и так далее; это все — работа со страстями, она не имеет отношения к объективному и рациональному принятию решений. Разумеется, есть издания — как правило, не самые популярные, претендующие на интеллектуальную аудиторию, — которые серьезно занимаются проверкой данных и факт-чеками. Здесь можно привести интересный пример с Дональдом Трампом. Было несколько проектов проверки каждого утверждения Трампа. Несколько медиа снимали его твиты, на каждый твит оперативно давали факт-чек и публиковали либо тоже твитом, либо у себя на сайте. Но Трамп работает на массы, а издания, уличившие его во лжи, — на интеллектуальную аудиторию. И потому количество людей, прочитавших твит Трампа, и количество тех, кто прочитал опровержения, несопоставимо.
Использование данных для перепроверки или для обнародования достоверной информации — сфера расследовательской журналистики. Что касается работы с данными именно как с базами данных, то все зависит от достоверности источника информации. Например, кто-нибудь из наших политиков называет цифры по смертности или рождаемости, а вы смотрите на данные Росстата и говорите: «Это неправда». А почему мы думаем, что данные Росстата — правда? Может быть, данные Росстата — тоже неправда? Или не вся правда.
В этом и состоит главное ограничение российской дата-журналистики — у нас нет достоверных данных или источников информации.
ВОСКРЕСЕНСКИЙ: Попробуем абстрагироваться от ужасной реальности нашего мира, в котором сплошные фейки, и представим себе, что какая-то объективная картина все же есть. Как бы мы могли проследить изменение дискурса или изменение языка в медиа при помощи работы с данными? Есть ли для этого подходящий инструментарий?
БЕГТИН: В вашей формулировке никого, кроме исследователей-ученых, это не заинтересует. Потому что на практике все, конечно, анализируют тексты и содержание медиа, социальных сетей, но с другими целями — либо коммерческими, либо политическими.
Стоят задачи выявление именованных сущностей, то есть упоминание тех или иных объектов, людей, компании, понятий. И в приложении к ним — негатив или позитив формы изложения. Может интересовать возникновение некоторых трендов до того, как они станут актуальны. Выявление событий на ранних стадиях интересует всех, особенно когда это касается катастрофических событий или болезней. Например, специальный сервис Google позволил прогнозировать распространение болезни Зика — это очень актуально. А изменения языка никого, кроме Института русского языка, не интересуют.
ВОСКРЕСЕНСКИЙ: Разве главных редакторов больших изданий не интересует изменение языка с точки зрения того, что можно, что нельзя и что будет в моде через два-три года?
БЕГТИН: Не думаю. Вообще, три года — это довольно странный горизонт планирования для России. В России горизонт планирования — один год, чаще — до ближайшего отпуска, если родился мальчик — то 18 лет.
ВОСКРЕСЕНСКИЙ: Хорошо, трансформация языка — это слишком академично, но изменение дискурса — это же, на самом деле, прямое влияние на политику и формирование общественного договора, и может иметь какие-то важные практические следствия.
БЕГТИН: Вы про общественный договор в России сейчас не шутите? Какие-то такие революционные вещи говорите. Мы от Беларуси отстаем в среднем на пять лет. У нас через пять лет какой будет общественный договор? Путин с автоматом?
ВОСКРЕСЕНСКИЙ: Ладно, давайте еще более практические вопросы. Семантика, контент-анализ, создание семантических ядер, то есть какие конкретные вещи, какие конкретные инструменты, подходы мы могли бы применить для того, чтобы работать с этими массивами сейчас и в ближайшем будущем?
БЕГТИН: Для начала надо все-таки четко определиться с теми задачами, которые хочется решить. Проследить уровень изменений в языке — одна задача. Измерение допустимого — например, что издание может себе позволить, а что нет, — другая задача. Выявление каких-то трендов — третья задача.
ВОСКРЕСЕНСКИЙ: Это задача выявления трендов, с моей точки зрения.
БЕГТИН: Ага. Я бы для начала нашел где-нибудь хотя бы 50 млн долларов, хотя бы одну-две команды, которые этим профессионально занимаются, и попробовал бы с ними договориться и создать соответствующий стартап, если они согласятся.
ВОСКРЕСЕНСКИЙ: Ого!
БЕГТИН: Я повторюсь: то, что вы описываете, — хорошая коммерческая история в правильной реализации. Я понимаю, что у вас интерес сейчас другого рода. Но люди, которые занимаются этим профессионально, получают очень большие деньги. Все команды компьютерных лингвистов, которые способны решать такого уровня задачи, как правило, имеют работу.
Альтернативный путь — академические исследования. Но очень сложно найти технологии и сформировать команду с нуля — нужна хорошая мотивация. Проще всего арендовать лабораторию и заключить партнерство с теми игроками, которые обладают базами данных и технологиями. И вперед! Искать маркеры, ключевые слова, выражения, семантическое ядро, изменения языка, корреляции, кластеры, отслеживать информационные волны. И так далее.
ВОСКРЕСЕНСКИЙ: Мне сейчас пришла на ум такая история: есть ведь инструменты маркетингового анализа — поиски аффинитивности, например, — то, чем занимался Gallup, впоследствии TNS и прочие. Насколько эти инструменты близки, в чем они сходны и различаются?
БЕГТИН: Все эти инструменты — производные одних и тех же продуктов. Большинство научных исследований в мире основаны на анализе Твиттера как самой открытой платформы, в меньшей степени — Фейсбука и Инстаграма (но тоже по причине их доступности). Таких исследований почти нет по китайским и российским платформам — в первую очередь потому, что они более закрытые и менее интересны для исследователей (в мире, а не в России).
Сведения берутся потоком из социальных сетей и делаются разнообразные разрезы. Например, Твиттер. Смотрят количество твитов по хештегам за определенный период на определенной территории, вылавливают аномалии: когда какой-то тег используется значительно чаще, либо его используют люди из разных стран, либо он сильно локализован, либо по нему произошел резкий нероботизированный всплеск.
Механизмы такого анализа существуют. Я видел несколько десятков исследований, в которых ученые пытались строить прогнозы на основе такого мониторинга. Есть механизмы предсказания, которые делает Google, — ранняя реакция на разного рода катастрофы вроде цунами, землетрясений, и т.п.
Но это имеет либо гуманитарную, некоммерческую природу и делается крупными игроками для демонстрации своей социальной значимости, либо очень коммерческую природу. Намного реже — академическую, и та при должном качестве анализа все равно в итоге уходит в коммерческую.
ВОСКРЕСЕНСКИЙ: Правильно ли я понимаю, что этот рынок еще недостаточно развит, чтобы говорить о каких-то конкретных инструментальных вещах?
БЕГТИН: Этот рынок вполне развит, но только на коммерческом уровне. У него есть исследовательская академическая часть — вы можете поискать, например, по ключевым словам «Фейсбук», «Твиттер», «Инстаграм» в Semantic Scholar или Web of Science и найдете большое количество разовых исследований. Как правило, исследователи пользуются базовыми инструментами анализа данных: Jupyter Notebook, Stata, разного рода инструментами обработки данных. А коммерческие сервисы либо стоят очень дорого, либо разработаны по спецзаказу.
Интересующую вас проблему вы описываете очень широко: «Мы хотим выявлять общие тренды». Исследование общей проблемы стоит дорого. Но есть более локальные и сфокусированные решения — разного рода компании, которые занимаются инновациями или разработкой продукции в конкретных отраслях. Когда мы сужаем проблематику, решение находится. Оно по-прежнему стоит больших денег, но становится понятнее, что делать и кто этим занимается. Хороший пример такого подхода мы видим у крупных компаний.
Какое-то время назад «Роснано» очень интересовалось мониторингом всего, что касается спектра технологий, которыми они занимаются. В первую очередь, понятно, в России: вдруг что-нибудь интересное проскочит, тогда надо быстро это забрать, чтобы деньги шли к нам. Поэтому там мониторинг включает не только новости, но и любые перемены в деятельности, в экономике интересующих организаций и людей. Если, например, появляется новый специалист, который ранее был неизвестен, о нем нужно узнавать сразу. Если человек, наоборот, сменил специализацию, занимался нано-частицами и вдруг написал статью по романской филологии — это тоже надо это отслеживать — терять специалистов нельзя. Мониторинг патентов тоже ведется. При этом многие крупные зарубежные холдинги, в отличие от «Роснано» и других российских госкорпораций, играют в это давно. Они инвестируют большие деньги, особенно в тех отраслях, которые находятся под угрозой. Подобным мониторингом всех трендов много лет занимаются компании энергетического сектора: им нужны прогнозы, где и как изменится потребление электроэнергии или закупка электроавтомобилей. Эти прогнозы включаются в проспекты для инвесторов, там расписываются планы от 3 до 15 лет.
Воскресенский: Наш «Росатом» этим тоже вовсю балуется.
БЕГТИН: В России этим занимаются только крупные госкорпорации, и то не все: из тех, кто понимает, зачем это нужно, я знаю только «Росатом» и «Роснано». Какой-нибудь «Роскосмос» уже не попадает в этот список.
ВОСКРЕСЕНСКИЙ: Спасибо вам большое!
В материале использована информация, полученная в в ходе реализации проекта "Трансформация картины мира в глобальном онлайн-пространстве под влиянием эпидемии COVID-19".