Исследователям из Корнельского университета в США удалось обнаружить и проанализировать жизненный цикл новостей – всплеск и падение их популярности.
Профессор Джон Клейнберг (Jon Kleinberg), постдок Юре Лесковец (Jure Leskovec) и аспирант Ларс Бэкстром (Lars Backstrom) в течение 3 месяцев отслеживали работу 1,6 млн. новостных сайтов, включая 20 тыс. главных медиасайтов и большой массив блогов, освещавших работу президентских выборов в США 2008 г. Им удалось осуществить одно из самых масштабных исследований онлайновых новостей, которые проводились в этой области.
Ученые выявили постоянный жизненный ритм новостей – как они «зажигаются» и «гаснут» в течение нескольких дней, с похожим на сердечный ритм взаимообменом между новостными сайтами и блогами. Анализ компьютерщиков из Корнельского университета показал, что на новостных сайтах за медленным восхождением новости в рейтинге популярности следует ее быстрая «смерть», а в блогосфере новость приобретает популярность гораздо быстрее, а затем дольше остается живой, пока не угаснут обсуждения за и против. Но конец один – любую новость рано и поздно сменяет какая-то другая.
«Движение новости в Интернете дает возможности квантифицировать то, что иначе было бы трудно измерить – темпоральную динамику новостей», – сказал Клейнберг. – «Мы хотим понять всю экосистему новостей, а изучение онлайновых новостей дает достаточно аккуратное отражение всей этой экосистемы. Это первый шаг к созданию инструментов, которые позволят людям понять, откуда приходят новости и как они набирают популярность путем взаимовлияния разных источников».
Исследователи также полагают, что их работа позволяет ответить на ранее остававшийся открытым вопрос: является ли жизненный цикл новости лишь способом описания того, что происходит в СМИ или же это реальный феномен, которой можно измерить? Ученые склоняются ко второму варианту ответа, предлагая математическую модель происходящего.
Данное исследование было представлено на заседании Ассоциации по вычислительной технике на конференции по Knowledge Discovery and Data Mining, проходившей с 28 июня по 1 июля 2009 г. в Париже.
Идеальным, говорит Клейнберг, было бы проследить развитие мемов в киберпространстве, однако решение проблемы, о чем же рассказывает статья, все еще остается главной трудностью для компьютерщиков. Исследователи обошли это препятствие путем отслеживания цитат, который появлялись в новостях. По их наблюдениям, в то время как вся новость может подаваться разными авторами очень разными путями, цитаты остаются практически неизменными.
В то же время, цитаты тоже могут слегка меняться или «мутировать» при прохождении от одной статьи к другой, поэтому исследователи разработали алгоритм, позволивший им идентифицировать и сгруппировать слегка отличающиеся, но похожие фразы. Созданная программа обнаруживала короткие фразы, которые были частью длинных фраз, использовав эти короткие фразы для определения «фразовых кластеров».
Затем исследователи отслеживали объем сообщений в каждом фразовом кластере за определенное время. Согласно их выводам в августе и сентябре 2008 г. наблюдалось взлет и падение новостей с ритмом жизни приблизительно в одну неделю. Главные пики популярности новостей соответствовали съездам демократов и республиканцев, дискуссии о «губной помаде на свинье» (Б. Обама заявил, что «вы можете покрасить губы свинье, но она все равно останется свиньей» и республиканцы возмутились), растущей обеспокоенности по поводу финансового кризиса и дискуссии о плане спасения экономики США (bailout plan).
Медленное восхождение новости на медиасайтах исследователи объясняют копированием, подражанием друг другу – когда все больше сайтов публикуют ту или иную новость, другие сайты также стремятся ее опубликовать. Жизнь одной новости ограничена появлением новых новостей. Исследователи говорят, что математическая модель, основанная на взаимодействии переменных «копирование» и «новизна», предсказывает реальную картину достаточно хорошо. В то же время построение модели только на переменной «копирование» или только «новизна» не дает такого хорошего приближения.
Наблюдение за тем, как циркулируют новости между блогами и новостными сайтами, показало резкие взлеты и падения, которые исследователи описали как «сердечный ритм». Когда новость впервые появляется, наблюдается небольшой рост ее активности в обеих сферах; с возрастанием активности на новостных сайтах, процент блогов, рассказывающих о новости, становится малым; однако вскоре активность блогов возрастает и пик интереса к определенной новости следует в среднем через 2,5 часа после пика на новостных сайтах. Только 3.5% новостей, отслеживаемых исследователями, впервые появились в блогах, а затем перешли на новостные сайты.
Ученые говорят, что математическая модель требует совершенствования. Они предложили провести дальнейший анализ того, как новости перемещаются между сайтами с различной политической ориентацией. «Будет полезно понять, какую роль различные участники играют в этом процессе, т.к. их коллективное поведение прямо ведет к тому, как мы воспринимаем новости и их последствия», – говорят они.
Исследование проводилось при финансовой поддержке Фонда МакАртуров, также были получены гранты от Google, Yahoo и национального фонда поддержки науки США (the National Science Foundation).
На рисунке: 50 топовых новостей с самым большим числом ссылок за период с 1 августа по 31 октября 2008 г. Пики представляют собой новости, получивших наибольшую популярность за это время. Интерактивная версия рисунка доступна на сайте http://memetracker.org. Увеличенную версию рисунка см. здесь.
Источник: статья Bill Steele и рисунок на сайте http://www.news.cornell.edu/stories/July09/NewsTracking.html