Полiт.ua Государственная сеть Государственные люди Войти
3 декабря 2016, суббота, 14:43
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

ТЕАТР

РЕГИОНЫ

Языковые следы научного обмана

Markowitz, Hancock/PLOS One

Некоторое время назад в журнале PLOS One вышла работа, авторы которой считают, что нашли способ отличить научные публикации, основанные на реальных данных, от публикаций, в которых используются сфабрикованные данные. По крайней мере, этого удалось добиться для текстов одного конкретного автора.

Проблема невоспроизводимости публикуемых работ страшно актуальна для современной науки, особенно для наук о жизни, где воспроизводить эксперименты зачастую дорого, долго и делать это должно много людей. Карьера ученого очень зависит от количества опубликованных работ и престижности журналов. Многие не могут устоять перед соблазном слегка подправить результаты, опубликовать работу в более престижном журнале и получить более высокооплачиваемую и почетную позицию или грант большего размера. История со STAP-клетками получила широкий резонанс и даже в соответствии с японскими традициями довела до самоубийства человека, который, однако же, ни в чем не был виноват. Эта история наделала много шуму в прессе, но это только верхушка айсберга.

В 2012 году журнал Nature организовал проверку 53 работ, посвященных преклиническим (следующая стадия – испытания на людях-добровольцах) испытаниям лечения рака. 47 из них не воспроизвелись. Да, разумеется, где-то сыграли роль неописанные в статье детали экспериментов, о некоторых могли не догадываться сами экспериментаторы. Но все же объяснить такой потрясающе низкий процент простыми совпадениями невозможно. Где-то авторы просто публиковали результаты наиболее успешных экспериментов из большой серии, а остальные результаты просто выбрасывались в корзину. А где-то дело могло дойти и до фотошопа. Можно вспомнить историю (1, 2) о том, как российский ученый выводил на чистую воду китайских любителей фотошопа, опубликовавших в журнале Cell Research статью о том, что регуляторные РНК из еды попадают в кровоток и могут влиять на метаболизм их съевшего. Статья не была в результате отозвана полностью, но рисунок авторам пришлось заменить.

В недавней статье PLOS One речь идет о статьях всего одного, зато очень плодовитого ученого – голландца Дидерика Стапеля. Его карьера развивалась стремительно, в 40 с небольшим он был основателем научно-исследовательского института в Тилбурге и деканом факультета. Занимался Дидерик Стапель социальной психологией. В последней работе, которую он успел опубликовать до разоблачения, речь шла о том, что грязная и замусоренная окружающая среда провоцирует в людях расистские наклонности. В работе, которая еще только готовилась к публикации, – о том, что люди, которые едят мясо, эгоистичнее вегетарианцев. Возможно, секрет успеха тут кроется в том, что эти результаты, равно как и результаты статьи про регуляторные РНК, соответствуют умонастроениям интеллектуальной прослойки общества. Быть вегетарианцем модно, запретить ГМО и выращивать экологически чистые продукты – это круто, и кто вообще видел тех африканских детей, страдающих от дефицита витамина А без золотого риса? Удобно думать, что расизм происходит из мусора на улицах, а не из более глубоких социальных проблем.

В работе в PLOS One предпринята попытка на основе анализа текста статей сделать выводы о том, какие из них основываются на реальных результатах, а какие на сфабрикованных. Такие попытки предпринимаются не впервые. Например, методами компьютерной лингвистики пытались вычислять людей, привирающих о себе на сайтах знакомств, или отличать реальные отзывы об отелях от поддельных. Разумеется, подобные методы хотят использовать и при расследовании преступлений.

Среди 49 статей, опубликованных Стапелем в качестве первого автора, насчитывается 25 основанных на реальных данных и 24 – на хотя бы частично сфабрикованных. В каждой из групп – чуть меньше 200 тысяч слов. Авторы проанализировали несколько групп слов. Слова, характеризующие актуальность и значимость работы, слова, характеризующие степень уверенности авторов, слова, описывающие методологию и т.п. Отдельно были проанализированы слова, связанные с качественными и количественными оценками, а также сравнениями (сильно, очень, значительнее и т.п.), употребление отрицательных частиц, слов, указывающих на сомнения и вероятностный характер событий. Кроме того, авторы ожидали от сфабрикованных работ меньшей подробности описаний и более простых предложений.

Оказалось, что в поддельных статьях Стапеля гораздо больше научных терминов, но описание не становится от этого более развернутым – число прилагательных наоборот падает. Вероятно, сокращение числа прилагательных связано с тем, что у ученого не было никаких личных воспоминаний о проведенных экспериментах, а данные он просто сочинял. В сфабрикованных статьях было на треть больше слов типа «сильно», «чрезвычайно» и прочих превосходных степеней. Это совпадает с исследованиями отзывов об отелях: в этом случае для фальшивых отзывов также было характерно изобилие превосходных степеней.

Другие стандартные показатели вранья в устной речи, по-видимому, оказались неприменимы к научным текстам, обладающим сложившейся стилистикой и многократно редактируемым. Однако имевшихся вполне хватило для того, чтобы обучить компьютер отличать настоящие статьи от фальшивых. Для проверки этого компьютер изучал статистические закономерности всех статей кроме одной, а затем выносил суждение об оставшейся. Компьютер вынес верное суждение о трех четвертях статей.

Кроме стилистики текста авторы проанализировали число соавторов. Оказалось, что у статей, основанных на сфабрикованных результатах число авторов меньше.

Получается, что методы компьютерной лингвистики неплохо позволяют отличать настоящие статьи от поддельных, если они написаны одним автором. Все-таки такое случается редко, чтобы у знаменитого ученого половина статей оказалась основанной на поддельных результатах, и все это выяснилось. В реальности хорошо бы научить компьютер подозревать художественный вымысел в статьях неизвестных людей, которые зачастую еще и пишут на неродном языке. Хорошо бы, это удалось.

Обсудите в соцсетях

Система Orphus
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Facebook Google GPS IBM iPhone PRO SCIENCE видео ProScience Театр Wi-Fi альтернативная энергетика «Ангара» античность археология архитектура астероиды астрофизика Байконур бактерии библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса визуальная антропология вирусы Вольное историческое общество Вселенная вулканология Выбор редакции гаджеты генетика география геология глобальное потепление грибы грипп демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение зоопарк Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии коронавирус космос криминалистика культура культурная антропология лазер Латинская Америка лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. открытия палеолит палеонтология память педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории происхождение человека Протон-М психология психофизиология птицы ракета растения РБК РВК регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент русский язык рыбы Сингапур смертность Солнце сон социология спутники старообрядцы стартапы статистика технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология фольклор химия христианство Центр им.Хруничева школа эволюция эволюция человека экология эпидемии этнические конфликты этология ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129343, Москва, проезд Серебрякова, д.2, корп.1, 9 этаж.
Телефоны: +7 495 980 1893, +7 495 980 1894.
Стоимость услуг Полит.ру
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.