Индексы раздора

Мы публикуем резюме регулярного вторничного “Открытого семинара” “Полит.ру” и Института национальной модели экономики, созданного для обсуждения позиции нашего экспертного круга и сообщества. Предметом обсуждения на очередном семинаре стал Российский индекс научного цитирования, о котором рассказывали его разработчики. Нужен ли национальный индекс цитирования, когда существуют международные? Насколько он готов к практическому использованию? Какие опасности для научного сообщества могут возникнуть, если индекс цитирования станет основой для оценки деятельности научных работников? Участники обсуждения (кроме собственно "Полит.ру") - Михаил Гельфанд, Борис Штерн, Ирена Артамонова, Олег Мудрак, Елена Блинкина, Евгений Онищенко, Геннадий Еременко, Виктор Глухов, Михаил Арсенин. Модератор семинара - Алексей Куприянов.

Замысел

Решение о создании Российского индекса научного цитирования (РИНЦ) было принято в конце 2005 года, то есть почти три года назад. Работы над проектом ведутся с начала 2006 года. Задача состояла в том, чтобы на основе обработки российских публикаций в российских же научных журналах создать российский индекс цитирования – аналог зарубежных индексов такого рода. Существует целый ряд обстоятельств, которые не позволяют сказать, что зарубежные индексы, такие как Web of Sciense, действительно отражают весь поток научных публикаций российских ученых. Российский индекс должен был восполнить этот пробел.

Авторы в своей работе начинали не с нуля. В конце 1990-х – начале 2000 годов Российский фонд фундаментальных исследований закупал электронные версии Web of Sciense, был аккумулирован большой массив зарубежной периодики в единую библиотеку, на электронный портал. Имелась единая система поиска, не зависящая от того, откуда приходили журналы, какие издательства их выпускали, в каких форматах все это обрабатывалось, - все включалось в единую систему.

На первом этапе работы над данным проектом необходимо было каким-то образом отобрать начальный массив журналов, подлежащих анализу. Поскольку каких-то особых критериев отбора у разработчиков не было, то решили начать работу с журналов, включенных в перечень ВАК. На тот момент их было около тысячи. В течение первого года именно эти журналы и обрабатывались, причем процесс был, в общем, аналогичен тому, что делает Web of Sciense, хотя есть и некоторые отличия. Сканируется, обрабатывается, заносится в базу данных вся информация. Делается библиографическое описание каждой статьи каждого журнала, без всяких пропусков. Списки литературы, имеющиеся в каждой статье, разбираются по полям, делается их привязка к авторам и организациям. На основе этого строится поисковая система. При этом, хотя анализируются журналы только данного года выпуска, ссылки берутся на все предшествующие годы. То есть если в статье журнала 2008 года есть ссылка на статью десятилетней давности, то она тоже будет учтена и привязана к своему автору.

После первого года работ был получен годовой индекс цитирования. Был накоплен опыт, который, кстати, позволил уже на этом этапе работ, выяснить отличия российской ситуации от зарубежной. Во-первых, если на Западе научные журналы сконцентрированы преимущественно в крупных издательствах, выпускающих 100, 200 а то и 1000 разных журналов, то у нас преобладают мелкие и средние издательства, где выходит всего лишь 1-3 журнала. В результате для получения информации для РИНЦа приходится заключать договора с 700 издательствами. Конечно, это очень хлопотно и неудобно, но не меньшей, а даже гораздо большей проблемой является несоблюдение единых правил оформления пристатейных ссылок и форматов. Все это делается по-разному, что крайне осложняет работу. Всего разработчики насчитали 450 разных способов оформления ссылок. Так что по сложности обработки российские журналы в несколько раз превосходят зарубежные.

Вторая проблема (и отличие от ситуации на Западе) состоит в том, что даже сейчас почти половина научных журналов в России не имеет электронной версии, их приходится обрабатывать в печатном виде: выписывать журналы, сканировать их, редактировать и только после этого загружать в базу. Впрочем, число таких журналов довольно быстро сокращается. В начале проекта лишь 150 журналов выходили в электронном виде, сейчас их число выросло до 700, и такой быстрый рост разработчики считают побочным эффектом существования проекта. Издатели хотят, чтобы их журналы попали не только в перечень ВАК, но и в РИНЦ, а издание журнала на электронном носителе и, соответственно, удобство обработки, как им кажется, повышает шансы.

Третье отличие заключается том, что, как ни дико это звучит, у нас существует довольно много журналов, где вообще нет списков пристатейной литературы. И среди них есть входящие в списки ВАКа, хотя вроде бы там установлены правила оформления. С ними работать еще сложнее: приходится находить ссылки вручную. Любопытно, но очень сильно наши и западные журналы различаются по числу ссылок. У нас на статью в среднем приходится 13-15 ссылок, что в несколько раз меньше, чем в западных журналах. Но, между прочим, когда наши авторы публикуются в иностранных журналах, число ссылок сразу удваивается, они осваивают принятые правила игры. А может быть, дело обстоит иначе: эти авторы потому и публикуются на Западе регулярно, что освоили эти правила.

В последующие два года проект развивался уже с учетом начального опыта. Поскольку уже существовал годовой массив цитирования, стало ясно, какие журналы цитируются больше, какие меньше. Соответственно, появилась возможность отбирать журналы более корректно, учитывая цели и задачи проекта. Были построены рейтинги цитирования, на основе которых производился отбор журналов для следующего года работы. При этом выяснилось, что в перечне ВАКа есть существенные пробелы. Некоторые журналы из этого перечня практически не цитировались вообще и, наоборот, некоторые журналы, в перечень не входившие, попали в первую десятку цитирования по своему направлению. Надо сказать, что часть таких лидеров потом были включены в перечень ВАК именно благодаря РИНЦу. Так что в 2007 и 2008 гг. отбор журналов производился в соответствии с учетом их реального цитирования.

Если говорить об отборе, то хорошо известно, что в России издаются научные журналы не только на русском языке, причем иноязычные журналы преимущественно не входят в ваковские списки. Это не мешает этим журналам попадать в РИНЦ, если их достаточно активно цитируют. И не важно, на каком языке издается журнал: на английском, французском, китайском или корейском. Если это российский журнал – он кандидат в базу данных.

По ходу проекта возросло число журналов, включенных в обработку, то есть рос массив обрабатываемых данных. Сейчас их около 1500, и разработчики полагают, что дальнейшего роста их количества не требуется. Если бы все зависело только от них, то они ограничились бы примерно таким количеством. Но они оказались связанными с постановлением президиума ВАК, где определены формальные критерии, согласно которому все журналы, попавшие в перечень, автоматически попадают и в РИНЦ. Это делает количественную границу неопределенной: разработчики полностью зависят от решений ВАК. А число журналов в перечне ВАК постоянно растет, и каким оно станет через несколько лет, неизвестно. Разработчики полагают, что данный формальный критерий отбора усложняет их работу, не делая обработку более качественной. На данный момент (за неполных три года работы) обработано и включено в базу данных примерно 500 тыс. статей: 200 тыс. статей за год в 1500 журналах. А всего в России издается примерно 4,5 тыс. журналов, которые можно отнести к категории научных. Но вообще отбор происходит несколько шире: в список входят не только строго научные журналы, но, например, и инженерные по своему направлению.

Механизм

Существуют нормативные списки российских авторов, в которые сейчас входит 486 тысяч человек. В этот список входят реальные люди, с фамилией, именем, отчеством. То, что имеются не инициалы, а полные имена и отчества, важно, поскольку облегчает привязку ссылки к конкретному человеку. К этому нормативному списку и привязываются те авторы, которые встречаются в библиографических описаниях. Кроме того, существует нормативный список российских организаций, который постоянно уточняется, выверяется, актуализируется. В этом списке более 3 тысяч организаций. Так что привязка идет не только к человеку, но и к организации.

Проблема заключается в том, что не во всех случаях удается сделать эту привязку автоматически, а в ряде случаев это крайне сложно сделать и вручную. Если автоматическая привязка не удается, начинается ручная работа. Иногда анализ проводится по соавторам. Есть, допустим, в одном научном направлении два автора с одинаковыми фамилией, именем и отчеством. Это встречается очень часто при таком гигантском количестве людей. Тогда смотрят, в соавторстве с кем человек уже публиковался. И если уже делалась привязка, то становится ясно, какой именно этот Иванов. Или анализируется более узкая тематика: смотрят, какой Иванов уже писал на близкую тему, что тоже позволяет сделать привязку, хотя ошибки, разумеется, не исключены. Все было бы гораздо проще, если бы работала единая система оформления статей, культура ссылок. К сожалению, во многих журналах об авторах вообще ничего не сообщается, кроме фамилии и инициалов. Понятно, что точность привязки при этом снижается. И это при том, что на формат ссылок существует ГОСТ, и если бы он выполнялся, то пристатейные списки литературы было бы составлять гораздо проще.

Нужен ли собственный индекс?

Как только возникает новый российский проект, сразу появляется вопрос: а не изобретаем ли мы в очередной раз велосипед? Существуют прекрасные международные сети цитирования, куда попадают и работы российских ученых. Если из этой мировой сети выделить только один маленький фрагмент, то о чем он будет говорить? Кто-то уже много лет публикуется преимущественно в зарубежных журналах. Следовательно, его российский индекс цитирования будет очень низким. Означает ли это, что его репутация как российского ученого не должна быть оценена по заслугам? Если это так, то отсюда ведь недалеко и до оргвыводов. Не вызывает сомнений, что для значительного числа наук цитирование «из России – в Россию» - это слишком узкий сегмент всего цитирования российских ученых. Причем неминуемо «теряются» крупные публикации в ведущих мировых журналах, попадающие в международные индексы цитирования.

И, напротив, мы получим данные, включающие то, сколько раз «Вестник тьмутараканского кулинарного техникума» сослался на «Ученые записки Пищевого института города Китежа», хотя по качеству и научному значению эти статьи могут сильно уступать работам того же научного направления, опубликованным, например, в крупном американском журнале. Если локальная сеть российского цитирования так узка, то зачем нужен этот индекс?

Поскольку целью проекта является оценка состояния российской науки, то разработчики тоже не сомневаются: полная, замкнутая сеть лучше, чем ее фрагмент, которым и является РИНЦ. Если бы удалось получать и международные индексы цитирования и вычленять из них все, что касается цитирования российских ученых, это сделало бы систему гораздо более полной. Можно было бы действительно оценить российскую науку. Но это требует огромных затрат, финансирование проекта этого не позволяет. Правда, неполнота касается в основном точных и естественных наук. Тексты, относящиеся к гуманитарным и социальным наукам, в большей мере цитируются именно в России, так что для них использование международных индексов мало что добавит. Другое дело, что здесь (и это также отличает их от более высокоразвитых в нашей стране наук) столь существенное значение имеют научные школы, что цитирование происходит преимущественно именно внутри данной школы, а «перекрестного» цитирования очень мало.

Представление о том, что получение части картины хуже, чем полное отсутствие информации, разработчикам проекта кажется несостоятельным. Любая информация, достаточно полная в заданном формате, уже представляет ценность. Другое дело, что должны быть поняты границы полноты этой информации и те рамки, в которых она релевантна для практического использования. Что касается представления, что национальные индексы цитирования не нужны в принципе, поскольку вполне достаточно международных, то, по их мнению, его отвергает международный опыт. Действительно, допустим, в США национальный индекс не нужен. Но существуют национальные индексы цитирования в других странах: в Японии, в Тайване, в Китае, где их два. Как и Россия, это неанглоязычные страны, где значительная часть внутренних публикаций не попадает в международные индексы цитирования.

Эти соображения инициаторов проекта убеждают не всех. Наряду с безоговорочными сторонниками национального индекса существуют условные сторонники – в случае учета всех необходимых ограничений - и противники, уверенные, что неполная информация иногда вреднее отсутствия информации.

Неполнота данных

Пока база данных индекса цитирования очень короткая - менее трех лет. А потому ее уже можно использовать в библиографических целях, но вряд ли в каких-то иных. Со временем, когда длительность проекта увеличится, данные станут ценными для науковедов, с каждым годом аналитическая ценность массива будет расти.

Но у проекта есть коренной недостаток, который одними экспертами оценивался как существенный, но все же лишь отчасти снижающий ценность проекта, а другими - как неустранимый и потому делающий проект скорее вредным, чем полезным. База данных формируется по годам, но ссылки учитываются ретроспективно, относятся к любому предшествующему периоду. То есть ссылки с начала существования проекта учитываются полностью или почти полностью (не все отечественные журналы анализируются). А вот ссылки предыдущих годов учитываются только частично: они делались и раньше (возможно, более активно). Получается, что часть информации об ученом или научной организации является полной, а часть – только частичной, причем степень полноты в принципе не представляется возможным оценить. В этом смысле вся информация оказывается несколько искаженной, сдвинутой. Если брать конкретного ученого или организацию, то данными базы пользоваться просто нельзя, поскольку непонятно, как оценивать не настоящее, а прошлое, причем не очень глубокое. Как сказал один из критиков проекта, «не бывает базы данных, полной на четверть. Это все равно, что ее нет вообще. В этом смысле мы имеем дело с несуществующим продуктом».

Здесь неопределенность такова, что, обращаясь к данным, трудно или просто невозможно понять, что именно они характеризуют. Для описания степени неопределенности можно воспользоваться таким образом: человек смотрит в замочную скважину и видит не всю комнату, а только 1 квадратный метр. При этом, разумеется, пытается распространить увиденное на всю комнату. Но есть два вида неполноты. Первый, когда заранее заявлено: мы видим только этот участок комнаты, и никакого другого. То есть вы можете узнать индексы цитирования, начиная с 2006 года, и никак не раньше. Второй вид неполноты, когда данный кусок комнаты виден более или менее хорошо, а из остальных участков тоже кое-что попадает в поле зрения, но совершенно случайным образом. И как с этим работать, для чего использовать, какие можно делать выводы - не понятно. Это как раз относится к ссылкам на старые статьи, которые представлены случайным образом, характеризуя авторов только лишь с точки зрения нынешней востребованности тех их старых работ, которые не перекрываются новыми.

Возможный вред

Оппонентов национального индекса больше всего встревожила потенциальная возможность его использования для оценки деятельности ученых. Такую опасность понимают и сами разработчики, поскольку заказчиком проекта является Федеральное агентство по науке и инновациям, запускавшее его во многом именно для того, чтобы оценивать эффективность деятельности научных организаций и отдельных ученых.

Практика показывает, что интерес со стороны Агентства к индексам действительно велик. Оно регулярно обращается к разработчикам с просьбой рассказать о ходе проекта, ознакомить с первыми его результатами. Поскольку ясно, что использование индексов цитирования в качестве «кнута и пряника» при оценке работы тех или иных ученых или научных коллективов было бы несправедливым, разработчики пытаются оттянуть процесс передачи результатов, ссылаясь на его неготовность для практического использования. Но в конце концов это сделать придется, и эффект может быть негативным.

Ученые, публикующиеся в основном в западных журналах и таким образом менее цитируемые в России, не заслуживают никаких санкций. С другой стороны, члены какой-то достаточно сплоченной научной школы, активно цитирующие друг друга, а потому имеющие высокий индекс цитирования, не заслуживают поощрения за сам факт этой сплоченности. Имеет место еще один эффект: если ученый работает в достаточно узкой области, он будет цитироваться меньше, чем его коллега, работающий в более широкой, а занимающийся прорывной, «малолюдной» темой проиграет по сравнению с занимающимся мейнстримом данной науки.

В каждый из перечисленных случаев использование индекса как критерия качества научной работы окажется нерелевантным. Подобное использование РИНЦа может лишь дискредитировать проект.

Несколько фантастический способ избежать этой проблемы - не передавать непосредственные данные в Миннауки, создать дополнительное звено между заказчиком и исполнителем в виде экспертов, которые понимают ограничения при использовании базы данных и способны передавать информацию в Агентство в таком виде, который не создавал проблем для конкретных ученых и научных организаций.

Сферы применения

РИНЦ может быть использован в качестве глобальной библиографической базы данных по российским журнальным публикациям. Ведь тот же Web of Science в 90% случаев используется для того, чтобы найти статью, прочитать аннотацию, пройти по ссылкам на другие статьи, узнать, какие статьи чаще всего цитируют по данной тематике, чтобы не пропустить самых важных. По сути, и РИНЦ – это, прежде всего, подробное навигационное средство. И в этом смысле его ценность не вызывает никаких сомнений.

Для ученых, студентов, аспирантов, которые просто хотят найти какие-то публикации, познакомиться, почитать, связаться с авторами, он предоставит практически не существующие ныне возможности. Плюс к тому – наличие полных текстов в электронном виде. Фактически создается достаточно широкая электронная библиотека научных статей. В основном, конечно, новых, но частично и старых, которые сканируются, вносятся в единый массив. Если бы позволяли средства (а они пока не позволяют), разработчики хотели бы создать электронные версии всех советских научных журналов. В принципе, это реальная задача, поскольку таких журналов было не очень много. То есть мог бы возникнуть некий полный массив журнального представления отечественного научного знания, который помогал бы составить представление о развитии советской, а потом российской науки.

Российские науковеды постоянно испытывают сложности с получением и обработкой информации. Наука не может познать саму себя без большого количества информации.

Для решения самых примитивных задач – выяснения, сколько авторов занималось данной проблемой, на кого они ссылались, - сегодня науковеды вынуждены тратить уйму времени. Более того, даже затратив много сил, сложно быть уверенным, что ты ничего и никого не упустил. В существующем виде массив РИНЦа может помочь лишь в незначительной мере, поскольку слишком мал период времени. А если была бы сделана оцифровка и старых советских журналов, база РИНЦа стала бы бесценной.

Существенное подспорье сможет оказать РИНЦ, выявляя, какие существуют научные школы, как они между собой взаимодействуют, «спорят», налаживают или не налаживают взаимопонимание, в какой степени занимаются самоцитированием. Это крайне сложно выяснить «вручную» (во всяком случае, не обращаясь к академическому фольклору). Когда ученый должен анализировать те же пристатейные ссылки, подготовительная работа занимает у него иногда многие месяцы. Обращение к базе данных сократило бы это время до нескольких часов, если не минут. Науковедческие возможности данных такого рода исключительно велики, появление индексов за длительное время, динамических рядов, позволит отечественному науковедению стать значительно более продуктивным.

Возможно, одним из источников финансирования проекта могли бы стать, таким образом, гранты на наукометрические исследования.

Таким образом, РИНЦ уязвим для критики, но его разработчики и значительная часть внешних экспертов уверены: есть сферы, где эта база данных применяться может (при учете ограничений), а по мере накопления данных, удлинения сроков существования, она будет становиться все более полезной.

Резюме обсуждений “Открытого семинара “Полит.ру”

Данный текст содержит следы полемики, дискуссии, различных реплик, но никакая фраза или тезис в нем не могут быть однозначно соотнесены с кем-то из участников или с мнением редакции, если об этом специально не сказано. Отдельные линии, позиции и оппозиции, возможно, найдут отражение в других жанрах и формах нашей работы.