Выше квартилей
2.51K subscribers
89 photos
1 video
1 file
262 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection

Сейчас часто говорят о необходимости перехода на другие базы данных, помимо Scopus и Web of Science. Какие есть альтернативы? Недавно вышла статья Лутая и Любушко, в которой проведен сравнительный анализ качества метаданных научных публикаций в БД Scopus, Web of Science, CrossRef, Lens, Semantic Scholar и OpenAlex. Речь пойдет про отличия работы механизмов баз данных: почему не все данные в разных базах совпадают, отличается количество авторов и их имена и т.д. Подробнее про источники данных для анализа и ограничения читайте в самой статье.

На протяжении последних десятилетий Scopus и Web of Science считались золотым стандартом качества метаданных. Но с появлением новых открытых инструментов для поиска научных публикаций (Dimensions, Semantic Scholar, Lens, SciLit и OpenAlex) наукометристы могут охватывать гораздо большее количество публикаций.

Особенно важны для аналитики следующие метаданные: информация об авторах исследования и их месте работы, списки пристатейной литературы и цитирующих статей, информация о финансировании исследований.

Из Scopus, Wеb of Science Core Collection и CrossRef были выделены публикации с участием российских авторов, присутствующие во всех 3-х БД. Из полученного списка случайным образом сформировали 4 выборки по 15000 уникальных (по DOI) документов, опубликованных в 2021, 2020, 2019 и 2016-2018 годах.

Приводим некоторые из наблюдений статьи:

1. Отличия в написании имен авторов статьи и их количества в разных БД могут быть вызваны следующими причинами: использование названия команды исследователей вместо индивидуальных имен, включение фамилий авторов на кириллице и латинице, удвоение фамилий, разрыв составных фамилий по дефису, включение расширенного состава исследовательских групп в список авторов, включение аффилиаций в перечень имен.

2. Некоторые издатели чаще других допускают ошибки в оформлении метаданных статей. Для некоторых российских издательств (Consillium Medicum, the Russian Academy of Sciences, Tomsk State University, Ural Federal University) доля ошибок действительно высока. Из зарубежных издательств наибольший уровень различий наблюдался для Oxford University Press (5.0%), American Astronomical Society (3.8%).

3. Благодаря инициативе по открытию списков литературы, издатели начали переводить списки литературы в БД CrossRef в формат открытой лицензии. Однако, на январь 2022 не все крупные издатели перевели в открытый формат списки пристатейной литературы.

4. Суммарное количество источников в списках литературы в БД Scopus – 2213075, CrossRef– 2048947 и Web of Science Core Collection – 2194431. Во всех подгруппах (по году публикации) суммарное количество цитирований в Web of Science Core Collection меньше, чем в других БД. CrossRef опережает Web of Science Core Collection, но уступает Scopus. Количество цитирований в Lens, Semantic Scholar и OpenAlex приблизительно одинаково и больше наблюдаемого для Scopus.

6. Частота упоминаний аффилиаций в CrossRef растет от группы статей 2016-2018 годов к группе статей 2021 года, но пока на исследуемом массиве статей составляет лишь 20%. В Semantic Scholar аффилиации появляются лишь эпизодически.

7. Некоторые поля метаданных (о месте работы авторов, о финансировании, реферат) до сих пор заполнены в недостаточной степени, чтобы представить конкуренцию Scopus и Web of Science Core Collection для решения задач учета и мониторинга.

Из иллюстраций привели в пример информацию о количестве цитирований и попарное сравнение баз данных.

#обзор #инфографика #базыданных
​​OPEN ACCESS DASHBOARD

COKI (Curtin Open Knowledge Initiative) разработали интерактивную панель стран и университетов с открытым доступом. Открытый доступ к результатам исследований — небольшая, но важная часть эффективного открытого института знаний. COKI относят статью к открытому доступу, если она открыта у издателя, открыта у другой платформы или и у издателя, и на других платформах вместе.

Датасет COKI Open Access охватывает 142 страны и 5118 институций, которые имеют как минимум 1000 публикаций. Процесс работы такой:
1. Данные о публикациях берут из нескольких источников: Crossref Metadata (цитаты, название статьи, название журнала), Crossref Funder Registry (спонсор), Crossref Events (соцсети и мероприятия), Microsoft Academic Graph (MAG) (аффилиация, тема), Unpaywall (статус OA), the Research Organization Registry (ROR) (идентификаторы учреждения), Open Citations (дополнительная информация о цитировании).
2. Синтезируют их: группируют публикации по общему признаку и году издания (например, институция + год публикации).
3. Делают расчеты открытого доступа для каждой страны или учреждения.
Данные визуализируются здесь. О том, как это работает и какие у системы ограничения, можно почитать здесь.

Так, для России процент статей с открытым доступом 27% (209 тысяч публикаций). К 2021 году 22% статей с открытым доступом у издателя, 5% — с открытым доступом на других платформах, 14% — с открытым доступом и у издателя, и на других платформах.

Мы сделали срез по организациям РФ с 1000 и более публикаций в 2021 году и упорядочили их по открытому доступу, он составляет от 22 до 58 %. Подробнее на визуализации.

#открытыйдоступ #университеты #инфографика #россия