Выше квартилей
2.49K subscribers
89 photos
1 video
1 file
254 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
День русского языка: Пушкин в научных статьях

Сегодня, в День русского языка, в Вышке будут объявлены победители Конкурса лучших русскоязычных научных и научно-популярных работ работников НИУ ВШЭ. В этом году конкурс проводится уже в третий раз, в нем представлено 259 работ по двум номинациям: научной и научно-популярной.

Учреждение Дня русского языка приурочено ко дню рождения великого русского поэта Александра Сергеевича Пушкина, отмечаемого ежегодного 6 июня. Чтобы проследить влияние поэта на исследователей и их работы, мы проанализировали статьи из базы данных OpenAlex, у которых в заголовке присутствует слово «Пушкин». Всего таких статей было 1806. Из аннотаций к ним, переведенным на русский язык, составили облако слов. Самыми часто встречающимися словами были названия его произведений: Евгений Онегин, Борис Годунов, Медный всадник, а также другие русские писатели и поэты, на многих из которых творчество Александра Сергеевича оказало непосредственное влияние, — Анна Ахматова, Борис Пастернак, Владимир Набоков, Иосиф Бродский. Конечно, встречается и профессиональная лексика таких областей, как культурология и филология: культурный код, интертекстуальный анализ, критический прием. Интересно, что среди слов-ассоциаций выделяются также дополненная реальность и итальянское кино.

#вышка #инфографика #открытыйдоступ #OpenAlex #Пушкин
О туризме в наукометрическом разрезе

Пока многие читатели "Выше квартилей" находятся в отпуске или готовятся к нему, мы решили поинтересоваться, как тема отдыха и путешествий освещается в научном мире.

Исследовались статьи базы OpenAlex, для которых указана тема "tourism" в 2018-2023 гг.

Вот некоторые результаты нашего анализа:

• В абсолютных значениях лидером оказались Индонезия и Китай, за ними следуют США и Великобритания.
• В относительных же величинах несмотря на общее небольшое количество публикаций лидируют небольшие курортные страны: Фиджи, Аруба, Багамы, Барбадос. У этих стран более 3% публикаций посвящено сфере туризма и гостеприимства. Более 2% - у Гайаны, Андорры, Маврикия, Французской Полинезии, Мальдив, Черногории, а у Ямайки и Кипра - более 1,5%.
• Нужно отметить, что эти величины тесно связаны с доходами стран от туризма (согласно данным UNWTO).

P.S. Картинка ученого-наукометриста в летнем отпуске сгенерирована Kandinsky 2.2 by Sber AI

#OpenAlex #открытыйдоступ #инфографика
Scientometrio в День эсперанто

Сегодня отмечается День эсперанто. В этот день в 1887 году Людвиг Заменгоф опубликовал учебник по одному из наиболее известных в мире искусственных международных языков, на активное развитие и использование которого возлагал большие надежды (название языка «эсперанто» отсылает к слову «надежда» и использовался самим Заменгофом в качестве псевдонима).

В основе эсперанто — романо-германские корни, есть заимствования из славянских языков, при этом грамматика максимально упрощена. За счет этого эсперанто значительно облегчает изучение других языков.

Сейчас языком эсперанто владеет по разным оценкам от ста тысяч до двух миллионов человек. Все­об­щая ас­со­циа­ция эс­пе­ран­то насчитывает порядка 14 тысяч членов.

С точки зрения наукометрии эсперанто вряд ли можно считать объектом пристального изучения в мире: в базе OpenAlex индексируется всего лишь порядка тысячи статей и около 600 книг. Тем не менее публикации и книги выходят каждый год, и даже несмотря на повышение охвата нельзя не отметить, что со временем число публикаций постепенно увеличивается.

PS: В Scopus на данный момент индексируется 170 публикаций, для которых указан язык эсперанто, однако большинство из них на самом деле написаны на других языках — латышском и испанском. Судя по всему, в ряде случаев алгоритмы Scopus ошибочно определяют эти языки из-за максимального сходства с эсперанто.

#OpenAlex #открытыйдоступ #языки #эсперанто
https://i.ibb.co/BPQQTSd/Untitled.png
​​День программиста: в России и наукометрии

Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.

Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.

Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.

Python:

- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.

- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.

- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.

- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).

- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.

R:

- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.

- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.

- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.

Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).

P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.

#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R
Международный день распространения информации о болезни Альцгеймера

21 сентября во всем мире отмечается Международный день распространения информации о болезни Альцгеймера. Это нейродегенеративное заболевание является наиболее распространенным вариантом деменции (на его долю приходится около 60% случаев). Сейчас в мире насчитывается более 55 млн пациентов с этим диагнозом, и согласно прогнозу ВОЗ это число будет удваиваться каждые 20 лет.

Симптомы болезни Альцгеймера были впервые подробно описаны в 1907 году. С тех пор ведутся активные исследования по поиску возможных механизмов развития болезни, ее профилактики и лечения. Тем не менее ясности в отношении причин развития болезни и способов ее лечения все еще нет, равно как и нет лекарств с доказанной эффективностью.

Общественные затраты на поиск решений по преодолению последствий болезни Альцгеймера и деменции составляют существенную часть расходов систем здравоохранения. На исследовательскую работу в этой сфере выделяются также значительные суммы. Однако именно в случае с болезнью Альцгеймера несоблюдение академической этики стало началом большого скандала, о котором мы сегодня решили напомнить нашим читателям.

В 2006 году в Nature вышла статья, посвященная роли специфического белка Aβ*56 в ходе развития болезни Альцгеймера, за авторством Сильвена Лесне (Sylvain Lesné) и его коллег. Она завоевала популярность и в течение долгого времени оставалась наиболее авторитетной и влиятельной в этой области. Однако в 2022 году нейробиолог Мэтью Шрэг предоставил в NIH отчет, в котором выразил сомнения по поводу достоверности изображений, приводящихся в статье Лесне. Science опубликовал расследование научного журналиста Чарльза Пиллера, посвященное этому исследованию, что привело к настоящей буре в научных кругах. В итоге Nature добавили к статье предупреждение о том, что в настоящий момент проводят собственное расследование, а читателям рекомендуется с осторожностью относиться к содержимому статьи. Заметим, что за год, прошедший с начала скандала, статья так и не была отозвана ни редакцией, ни самими авторами.

Многие научные журналисты писали впоследствии о том, что сфальсифицированные результаты предопределили дальнейшие шаги в области и являлись сдерживающим фактором для проверки других гипотез. Мы решили посмотреть, насколько разветвленной оказалась сеть цитирований в рамках данного подхода. Для этого построили карту цитирований по ключевому слову “amyloid-β protein” в VOSviewer на базе OpenAlex для визуализации взаимосвязей между статьями. Отмеченное исследование (см. sylvain lesné (2006)) действительно оказалось в эпицентре научной дискуссии: в общей сложности статья 2006 года была процитирована более 2500 раз, а совокупно со связанными исследованиями публикационный граф разрастается до 27,5 тысяч наименований.

При этом заметим, что общая гипотеза, протестированная в том числе и в данной статье, всё еще является наиболее конструктивной. Надеемся, что внимательное и добросовестное отношение к проведению экспериментов и публикации результатов исследований поможет специалистам продвинуться в поисках эффективной терапии болезни Альцгеймера в ближайшие годы, особенно с учетом пристального внимания научных журналистов к данной теме.

#обзор #OpenAlex #VOSViewer #болезньальцгеймера
Международный день всеобщего доступа к информации

Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.

Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.

В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.

Вот еще несколько авторских выводов:

• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.

На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.

От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.

P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.

#датасеты #открытыеданные #OpenAlex
Сравнение некрологов, индексируемых в Web of Science и OpenAlex

Продолжая затронутую в предыдущем посте тему, мы решили подробнее посмотреть на биографии и некрологи, посвященные выдающимся исследователям. Подобный жанр относительно редко встречается в научных журналах: например, в статье, посвященной анализу биографических статей в WoS, говорится, что таких публикаций меньше 2% от общего числа индексируемых текстов. В это число также входят статьи, традиционно не относящиеся к жанру биографии (стенограммы лекций, обзорные материалы и т. п.).

В ходе анализа статей в хронологической выборке с 1945 по 2014 годы (всего рассмотренно 190 350 статей) авторы пришли к выводу о наличии определенных тенденций, касающихся гендерного и предметного распределения проанализированных данных.

Так, например, установлено, что 78,0% статей написаны о мужчинах, 15,8% — о женщинах, а в 6,1% случаев (11 689 статей) пол человека, которому посвящалась публикация, не был распознан. Пол автора статьи чаще всего не был связан с полом описываемого ученого: среди авторов и мужчины, и женщины в одинаковой степени писали чаще о мужчинах. Наибольшая доля статей о женщинах относилась к области искусств и гуманитарных наук (почти 24%), социальных наук (более 18%) и междисциплинарных наук (более 17%). Самая низкая доля была в науках о жизни и биомедицине (14%), а также в области технологий и физических наук (обе области — чуть больше 12%).

Несмотря на то, что научные статьи в областях естественных и биомедицинских наук обычно цитируются чаще, чем, например, в социальных науках, наибольшее среднее число цитирований биографических статей было обнаружено именно в области социальных наук.

С 2007 года происходит уменьшение количества биографических статей. Эту тенденцию можно объяснить развитием интернета и переходу от традиционных биографических статей к персональным веб-страницам организаций.

В нашем посте мы хотели бы обратить внимание на самую распространенную подкатегорию биографических статей — некрологи, которые составляют около 61% от общего числа таких статей. При этом более 45% из них были связаны с естественными науками, а гендерное распределение в этой категории примерно такое же, как и в обычных биографических статьях: 77% некрологов посвящены мужчинам, 15% — женщинам.

В OpenAlex в отличие от Web of Science нет отдельного типа публикации «biographical item», однако «biography» присутствует в списке концептов. Мы проанализировали более 100 тысяч публикаций, относящихся к этой категории, и отобрали среди них те, в заголовке которых указаны годы жизни деятеля, которому посвящена публикация. На основании этих данных, а также данных Web of Science по предметным областям журналов, мы построили диаграмму, на которой отображается медианное количество прожитых лет, а также квартильные значения по этому показателю по каждой из 6 областей ОЭСР. Средний возраст по всем областям — 63,9 лет.

#некрологи #webofscience #openalex
Цели устойчивого развития: сравнение исследований по Web of Science и OpenAlex

С тех пор как в 2015 году ООН представила «Цели в области устойчивого развития» (ЦУР) в качестве основной повестки на период до 2030 года, классификация исследовательских работ, содействующих выполнению поставленных целей, стала еще одним широко используемым подходом при анализе научного вклада и результативности. Для того, чтобы отметить вклад исследователей в достижение этих целей, в базах Scopus и WoS были введены специальные классификаторы, указывающие на реализацию какой из 17 целей направлено конкретное исследование. Такая схема позволила ученым оценить текущие объемы исследований в разрезе не только научных областей, но и ЦУР. Однако, можно задаться вопросом, насколько репрезентативны данные классификаторы?

Так, в 2020 году вышло крупное исследование, посвященное оценке разных подходов к определению связи исследований с ЦУР. В нем авторы указывают, что любое подобное исследование должно предполагать несколько этапов подготовки: (а) предварительная интерпретация тем и концепций ЦУР, (б) определение того, что подразумевается под “вкладом” в ЦУР, (в) преобразование концепций в поисковый запрос, который позволит найти публикации, внесшие вклад, и (г) выбор базы данных.

Исследователи отобрали статьи, которые напрямую заявляют о своем вкладе в ЦУР (т.к. оценить косвенный вклад крайне сложно), и сравнили получившиеся результаты с тем, что было реализовано при помощи SciVal компанией Elsevier. В результате они обнаружили большое расхождение полученных данных. Несмотря на то, что их собственный подход выявил примерно схожее с WoS количество статей, тем не менее, найденные разными подходами статьи совпадали только в 25-50% случаев (в отношении разных целей процент совпадения варьировался). Исходя из этих результатов, авторы статьи настаивают на том, что данные WoS, посвященные ЦУР, следует оценивать критически.

При этом 13 сентября команда OpenAlex анонсировала обновление схемы базы данных: среди прочего, были добавлены поля и баллы для обозначения силы связей с целями устойчивого развития; для разметки использовалась модель машинного обучения, основанная на репозитории Aurora Universities Network. Этот репозиторий содержит размеченные поисковые запросы, касающиеся реализации ЦУР. Мы решили воспользоваться этим, чтобы расширить и дополнить анализ приведенного исследования.

С этой целью сделали собственную выборку из OpenAlex. Первоначально были отобраны более 112 тысяч статей, для которых указана тематика (concept) «sustainable development goals», а из них выделены статьи, для которых сила связей с различными целями составляет не менее 0,6. Таких статей оказалось 21 300.

Наибольшее количество статей посвящены следующим целям:

- Цель №2 «ликвидация голода» (4536),
- Цель №8 «достойная работа и экономический рост» (4078),
- Мета-цель №17 «партнерство в интересах устойчивого развития» (3642),
- Цель №9 «индустриализация, инновации и инфраструктура» (2025).

Кроме того, мы выяснили, что 52% статей находятся в открытом доступе, при этом 65% из них имеет статус Gold OA.

Следует отметить, что статьи, отобранные таким образом, все-таки составляют неполный датасет, поскольку концепции присваиваются автоматически на основании заголовка и аннотации статьи. Таким образом, если в этих полях не указывались «цели устойчивого развития» в качестве термина, статья не попадала в нашу выборку.

Результат визуализирован в приведенной диаграмме. Предлагаем читателям сравнить показатели.

#цур #wos #openalex #обзор #журналы #инфографика
​​Цели устойчивого развития: внутренние и международные коллаборации

В продолжение нашего предыдущего поста о ЦУР, сегодня мы затронем тему международного партнерства и коллабораций и с этой целью обратимся к недавнему исследованию, посвященному разработке инструментов по поиску партнерств для выполнения ЦУР.
В статье указывается, что с момента оформления ЦУР большая часть усилий была направлена на выявление и оценку связей между секторами, разработку инструментов и сбор данных о взаимодействии ЦУР для политики и планирования. Но намного меньше внимания уделялось разработке методов и инструментов на основе фактических данных, которые бы ставили своей целью совершенствование подходов по внедрению коллабораций для выполнения ЦУР.
Хотя партнерства для устойчивого развития стали очень популярными и распространенными за последние два десятилетия, исследования показывают, что локальные негосударственные группы (университеты, компании, небольшие неправительственные организации, местные жители и организации на местном уровне) участвуют в реализации ЦУР недостаточно активно, так как такие партнерства являются сложными и дорогостоящими.
Используя инструменты OpenAlex, мы проанализировали распределение числа внутренних и международных коллабораций в публикациях, напрямую связанных с целями устойчивого развития. Результаты представлены на диаграмме.
Подавляющее большинство статей, напрямую касающихся устойчивого развития, — от 72% (Affordable and clean energy) до 83% (Peace, Justice and strong institutions) — пишутся в рамках внутренних коллабораций. Судя по всему международное сотрудничество наиболее характерно для целей, предполагающих активный обмен опытом и напрямую связанных с общемировым благополучием — «недорогостоящая и чистая энергия», «хорошее здоровье», «борьба с изменением климата». Внутренние коллаборации, напротив, предпочтительны в направлениях, тесно связанных с политикой конкретного государства — «мир, правосудие и эффективные институты», «качественное образование», «достойная работа и экономический рост».

#цур #openalex #обзор #инфографика
Les grands embrasements naissent de petites étincelles

На сайте Сорбонны опубликована новость о том, что ведущий университет Франции прекратил свою подписку на Web of Science, а также перестанет использовать другие библиометрические инструменты Clarivate в 2024 году. На выходных эту новость подхватили многие наши коллеги после заметки Ивана Бегтина.

Такое решение обусловлено тенденцией к переходу от проприетарных продуктов к открытым и бесплатным инструментам. Вместо WoS Сорбонна будет использовать OpenAlex, с которым университет собирается заключить партнерское соглашение. В будущем ожидается, что обе стороны возьмут на себя обязательства по сотрудничеству и улучшению качества данных, относящихся к Сорбонне.

Решение Сорбонны подпадает под общий тренд последних лет, связанный с Open Access. Так, в анонсе Сорбонны упоминается Лейденский CWTS Ranking, который также заявляет о приоритетности открытых данных, стремится к полной прозрачности и воспроизводимости своих рейтингов при помощи CrossRef и OpenAlex. Кроме того, Лейденский Университет анонсирует версию «открытого издания» своего рейтинга на базе OpenAlex в 2024 году.

Про OpenAlex в качестве потенциального конкурента библиометрических баз, доступных по подписке, довольно позитивно отзываются и другие университеты:

• Библиотеки HKU, HKUST, Сингапурского университета менеджмента и Университета Калгари публиковали обзорные статьи про OpenAlex с примерами составления API-запросов;
• О преимуществах использования OpenAlex писал университет Хьюстона;
• Лаборатория Утрехтского университета предлагает использовать данные базы в проекте FAIR data;
• Университет Милана официально ссылается на данные OpenAlex в отчетах о научно-исследовательской работе;
• Политехнический университет Каталонии (BarcelonaTech) использует данные базы в рамках мониторинга открытого доступа в каталонских университетах.

Как видно из приведенных заметок, обращение к открытым данных пока ограничивается лишь рекомендациями и инструкциями. Однако уже сейчас очевидно, что инициативу Сорбонны в перспективе могут разделить и другие ведущие университеты. Ведь большие пожары зарождаются из маленьких искр.

#анонсы #новости #открытыйдоступ #университеты #openalex
​​Алгоритмы анализа междисциплинарных исследований 

Количественный анализ междисциплинарных исследований имеет значение при оценке степени интеграции различных гипотез, концепций, теорий и методов из двух и более областей специализированного знания.

Одним из наиболее дискуссионных подходов к изучению междисциплинарности исследований является анализ списка источников публикаций. При таком подходе список источников классифицируется по дисциплинам. Как правило, исследователи используют тематические классификаторы (например, предметные категории Web of Science) или распределяют источники по предметным категориям журналов. Такой подход базируется на информации о сходстве или «когнитивной дистанции», т.е. интеграция идей из двух схожих областей будет оказывать меньшее влияние на степень междисциплинарности, чем интеграция из двух несхожих.

Для измерения междисциплинарности публикаций ученые используют показатель разнообразия Стирлинга и/или его усовершенствованные версии. Согласно его концепции, измерение разнообразия опирается на сумму трёх основных факторов:

• Разнообразие (variety) «Разнообразие — это количество категорий, по которым распределены элементы системы и ответ на вопрос: «Сколько у нас типов вещей?».
• Баланс (balance). «Чем более равномерен баланс, тем больше разнообразие».
• Несоответствие (disparity). «Это ответ на вопрос: «Насколько отличаются друг от друга типы вещей, которые у нас есть?» (Stirling A. A, 2007)

Прежде чем приступать к анализу разнообразия и баланса, мы решили проанализировать соответствие предметных областей Citation Topic (Web of Science) и OA concepts (OpenAlex). Список Citation Topic разделяется на макро-, мезо- и микро-уровень. Микро-уровень, который мы решили рассматривать, насчитывает 2488 областей — это, пожалуй, один из самых подробных классификаторов после списка концепций OpenAlex, который содержит более 65 тысяч предметных областей пяти различных уровней. Однако только для 1871 микро-области (75%) Citation Topic нашлось достаточно точное соответствие из списка концепций OpenAlex.

Напомним, что концепции OpenAlex присваиваются публикациям автоматически на основании названия журнала, заголовка и аннотации статьи. Каждой публикации присваивается несколько концепций, а для каждой концепции указывается балл связи (score) от 0 до 1, который свидетельствует о том, с какой вероятностью статья относится к указанной предметной области.

Для анализа был взят набор из всех российских публикаций за 2023 год. В Web of Science их количество составило 40 126, в OpenAlex — 109 420. Было решено найти пересечение по DOI, и объем итогового массива составил 32 355 публикаций. Для этих публикаций были добавлены Citation Topic Micro и все концепции OA с баллом связи. Оказалось, что для большей части (26 854, или 83%) предметные области по этим классификаторам вообще не пересекаются. Результаты по оставшимся оказались, как и ожидалось, достаточно неплохими: медианное значение балла связи составило 0,65.

Итак, несмотря на то, что 75% Citation Topic Micro имеют одно или даже несколько соответствий среди концепций OpenAlex, на реальном массиве данных всего 17% статей имеют частичное совпадение в классификации.

Таким образом, применение разных типов распределения на предметные категории (Citation topics — алгоритм Лейдена, OpenAlex — Microsoft Academic Graph) будет значительно отражаться на результатах количественной оценки междисциплинарности.

#webofscience #openalex #citationtopic #междисциплинарность
Резкая остановка, плавное падение или незначимый фактор: о цитируемости публикаций в журналах из Scopus Discountinued Sources List

В самом начале 2024 года на RetractionWatch появилась заметка о том, что Scopus планирует провести переоценку журналов издательства MDPI, входящих в базу, в связи с отдельными вопросами к политике издательства. Несмотря на появившийся спустя несколько дней комментарий к оценке одного из флагманов MDPI — журнала “Sustainability” (к которому у Elsevier вопросов не осталось) — не лишним будет напомнить о критериях, влияющих на повторную оценку журналов, входящих в Scopus, учитывая популярность издательства MDPI в том числе у российских коллег:

1. Журнальные показатели вызывают вопросы, так как они не соответствуют ни одному из трех показателей и критериев журналов в той же предметной области (показатели цитирования, самоцитирования и CiteScore).

2. Существует обеспокоенность по поводу стандартов публикации журнала или издателя (в том числе в результате официально полученных жалоб).

3. Журнал демонстрирует необычное поведение после включения в Scopus (значимо увеличивается число публикаций, становится необычной география соавторов и т.д.).

4. По журналу есть замечания от международного консультативного совета по отбору контента (Content Selection and Advisory Board — CSAB).

Наличия одного из перечисленных критериев достаточно для проведения процедуры повторной оценки журнала или издания. Окончательное решение об исключении журнала/издательства из базы Scopus принимается CSAB — если комиссия определит, что журнал больше не соответствует стандартам Scopus, новые статьи из такого журнала прекратят индексацию. Издания, индексация которых прекращена, могут быть повторно рассмотрены на предмет включения в базу только через 5 лет после принятия решения об их исключении.

Вообще же вхождение журнала в официальные листы крупных баз данных рецензируемых изданий и национальные списки повышает привлекательность издания для авторов: как за счет повышения видимости опубликованной работы, так и нередко из-за формальной наукометрической составляющей оценки научной продуктивности. Но означает ли это, что исключение журнала из базы может значимо влиять на видимость опубликованных статей?

Ответить на этот вопрос мы попробовали с помощью открытых данных о цитируемости изданий, попавших в Scopus Discountinued Sources List в 2020 году. Отобрав среди них те журналы, по которым имелись сведения в OpenAlex о цитируемости за несколько лет, мы рассчитали 2 показателя: (1) среднюю цитируемость статей в первые 2 года после выхода; (2) число процитированных в первые 2 года после выхода статей. Визуализация представлена на графике ниже и по ссылке.

Несмотря на объективную сложность обобщения (журналы представлены в разных дисциплинах, а также отличаются с точки зрения покрытия и общего числа публикаций) можно отметить, что на публикации 2020 года нередко приходились локальные экстремумы по числу цитирований, которые в следующие периоды затухали. При этом формальное падение “до нуля” — не единственный, хотя и наиболее распространенный сценарий. По всей видимости некоторые ученые не только продолжают читать, но и цитировать статьи журналов, вызывающих вопросы с точки зрения редакционной политики (здесь оговоримся, что мы не учитывали показатели самоцитирований).

Можно ожидать, что в случае крупных издательств тенденции “затухания” цитирования будут еще более сглаженными, чем на нашем графике. Так что угроза исключения источников (в особенности на фоне развития открытых баз без учета критериев селективности (обратная сторона медали OpenAccess), в том числе SciLit от MDPI) в будущем могут не так значимо влиять на дальнейшее воспроизводство научного знания из источников, вызывающих вопросы у профессионального сообщества.

#discountinued #Scopus #RetractionWatch #OpenAlex #цитирования #визуализация
В этом году мы решили открыть новую рубрику на нашем канале — #дайджест новостей из области наукометрии за последний месяц. Подборка будет выходить в последнюю пятницу каждого месяца.

За последнее время произошло несколько интересных событий, о которых мы хотим напомнить нашим читателям:

1. Одна из главных новостей российского сегмента — проект-победитель Всероссийского гранта Росмолодежи, сервис SciCite, на который обратил внимание в своем телеграм-канале академик РАН А.Р. Хохлов. Сервис предлагает ученым цитировать определенные работы друг друга в обмен на внутреннюю виртуальную валюту. Основная проблема, по мнению некоторых экспертов, заключается в том, что мотивация к социтированию работ «за вознаграждение» искусственна и не всегда связана с действительной научной значимостью цитируемых исследований. Новость о сервисе облетела тематические телеграм-каналы, а сам проект опубликовал пост-опровержение, в котором отмечает, что площадка была создана с целью изменения традиционного подхода к поиску единомышленников и обмену научными знаниями, а виртуальная валюта является элементом геймификации.

2. На Scholarly Kitchen вышел гостевой пост о директиве European Accessibility Act, вступающей в силу с июня 2025 года. Согласно этой директиве, к широкому спектру цифровых продуктов будут предъявляться требования, касающиеся доступности для людей с ограниченными возможностями. С июля 2025 года издательствам, независимо от страны регистрации, может быть запрещено предлагать определенные цифровые продукты и издательские услуги на рынке ЕС, если они не соответствуют требованиям директивы.

3. Совсем недавно Elsevier объявил о старте продаж Scopus AI — внимание на это обратили в том числе коллеги из канала «Научные журналы и базы данных». Этот инструмент призван помочь начинающим (и не только) исследователям ориентироваться в академическом контенте, предоставляя сводную информацию на основе названий и аннотаций к статьям. У Scopus есть еще одна новость (правда, актуальная скорее для коллег, проживающих за пределами России): последние обновления интерфейса позволяют искать авторов по ключевым словам. Это поможет быстро находить исследователей для коллаборации в интересующей сфере или экспертов для консультаций по отдельным вопросам.

4. Команда OpenAlex полностью переработала интерфейс — теперь пользователям доступен поиск и фильтрация по DOI, названию статей, именам авторов, концепциям и ключевым словам, причем фильтр распознает, к какой категории относится поисковый запрос, и предлагает варианты автозаполнения. А еще реализована вполне удобная мобильная версия.

5. На новостном портале Nature опубликован пост о новой инициативе по борьбе с т.н. «бумажными фабриками» — предприятиями, засоряющими научное поле путем выпуска поддельных или некачественных статей и продажи авторских прав. В посте описывается масштаб проблемы, а также предлагается план из пяти пунктов по ее решению. Эту новость также комментирует А.Р. Хохлов.

6. В Science вышла статья о десятилетней борьбе группы независимых ученых с публикацией фальшивых исследований. С 2013 года ими были поданы жалобы на 300 публикаций, обладающих признаками фальсификации данных и других этических нарушений. Проблема заключается в том, что исследователи всё ещё не получили обратную связь по 107 подозрительным статьям, опубликованным в 41 журнале. Упомянутые статьи всё еще находятся в открытом доступе и продолжают цитироваться, несмотря на активные попытки повлиять на их исключение из источников. По мнению инициативной группы, сложившаяся ситуация напрямую связана с нежеланием издательств своевременно и оперативно реагировать на подобные запросы, что является прямым нарушением этических норм научного сообщества.

#дайджест #OpenAlex #Scopus
​​Лейденский рейтинг: открытая версия

21 июня 2023 года вышла очередная версия Лейденского рейтинга университетов, а 15 сентября CWTS (Центр исследования науки и технологий Лейденского университета, выступающий в качестве оператора рейтинга) анонсировал специальный выпуск, основанный на открытых данных OpenAlex. Напомним, что обычная версия Лейденского рейтинга составляется на основе данных Web of Science. Попытка же воспроизведения результатов с использованием полностью открытых данных OpenAlex, несомненно, является серьезным шагом на пути к открытой науке.

Открытая версия Лейденского рейтинга была опубликована на новом портале около 2 часов назад. В качестве источника библиографических данных в методологии теперь указан портал OpenAlex (всего - более 26.6 млн публикаций); других значимых изменений в подходах к расчету индикаторов нет. Ключевое обстоятельство, которое, на наш взгляд, следует отметить — учет Лейденским рейтингом журналов так называемого ядра, критерии которого могут быть не вполне однозначно трактованы (сами формулировки по отбору источников при этом никак не изменились). Так, если при использовании WoS набор рассматриваемых журналов можно было сузить до изданий, относящихся к основным индексам (SCIE, SSCI и AHCI), то при работе с OpenAlex фильтрация источников становится менее прозрачной.

Предлагаем вместе с нами взглянуть на топ рейтинга, а также на позиции российских университетов.
Топ-3 по-прежнему занимают Гарвард, Чжэцзянский университет и Шанхайский университет Цзяо Тун (правда, последние два поменялись местами). Из значимых изменений можно отметить улучшение позиций Мичиганского университета (он поднялся с 15 места на 6), Университета Джонса Хопкинса (с 20 на 10), Сианьского Университет Цзяотун (переместился с 10 места на 20). В целом количество статей у западных вузов в новой версии рейтинга заметно выросло, тогда как для китайских вузов ситуация зачастую обратная — число осталось прежним или незначительно уменьшилось. Это может быть связано с проблемами в записи названий университетов и аффилиаций латиницей и иероглифами — если OpenAlex не хранит соответствующего варианта написания, то статья к университету приписана не будет.

Изменения в открытой версии характерны не только для западных вузов. В российской части рейтинга (всего — 14 организаций) число статей почти везде увеличилось. Где-то цифры оказались весьма внушительными: так, ТГУ поднялся с 11 места по стране на 5 — с 900 статей до 2378, не менее существенное увеличение у УрФУ: чуть более чем в 1.8 раз.

Предлагаем ознакомиться с изменениям в показателях российских университетов на приложенном графике.

#openalex #leidenranking
​​Как корабль назовешь: о географических наименованиях журналов в наукометрическом разрезе

Так как наука по своей природе транснациональна, а ученые при выборе журнала зачастую стремятся продемонстрировать свою работу наиболее широкому кругу читателей, можно ожидать, что многие журналы по умолчанию будут стремиться к позиционированию в качестве международных, если их тематические области позволяют выйти за рамки национальных границ.

Действительно, как показывает недавнее исследование, большинство ученых стремится опубликоваться в журналах, которые не имеют строгой привязки к географической локации, государству или институту, так как подобная аффилиация сильно влияет на представление о тематическом и географическом охвате журнала.

Как отмечают авторы, на данный момент из 23 702 действующих журналов, индексируемых в Scopus и публикующих статьи на английском языке, 3398 (14,7%) названий включают географическое название, причем 60,4% из них — названия стран, затем идут названия континентов (20,9%), городов или университетов (10,2%) и регионов (8,5%). Статистика показывает, что 40 % журналов Scopus, у которых менялось название, отказались от географической привязки. Другое исследование одной из причин перехода к интернациональному имиджу в ходе эволюции журналов называет их включение в индексируемые базы данных. При этом не секрет, что некоторые журналы, нарочито стремящиеся подчеркнуть свою «международную» направленность, избирают такую модель поведения для привлечения внимания большего числа потенциальных авторов-клиентов.

Мы решили посмотреть, как связаны между собой страны, в которых издаются журналы с географическими наименованиями, и страны авторов, цитирующих публикации из этих журналов. В качестве объекта анализа были выбраны страны «Глобального Юга» (наше базовое предположение исходит из того, что журналы с такими географическими наименованиями в меньшей степени знакомы широкому кругу читателей, нежели флагманы американских и европейских ассоциаций), а затем в OpenAlex отобраны журналы, содержащие в своем заглавии наименования этих стран, и одновременно с этим индексирующиеся в Scopus. Таких журналов оказалось 714, причем немалая часть из них публикуется издательствами Германии, Великобритании, Нидерландов и США.

Для анализа цитируемости был выбран период с 2020 по 2023 год. Всего в выбранных журналах было опубликовано более 250 тысяч статей, которые цитировались более 300 тысяч раз. На приведенных sankey-диаграммах показано, как распределены цитаты, полученные в журналах с географическими наименованиями, по страновой принадлежности цитирующих авторов (слева - число цитирующих авторов публикаций в журналах, сгруппированных по географическому признаку, а справа - распределение по числу авторов с аффилиацией из указанной страны). Отметим, что пороговое значение визуализации — не менее 2000 цитирующих авторов в рассматриваемых парах (для Китая — не менее 20 000). Китай вынесен отдельно, поскольку количество авторов, процитировавших статьи, и число цитирующих авторов из этой страны (в контексте только китайских публикаций) аномально велико по сравнению с другими странами: публикации в журналах, в названии которых упоминается «Китай» или «китайский», за 4 года были процитированы более чем 14 млн авторов.

Больше всего журналы «Глобального Юга» (за исключением Китая) цитируют ученые из Индии: более 170 тысяч цитирующих авторов (учитывался каждый автор, указавший индийскую аффилиацию (по данным OpenAlex), в том числе в статьях, написанных в соавторстве). Второе место по числу цитирующих авторов занимает Китай (143 000 цитирующих авторов), на третьем месте - США (74 000 цитирующих авторов). А наибольшее количество цитирующих авторов (после Китая и Индии), имеют нигерийские журналы: более 234 тысяч авторов со всего мира ссылались на журналы с данным географическим указанием.

Предлагаем вам изучить графики (интерактивные версии приведены по ссылкам выше).

#визуализация #OpenAlex #глобальныйюг
​​Обновления в OpenAlex: тематический рубрикатор

12 февраля OpenAlex добавили в базу данных то, чего давно ждали аналитики и исследователи наукометрии: тематический рубрикатор по статьям. Теперь всем публикациям, индексируемым в OpenAlex, присваивается тема (Topic), автоматически определяемая на основе названия публикации, аннотации, названия журнала и данных о цитирующих статьях (подробное описание метода приведено в документации). По похожему алгоритму (за исключением данных о цитирующих статьях, которые в ряде случаев играют ключевую роль при классификации) определялись концепции (Concepts), которые сохранятся для ранее проиндексированных статей, но не будут обновляться и присваиваться новым публикациям.

Кроме большей надежности, темы отличаются еще и совпадением с рубрикатором Scopus (ASJC), за исключением того, что присваиваются они статьям, а не журналам.

Всего на данный момент выделено 4 домена, которые разделяются на 26 областей, те, в свою очередь, на 252 подобласти, и, наконец, на 4516 узких тем (для сравнения, концепций было порядка 65 тысяч).
Мы сделали иерархическую диаграмму распределения количества статей по темам в настоящий момент. С интерактивной версией можно ознакомиться по ссылке.
#openalex #классификатор #визуализация
Представляем свежий дайджест научных событий за последний месяц. Для удобства читателей мы разделили его на рубрики.

Научная политика

- Европейская организация по ядерным исследованиям (ЦЕРН) приняла решение не продлевать соглашение об участии российских научных организаций. Это означает также приостановку совместной работы не только на Большом адронном коллайдере, но и по другим крупным проектам. Срок действия этого соглашения истекает 30 ноября 2024 года.

- Академик А. Р. Хохлов пишет, что деятельность компании Pleiades, которая на протяжении 30 лет обеспечивала перевод статей из российских журналов на английский язык, а также размещение этих статей на платформе издательства Springer, с 2024 года будет осуществляться в РФ через дочернюю сербскую компанию «Pleiades Resources Beograd». Приостановка сотрудничества с Pleiades чревата прекращением индексации журналов международными базами данных.

Базы данных

- Иван Бегтин анонсировал запуск новой платформы для поиска данных — Dateno. Это поисковик, который уже содержит 10 млн наборов данных из 4900 каталогов всего мира. До конца 2024 года разработчики проекта планируют добавить открытый API и увеличить наборы данных до 30 млн.

- Компания OurResearch сообщает о получении гранта в размере $7,5 млн от благотворительного фонда Arcadia на развитие OpenAlex и создание устойчивого и полностью открытого индекса мировой исследовательской экосистемы.

- Коллеги из телеграм-канала “Научные журналы и базы данных” выпустили подробный пост о последнем обновлении Google Scholar для работы с pdf-документами.

Научная этика

- В Scolary Kitchen снова подняли тему использования ИИ в написании научных статей. Озабоченность связана с недавно обнаруженными двумя публикациями Elsevier, в которых содержались такие фразы как: «Конечно, вот возможное введение к вашей теме:…» и «Мне очень жаль, но у меня нет доступа к информации в реальном времени или к данным, касающимся конкретного пациента, поскольку я являюсь языковой моделью».

- В Science вышла статья о Фонде научной честности, который готов оказывать поддержку ученым, отстаивающим чистоту результатов исследований.

- Департамент науки Китая провёл крупную проверку отозванных научных публикаций. В статье-комментарии к событию отмечено, что проведённый аудит подтверждает растущее внимание к ретракции результатов исследований.

- В Times вышли статья и видеообзор на тему разоблачения фальсифицированных исследований рака, опубликованных ведущим ученым Колумбийского университета.

#дайджест #базыданных #новости #открытыйдоступ #OpenAlex #международноесотрудничество #искуственныйинтеллект
​​День космонавтики

Вчера с космодрома «Восточный» успешно стартовала ракета «Ангара-А5», а сегодня в России и многих странах СНГ празднуется День космонавтики: 63 года назад корабль «Восток» с Юрием Гагариным на борту успешно вышел на орбиту и за 108 минут облетел Землю.

С тех пор наука о космосе сильно продвинулась вперед. Немалая часть работ засекречена, но некоторые статьи все-таки публикуются: так, к профилю «Роскосмоса», согласно данным OpenAlex, в настоящее время приписана 581 публикация, включая статьи, книги, главы книг и даже одну диссертацию. При этом часть из них написана в соавторстве с другими космическими агентствами и институтами (на графике иностранные организации выделены голубым цветом; размером показано совокупное число публикаций).

Команда канала «Выше квартилей» поздравляет всех исследователей и сотрудников космической отрасли с Днем космонавтики и от всей души желает подниматься в научной работе не только выше квартилей, но и выше звезд!

#денькосмонавтики #openalex #роскосмос
Представляем свежий дайджест научных событий за последний месяц.

Редакторская политика

- В Nature вышла заметка об исследовании, подтверждающем эффективность внедрения стандартизированных рецензий на статьи. По результатам внедрения таких рецензий в 23 журналах издательства Elsevier редактор журнала Research Integrity and Peer Review делает вывод, что рецензенты, руководствуясь одними и теми же вопросами, чаще дают схожие первоначальные рекомендации относительно необходимости отклонения или принятия поступивших рукописей.

Научная политика

- На Scholarly Kitchen вышел обзор обновленной политики Фонда Билла и Мелинды Гейтс (Bill & Melinda Gates Foundation) в отношении открытого доступа в 2025 году. Вопреки ожиданиям, сложившимся на основании заявлений команды Фонда, политику Фонда затронут лишь некоторые незначительные изменения. Так, например, теперь в открытом доступе обязательно должны быть размещены препринт финансируемого исследования и текст статьи. В 2021 году это требование распространялось только на статьи.

Научная этика

- Лесли Макинтош, основательница Ripeta (компания, занимающаяся вопросами повышения качества и честности исследований), вице-президент Digital Science, предложила ввести новую область наукометрии — судебную наукометрию (Forensic Scientometrics (FoSci), что позволит выделить в отдельную категорию деятельность энтузиастов-расследователей, выступающих за соблюдение принципов академической честности.

- Сервис Turnitin отмечает первую годовщину создания ИИ-детектора письменных работ. За это время сервис обработал 200 миллионов работ, из которых 22 миллиона имеют не менее 20% содержания, написанного при помощи ИИ, а 6 миллионов — не менее 80%. С момента запуска сервис был признан инновационным решением в области образовательных технологий, поддерживающим академическую честность.

Базы данных

- Обновились показатели SJR для источников, входящих в Scopus. По традиции мы рассмотрели изменение позиций российских журналов в одном из постов.

- Вчера OpenAlex провел вебинар по работе с данными базы с привлечением Python. Код с использованием стандартных библиотек, а также видео можно найти по ссылке.

#дайджест #базыданных #новости #OpenAlex #искуственныйинтеллект
​​Аналитика: Независимые исследователи

Помимо анонимных авторов, о которых мы писали в одном из предыдущих постов, существует еще одна нестандартная группа авторов — независимые исследователи. Это ученые, не имеющие или не указавшие в своей работе аффилиации с какой-либо организацией. Такое положение имеет свои плюсы: исследователь может полностью сосредоточиться на своем исследовании, не отвлекаясь на преподавание или административные обязанности. Но одновременно с этим он лишается и преимуществ, которые дает большинство организаций: подписки на библиометрические базы, доступа к лабораторному оборудованию и т.д.

Иногда такие исследователи работают по грантам, полученным в том числе от крупных организаций. Согласно недавнему исследованию Лунда, Шамси и др., четверть независимых авторов (по данным Web of Science) получали (и указывали) финансирование в своей работе. Большинство грантодателей — государственные органы, имеющие отношение к здравоохранению, и фармацевтические компании. Это вполне соответствует предметной разбивке работ: почти 20% посвящены челюстно-лицевой хирургии и стоматологии, а всего в топ-10 по областям присутствует только одна сфера, не относящаяся к медицине — инженерное дело.

Почти половина (45%) независимых исследователей работают в США, далее следуют Германия и Великобритания. Характерно, что азиатских стран несмотря на общую высокую продуктивность в топ-10 нет.

Мы решили провести похожий анализ, основываясь на данных OpenAlex. Изначальный запрос был сформулирован как «работы, для которых raw_affiliation_strings (текстовое указание аффилиации) содержит слово «independent», начиная с 2018 года». Таких оказалось больше 70 тысяч. Затем мы отфильтровали авторов, у которых все-таки указана аффилиация, и оставили только тех, кто указал в соответствующем поле «independent researcher | scientist | consultant | scholar | advisor». В группировке по работам осталось более 22550 публикаций, написанных 16886 учеными — для сравнения, в исследовании по Web of Science число публикаций 3357. Большую часть публикаций составляют статьи (17577).

География исследователей такова: большинство (более 4 тысяч), как и в вышеупомянутой работе, ведут свою деятельность в США, затем идут Великобритания (3380) и Индия (1960). Наиболее продуктивный автор — Генри Гарретт, весьма активно прибегающий к публикации препринтов, у которого сразу 238 работ в качестве независимого исследователя.

Что касается предметных областей — картина довольно сильно отличается от результатов исследования Лунда, Шамси и др. Большая часть публикаций, согласно OpenAlex, относится к сфере социальных наук (почти 12 тысяч), а вот на долю наук о здоровье приходится всего около 6700 работ (на приведенном ниже графике отражено подробное распределение публикаций по областям).

#аналитика #независимыеисследователи #OpenAlex