Выше квартилей
2.51K subscribers
89 photos
1 video
1 file
260 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
​​Общероссийский день библиотек

Сегодня отмечается Общероссийский день библиотек. В этот день в 1795 году была основана Императорская публичная библиотека (сегодня — Российская национальная библиотека). Объем фонда этой библиотеки с тех пор вырос с 300 тысяч до 40 миллионов экземпляров. Что можно сказать о российских библиотеках сегодня?

По данным Министерства культуры в России на конец 2022 года насчитывалось 40906 библиотек с общим фондом хранения более 800 миллионов документов. Российская государственная библиотека с 48 млн документов занимает 5 место в мире по объему библиотечного фонда, а упоминавшаяся выше Российская национальная библиотека — 7 место.

Специалисты по библиотечному делу работают сегодня с каталогами, базами данных и автоматизированными библиотечно-информационными системами, которые отслеживают приобретение и обращение фондов и периодики. Всего таких систем порядка 16, причем одни из самых популярных (Alma, Aleph, Virtua и др.) принадлежат дочерним подразделениям компании Clarivate, оператору Web of Science. В России, наравне с Virtua, распространены национальные системы ИРБИС, РУСЛАН, а также внутренние разработки некоторых библиотек.

Сами по себе исследования в области библиотечно-информационного дела хотя и не являются ведущим направлением научной работы, все же производятся на базе библиотек и профильных учебных заведений. Исследуются, например, функции библиотек в наукометрии, особенности локальной библиографии, история и направления развития библиотек. На графике приведены наиболее активные организации, публикующие работы в области библиотечно-информационного дела, и количество их статей по этой теме, индексируемых в открытой базе OpenAlex.

#открытыйдоступ #OpenAlex #библиотеки
День русского языка: Пушкин в научных статьях

Сегодня, в День русского языка, в Вышке будут объявлены победители Конкурса лучших русскоязычных научных и научно-популярных работ работников НИУ ВШЭ. В этом году конкурс проводится уже в третий раз, в нем представлено 259 работ по двум номинациям: научной и научно-популярной.

Учреждение Дня русского языка приурочено ко дню рождения великого русского поэта Александра Сергеевича Пушкина, отмечаемого ежегодного 6 июня. Чтобы проследить влияние поэта на исследователей и их работы, мы проанализировали статьи из базы данных OpenAlex, у которых в заголовке присутствует слово «Пушкин». Всего таких статей было 1806. Из аннотаций к ним, переведенным на русский язык, составили облако слов. Самыми часто встречающимися словами были названия его произведений: Евгений Онегин, Борис Годунов, Медный всадник, а также другие русские писатели и поэты, на многих из которых творчество Александра Сергеевича оказало непосредственное влияние, — Анна Ахматова, Борис Пастернак, Владимир Набоков, Иосиф Бродский. Конечно, встречается и профессиональная лексика таких областей, как культурология и филология: культурный код, интертекстуальный анализ, критический прием. Интересно, что среди слов-ассоциаций выделяются также дополненная реальность и итальянское кино.

#вышка #инфографика #открытыйдоступ #OpenAlex #Пушкин
О туризме в наукометрическом разрезе

Пока многие читатели "Выше квартилей" находятся в отпуске или готовятся к нему, мы решили поинтересоваться, как тема отдыха и путешествий освещается в научном мире.

Исследовались статьи базы OpenAlex, для которых указана тема "tourism" в 2018-2023 гг.

Вот некоторые результаты нашего анализа:

• В абсолютных значениях лидером оказались Индонезия и Китай, за ними следуют США и Великобритания.
• В относительных же величинах несмотря на общее небольшое количество публикаций лидируют небольшие курортные страны: Фиджи, Аруба, Багамы, Барбадос. У этих стран более 3% публикаций посвящено сфере туризма и гостеприимства. Более 2% - у Гайаны, Андорры, Маврикия, Французской Полинезии, Мальдив, Черногории, а у Ямайки и Кипра - более 1,5%.
• Нужно отметить, что эти величины тесно связаны с доходами стран от туризма (согласно данным UNWTO).

P.S. Картинка ученого-наукометриста в летнем отпуске сгенерирована Kandinsky 2.2 by Sber AI

#OpenAlex #открытыйдоступ #инфографика
Scientometrio в День эсперанто

Сегодня отмечается День эсперанто. В этот день в 1887 году Людвиг Заменгоф опубликовал учебник по одному из наиболее известных в мире искусственных международных языков, на активное развитие и использование которого возлагал большие надежды (название языка «эсперанто» отсылает к слову «надежда» и использовался самим Заменгофом в качестве псевдонима).

В основе эсперанто — романо-германские корни, есть заимствования из славянских языков, при этом грамматика максимально упрощена. За счет этого эсперанто значительно облегчает изучение других языков.

Сейчас языком эсперанто владеет по разным оценкам от ста тысяч до двух миллионов человек. Все­об­щая ас­со­циа­ция эс­пе­ран­то насчитывает порядка 14 тысяч членов.

С точки зрения наукометрии эсперанто вряд ли можно считать объектом пристального изучения в мире: в базе OpenAlex индексируется всего лишь порядка тысячи статей и около 600 книг. Тем не менее публикации и книги выходят каждый год, и даже несмотря на повышение охвата нельзя не отметить, что со временем число публикаций постепенно увеличивается.

PS: В Scopus на данный момент индексируется 170 публикаций, для которых указан язык эсперанто, однако большинство из них на самом деле написаны на других языках — латышском и испанском. Судя по всему, в ряде случаев алгоритмы Scopus ошибочно определяют эти языки из-за максимального сходства с эсперанто.

#OpenAlex #открытыйдоступ #языки #эсперанто
https://i.ibb.co/BPQQTSd/Untitled.png
​​День программиста: в России и наукометрии

Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.

Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.

Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.

Python:

- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.

- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.

- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.

- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).

- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.

R:

- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.

- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.

- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.

Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).

P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.

#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R
Международный день распространения информации о болезни Альцгеймера

21 сентября во всем мире отмечается Международный день распространения информации о болезни Альцгеймера. Это нейродегенеративное заболевание является наиболее распространенным вариантом деменции (на его долю приходится около 60% случаев). Сейчас в мире насчитывается более 55 млн пациентов с этим диагнозом, и согласно прогнозу ВОЗ это число будет удваиваться каждые 20 лет.

Симптомы болезни Альцгеймера были впервые подробно описаны в 1907 году. С тех пор ведутся активные исследования по поиску возможных механизмов развития болезни, ее профилактики и лечения. Тем не менее ясности в отношении причин развития болезни и способов ее лечения все еще нет, равно как и нет лекарств с доказанной эффективностью.

Общественные затраты на поиск решений по преодолению последствий болезни Альцгеймера и деменции составляют существенную часть расходов систем здравоохранения. На исследовательскую работу в этой сфере выделяются также значительные суммы. Однако именно в случае с болезнью Альцгеймера несоблюдение академической этики стало началом большого скандала, о котором мы сегодня решили напомнить нашим читателям.

В 2006 году в Nature вышла статья, посвященная роли специфического белка Aβ*56 в ходе развития болезни Альцгеймера, за авторством Сильвена Лесне (Sylvain Lesné) и его коллег. Она завоевала популярность и в течение долгого времени оставалась наиболее авторитетной и влиятельной в этой области. Однако в 2022 году нейробиолог Мэтью Шрэг предоставил в NIH отчет, в котором выразил сомнения по поводу достоверности изображений, приводящихся в статье Лесне. Science опубликовал расследование научного журналиста Чарльза Пиллера, посвященное этому исследованию, что привело к настоящей буре в научных кругах. В итоге Nature добавили к статье предупреждение о том, что в настоящий момент проводят собственное расследование, а читателям рекомендуется с осторожностью относиться к содержимому статьи. Заметим, что за год, прошедший с начала скандала, статья так и не была отозвана ни редакцией, ни самими авторами.

Многие научные журналисты писали впоследствии о том, что сфальсифицированные результаты предопределили дальнейшие шаги в области и являлись сдерживающим фактором для проверки других гипотез. Мы решили посмотреть, насколько разветвленной оказалась сеть цитирований в рамках данного подхода. Для этого построили карту цитирований по ключевому слову “amyloid-β protein” в VOSviewer на базе OpenAlex для визуализации взаимосвязей между статьями. Отмеченное исследование (см. sylvain lesné (2006)) действительно оказалось в эпицентре научной дискуссии: в общей сложности статья 2006 года была процитирована более 2500 раз, а совокупно со связанными исследованиями публикационный граф разрастается до 27,5 тысяч наименований.

При этом заметим, что общая гипотеза, протестированная в том числе и в данной статье, всё еще является наиболее конструктивной. Надеемся, что внимательное и добросовестное отношение к проведению экспериментов и публикации результатов исследований поможет специалистам продвинуться в поисках эффективной терапии болезни Альцгеймера в ближайшие годы, особенно с учетом пристального внимания научных журналистов к данной теме.

#обзор #OpenAlex #VOSViewer #болезньальцгеймера
Международный день всеобщего доступа к информации

Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.

Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.

В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.

Вот еще несколько авторских выводов:

• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.

На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.

От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.

P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.

#датасеты #открытыеданные #OpenAlex
Сравнение некрологов, индексируемых в Web of Science и OpenAlex

Продолжая затронутую в предыдущем посте тему, мы решили подробнее посмотреть на биографии и некрологи, посвященные выдающимся исследователям. Подобный жанр относительно редко встречается в научных журналах: например, в статье, посвященной анализу биографических статей в WoS, говорится, что таких публикаций меньше 2% от общего числа индексируемых текстов. В это число также входят статьи, традиционно не относящиеся к жанру биографии (стенограммы лекций, обзорные материалы и т. п.).

В ходе анализа статей в хронологической выборке с 1945 по 2014 годы (всего рассмотренно 190 350 статей) авторы пришли к выводу о наличии определенных тенденций, касающихся гендерного и предметного распределения проанализированных данных.

Так, например, установлено, что 78,0% статей написаны о мужчинах, 15,8% — о женщинах, а в 6,1% случаев (11 689 статей) пол человека, которому посвящалась публикация, не был распознан. Пол автора статьи чаще всего не был связан с полом описываемого ученого: среди авторов и мужчины, и женщины в одинаковой степени писали чаще о мужчинах. Наибольшая доля статей о женщинах относилась к области искусств и гуманитарных наук (почти 24%), социальных наук (более 18%) и междисциплинарных наук (более 17%). Самая низкая доля была в науках о жизни и биомедицине (14%), а также в области технологий и физических наук (обе области — чуть больше 12%).

Несмотря на то, что научные статьи в областях естественных и биомедицинских наук обычно цитируются чаще, чем, например, в социальных науках, наибольшее среднее число цитирований биографических статей было обнаружено именно в области социальных наук.

С 2007 года происходит уменьшение количества биографических статей. Эту тенденцию можно объяснить развитием интернета и переходу от традиционных биографических статей к персональным веб-страницам организаций.

В нашем посте мы хотели бы обратить внимание на самую распространенную подкатегорию биографических статей — некрологи, которые составляют около 61% от общего числа таких статей. При этом более 45% из них были связаны с естественными науками, а гендерное распределение в этой категории примерно такое же, как и в обычных биографических статьях: 77% некрологов посвящены мужчинам, 15% — женщинам.

В OpenAlex в отличие от Web of Science нет отдельного типа публикации «biographical item», однако «biography» присутствует в списке концептов. Мы проанализировали более 100 тысяч публикаций, относящихся к этой категории, и отобрали среди них те, в заголовке которых указаны годы жизни деятеля, которому посвящена публикация. На основании этих данных, а также данных Web of Science по предметным областям журналов, мы построили диаграмму, на которой отображается медианное количество прожитых лет, а также квартильные значения по этому показателю по каждой из 6 областей ОЭСР. Средний возраст по всем областям — 63,9 лет.

#некрологи #webofscience #openalex
Цели устойчивого развития: сравнение исследований по Web of Science и OpenAlex

С тех пор как в 2015 году ООН представила «Цели в области устойчивого развития» (ЦУР) в качестве основной повестки на период до 2030 года, классификация исследовательских работ, содействующих выполнению поставленных целей, стала еще одним широко используемым подходом при анализе научного вклада и результативности. Для того, чтобы отметить вклад исследователей в достижение этих целей, в базах Scopus и WoS были введены специальные классификаторы, указывающие на реализацию какой из 17 целей направлено конкретное исследование. Такая схема позволила ученым оценить текущие объемы исследований в разрезе не только научных областей, но и ЦУР. Однако, можно задаться вопросом, насколько репрезентативны данные классификаторы?

Так, в 2020 году вышло крупное исследование, посвященное оценке разных подходов к определению связи исследований с ЦУР. В нем авторы указывают, что любое подобное исследование должно предполагать несколько этапов подготовки: (а) предварительная интерпретация тем и концепций ЦУР, (б) определение того, что подразумевается под “вкладом” в ЦУР, (в) преобразование концепций в поисковый запрос, который позволит найти публикации, внесшие вклад, и (г) выбор базы данных.

Исследователи отобрали статьи, которые напрямую заявляют о своем вкладе в ЦУР (т.к. оценить косвенный вклад крайне сложно), и сравнили получившиеся результаты с тем, что было реализовано при помощи SciVal компанией Elsevier. В результате они обнаружили большое расхождение полученных данных. Несмотря на то, что их собственный подход выявил примерно схожее с WoS количество статей, тем не менее, найденные разными подходами статьи совпадали только в 25-50% случаев (в отношении разных целей процент совпадения варьировался). Исходя из этих результатов, авторы статьи настаивают на том, что данные WoS, посвященные ЦУР, следует оценивать критически.

При этом 13 сентября команда OpenAlex анонсировала обновление схемы базы данных: среди прочего, были добавлены поля и баллы для обозначения силы связей с целями устойчивого развития; для разметки использовалась модель машинного обучения, основанная на репозитории Aurora Universities Network. Этот репозиторий содержит размеченные поисковые запросы, касающиеся реализации ЦУР. Мы решили воспользоваться этим, чтобы расширить и дополнить анализ приведенного исследования.

С этой целью сделали собственную выборку из OpenAlex. Первоначально были отобраны более 112 тысяч статей, для которых указана тематика (concept) «sustainable development goals», а из них выделены статьи, для которых сила связей с различными целями составляет не менее 0,6. Таких статей оказалось 21 300.

Наибольшее количество статей посвящены следующим целям:

- Цель №2 «ликвидация голода» (4536),
- Цель №8 «достойная работа и экономический рост» (4078),
- Мета-цель №17 «партнерство в интересах устойчивого развития» (3642),
- Цель №9 «индустриализация, инновации и инфраструктура» (2025).

Кроме того, мы выяснили, что 52% статей находятся в открытом доступе, при этом 65% из них имеет статус Gold OA.

Следует отметить, что статьи, отобранные таким образом, все-таки составляют неполный датасет, поскольку концепции присваиваются автоматически на основании заголовка и аннотации статьи. Таким образом, если в этих полях не указывались «цели устойчивого развития» в качестве термина, статья не попадала в нашу выборку.

Результат визуализирован в приведенной диаграмме. Предлагаем читателям сравнить показатели.

#цур #wos #openalex #обзор #журналы #инфографика
​​Цели устойчивого развития: внутренние и международные коллаборации

В продолжение нашего предыдущего поста о ЦУР, сегодня мы затронем тему международного партнерства и коллабораций и с этой целью обратимся к недавнему исследованию, посвященному разработке инструментов по поиску партнерств для выполнения ЦУР.
В статье указывается, что с момента оформления ЦУР большая часть усилий была направлена на выявление и оценку связей между секторами, разработку инструментов и сбор данных о взаимодействии ЦУР для политики и планирования. Но намного меньше внимания уделялось разработке методов и инструментов на основе фактических данных, которые бы ставили своей целью совершенствование подходов по внедрению коллабораций для выполнения ЦУР.
Хотя партнерства для устойчивого развития стали очень популярными и распространенными за последние два десятилетия, исследования показывают, что локальные негосударственные группы (университеты, компании, небольшие неправительственные организации, местные жители и организации на местном уровне) участвуют в реализации ЦУР недостаточно активно, так как такие партнерства являются сложными и дорогостоящими.
Используя инструменты OpenAlex, мы проанализировали распределение числа внутренних и международных коллабораций в публикациях, напрямую связанных с целями устойчивого развития. Результаты представлены на диаграмме.
Подавляющее большинство статей, напрямую касающихся устойчивого развития, — от 72% (Affordable and clean energy) до 83% (Peace, Justice and strong institutions) — пишутся в рамках внутренних коллабораций. Судя по всему международное сотрудничество наиболее характерно для целей, предполагающих активный обмен опытом и напрямую связанных с общемировым благополучием — «недорогостоящая и чистая энергия», «хорошее здоровье», «борьба с изменением климата». Внутренние коллаборации, напротив, предпочтительны в направлениях, тесно связанных с политикой конкретного государства — «мир, правосудие и эффективные институты», «качественное образование», «достойная работа и экономический рост».

#цур #openalex #обзор #инфографика