Выше квартилей
2.49K subscribers
89 photos
1 video
1 file
254 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
​​Новое в руководстве: раздел про OpenAlex

В онлайн-руководство добавлен раздел про OpenAlex — новую, свободную и открытую базу метаданных, за пару лет ставшую очень популярной. Это получилось за счет опоры на данные закрытого в прошлом году Microsoft Academic, творчески пополняемые и интегрируемые из десятка других источников. OpenAlex уже используется и в академической наукометрии, и как основа для новых научных поисковиков и других сервисов (Litmaps, Inciteful и т.д.).

Для России после отключения Web of Science и Scopus эта база наряду с Semantic Scholar, Lens и Dimensions стала особенно актуальна. Ее отличают бесплатность и максимально свободная лицензия, хороший и подробно документированный API. При этом по ряду аспектов она пока существенно отстает от классических баз, на что мы обращаем особое внимание.

#руководство #OpenAlex #открытыйдоступ
​​«Ночь музеев» в фокусе наукометрии

Ни для кого не секрет, что музеи и другие культурные объекты принимают активное участие в научно-исследовательской деятельности. На их базе изучаются археологические находки, памятники природы, предметы искусства, особенности геологии, культуры и истории различных регионов. В преддверии «Ночи музеев» мы подготовили информацию о научной активности пятнадцати российских музеев, галерей и национальных парков, профили которых есть в OpenAlex.

🏺Всего в базе OpenAlex было найдено 1057 статей, принадлежащих 568 авторам. Выделили 144 тематики различных уровней, по каждой из которых было не менее 3 публикаций.
🏺Больше всего в базе публикаций с аффилиацией Музея антропологии и этнографии (Кунсткамеры) в Санкт-Петербурге (702). За ним следует Государственный Эрмитаж (656) и Геологический музей им. Вернадского (340).
🏺Топ-3 тематики по числу публикаций для музеев — археология, геология и география. На четвертом месте искусство, далее радиоуглеродное датирование и другие узкопроофильные темы.
🏺Для национальных парков наиболее популярные темы — экология, экосистемы и изменение климата.

На диаграмме представлены наиболее популярные тематики и количество статей в них по каждой из рассмотренных организаций. Повышение качества метаданных в открытых базах данных позволит в будущем детальнее смотреть на профили музеев в разрезе наукометрии.

#открытыйдоступ #OpenAlex #музеи
​​Общероссийский день библиотек

Сегодня отмечается Общероссийский день библиотек. В этот день в 1795 году была основана Императорская публичная библиотека (сегодня — Российская национальная библиотека). Объем фонда этой библиотеки с тех пор вырос с 300 тысяч до 40 миллионов экземпляров. Что можно сказать о российских библиотеках сегодня?

По данным Министерства культуры в России на конец 2022 года насчитывалось 40906 библиотек с общим фондом хранения более 800 миллионов документов. Российская государственная библиотека с 48 млн документов занимает 5 место в мире по объему библиотечного фонда, а упоминавшаяся выше Российская национальная библиотека — 7 место.

Специалисты по библиотечному делу работают сегодня с каталогами, базами данных и автоматизированными библиотечно-информационными системами, которые отслеживают приобретение и обращение фондов и периодики. Всего таких систем порядка 16, причем одни из самых популярных (Alma, Aleph, Virtua и др.) принадлежат дочерним подразделениям компании Clarivate, оператору Web of Science. В России, наравне с Virtua, распространены национальные системы ИРБИС, РУСЛАН, а также внутренние разработки некоторых библиотек.

Сами по себе исследования в области библиотечно-информационного дела хотя и не являются ведущим направлением научной работы, все же производятся на базе библиотек и профильных учебных заведений. Исследуются, например, функции библиотек в наукометрии, особенности локальной библиографии, история и направления развития библиотек. На графике приведены наиболее активные организации, публикующие работы в области библиотечно-информационного дела, и количество их статей по этой теме, индексируемых в открытой базе OpenAlex.

#открытыйдоступ #OpenAlex #библиотеки
День русского языка: Пушкин в научных статьях

Сегодня, в День русского языка, в Вышке будут объявлены победители Конкурса лучших русскоязычных научных и научно-популярных работ работников НИУ ВШЭ. В этом году конкурс проводится уже в третий раз, в нем представлено 259 работ по двум номинациям: научной и научно-популярной.

Учреждение Дня русского языка приурочено ко дню рождения великого русского поэта Александра Сергеевича Пушкина, отмечаемого ежегодного 6 июня. Чтобы проследить влияние поэта на исследователей и их работы, мы проанализировали статьи из базы данных OpenAlex, у которых в заголовке присутствует слово «Пушкин». Всего таких статей было 1806. Из аннотаций к ним, переведенным на русский язык, составили облако слов. Самыми часто встречающимися словами были названия его произведений: Евгений Онегин, Борис Годунов, Медный всадник, а также другие русские писатели и поэты, на многих из которых творчество Александра Сергеевича оказало непосредственное влияние, — Анна Ахматова, Борис Пастернак, Владимир Набоков, Иосиф Бродский. Конечно, встречается и профессиональная лексика таких областей, как культурология и филология: культурный код, интертекстуальный анализ, критический прием. Интересно, что среди слов-ассоциаций выделяются также дополненная реальность и итальянское кино.

#вышка #инфографика #открытыйдоступ #OpenAlex #Пушкин
О туризме в наукометрическом разрезе

Пока многие читатели "Выше квартилей" находятся в отпуске или готовятся к нему, мы решили поинтересоваться, как тема отдыха и путешествий освещается в научном мире.

Исследовались статьи базы OpenAlex, для которых указана тема "tourism" в 2018-2023 гг.

Вот некоторые результаты нашего анализа:

• В абсолютных значениях лидером оказались Индонезия и Китай, за ними следуют США и Великобритания.
• В относительных же величинах несмотря на общее небольшое количество публикаций лидируют небольшие курортные страны: Фиджи, Аруба, Багамы, Барбадос. У этих стран более 3% публикаций посвящено сфере туризма и гостеприимства. Более 2% - у Гайаны, Андорры, Маврикия, Французской Полинезии, Мальдив, Черногории, а у Ямайки и Кипра - более 1,5%.
• Нужно отметить, что эти величины тесно связаны с доходами стран от туризма (согласно данным UNWTO).

P.S. Картинка ученого-наукометриста в летнем отпуске сгенерирована Kandinsky 2.2 by Sber AI

#OpenAlex #открытыйдоступ #инфографика
Scientometrio в День эсперанто

Сегодня отмечается День эсперанто. В этот день в 1887 году Людвиг Заменгоф опубликовал учебник по одному из наиболее известных в мире искусственных международных языков, на активное развитие и использование которого возлагал большие надежды (название языка «эсперанто» отсылает к слову «надежда» и использовался самим Заменгофом в качестве псевдонима).

В основе эсперанто — романо-германские корни, есть заимствования из славянских языков, при этом грамматика максимально упрощена. За счет этого эсперанто значительно облегчает изучение других языков.

Сейчас языком эсперанто владеет по разным оценкам от ста тысяч до двух миллионов человек. Все­об­щая ас­со­циа­ция эс­пе­ран­то насчитывает порядка 14 тысяч членов.

С точки зрения наукометрии эсперанто вряд ли можно считать объектом пристального изучения в мире: в базе OpenAlex индексируется всего лишь порядка тысячи статей и около 600 книг. Тем не менее публикации и книги выходят каждый год, и даже несмотря на повышение охвата нельзя не отметить, что со временем число публикаций постепенно увеличивается.

PS: В Scopus на данный момент индексируется 170 публикаций, для которых указан язык эсперанто, однако большинство из них на самом деле написаны на других языках — латышском и испанском. Судя по всему, в ряде случаев алгоритмы Scopus ошибочно определяют эти языки из-за максимального сходства с эсперанто.

#OpenAlex #открытыйдоступ #языки #эсперанто
https://i.ibb.co/BPQQTSd/Untitled.png
​​День программиста: в России и наукометрии

Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.

Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.

Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.

Python:

- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.

- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.

- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.

- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).

- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.

R:

- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.

- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.

- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.

Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).

P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.

#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R
Международный день распространения информации о болезни Альцгеймера

21 сентября во всем мире отмечается Международный день распространения информации о болезни Альцгеймера. Это нейродегенеративное заболевание является наиболее распространенным вариантом деменции (на его долю приходится около 60% случаев). Сейчас в мире насчитывается более 55 млн пациентов с этим диагнозом, и согласно прогнозу ВОЗ это число будет удваиваться каждые 20 лет.

Симптомы болезни Альцгеймера были впервые подробно описаны в 1907 году. С тех пор ведутся активные исследования по поиску возможных механизмов развития болезни, ее профилактики и лечения. Тем не менее ясности в отношении причин развития болезни и способов ее лечения все еще нет, равно как и нет лекарств с доказанной эффективностью.

Общественные затраты на поиск решений по преодолению последствий болезни Альцгеймера и деменции составляют существенную часть расходов систем здравоохранения. На исследовательскую работу в этой сфере выделяются также значительные суммы. Однако именно в случае с болезнью Альцгеймера несоблюдение академической этики стало началом большого скандала, о котором мы сегодня решили напомнить нашим читателям.

В 2006 году в Nature вышла статья, посвященная роли специфического белка Aβ*56 в ходе развития болезни Альцгеймера, за авторством Сильвена Лесне (Sylvain Lesné) и его коллег. Она завоевала популярность и в течение долгого времени оставалась наиболее авторитетной и влиятельной в этой области. Однако в 2022 году нейробиолог Мэтью Шрэг предоставил в NIH отчет, в котором выразил сомнения по поводу достоверности изображений, приводящихся в статье Лесне. Science опубликовал расследование научного журналиста Чарльза Пиллера, посвященное этому исследованию, что привело к настоящей буре в научных кругах. В итоге Nature добавили к статье предупреждение о том, что в настоящий момент проводят собственное расследование, а читателям рекомендуется с осторожностью относиться к содержимому статьи. Заметим, что за год, прошедший с начала скандала, статья так и не была отозвана ни редакцией, ни самими авторами.

Многие научные журналисты писали впоследствии о том, что сфальсифицированные результаты предопределили дальнейшие шаги в области и являлись сдерживающим фактором для проверки других гипотез. Мы решили посмотреть, насколько разветвленной оказалась сеть цитирований в рамках данного подхода. Для этого построили карту цитирований по ключевому слову “amyloid-β protein” в VOSviewer на базе OpenAlex для визуализации взаимосвязей между статьями. Отмеченное исследование (см. sylvain lesné (2006)) действительно оказалось в эпицентре научной дискуссии: в общей сложности статья 2006 года была процитирована более 2500 раз, а совокупно со связанными исследованиями публикационный граф разрастается до 27,5 тысяч наименований.

При этом заметим, что общая гипотеза, протестированная в том числе и в данной статье, всё еще является наиболее конструктивной. Надеемся, что внимательное и добросовестное отношение к проведению экспериментов и публикации результатов исследований поможет специалистам продвинуться в поисках эффективной терапии болезни Альцгеймера в ближайшие годы, особенно с учетом пристального внимания научных журналистов к данной теме.

#обзор #OpenAlex #VOSViewer #болезньальцгеймера
Международный день всеобщего доступа к информации

Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.

Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.

В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.

Вот еще несколько авторских выводов:

• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.

На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.

От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.

P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.

#датасеты #открытыеданные #OpenAlex
Сравнение некрологов, индексируемых в Web of Science и OpenAlex

Продолжая затронутую в предыдущем посте тему, мы решили подробнее посмотреть на биографии и некрологи, посвященные выдающимся исследователям. Подобный жанр относительно редко встречается в научных журналах: например, в статье, посвященной анализу биографических статей в WoS, говорится, что таких публикаций меньше 2% от общего числа индексируемых текстов. В это число также входят статьи, традиционно не относящиеся к жанру биографии (стенограммы лекций, обзорные материалы и т. п.).

В ходе анализа статей в хронологической выборке с 1945 по 2014 годы (всего рассмотренно 190 350 статей) авторы пришли к выводу о наличии определенных тенденций, касающихся гендерного и предметного распределения проанализированных данных.

Так, например, установлено, что 78,0% статей написаны о мужчинах, 15,8% — о женщинах, а в 6,1% случаев (11 689 статей) пол человека, которому посвящалась публикация, не был распознан. Пол автора статьи чаще всего не был связан с полом описываемого ученого: среди авторов и мужчины, и женщины в одинаковой степени писали чаще о мужчинах. Наибольшая доля статей о женщинах относилась к области искусств и гуманитарных наук (почти 24%), социальных наук (более 18%) и междисциплинарных наук (более 17%). Самая низкая доля была в науках о жизни и биомедицине (14%), а также в области технологий и физических наук (обе области — чуть больше 12%).

Несмотря на то, что научные статьи в областях естественных и биомедицинских наук обычно цитируются чаще, чем, например, в социальных науках, наибольшее среднее число цитирований биографических статей было обнаружено именно в области социальных наук.

С 2007 года происходит уменьшение количества биографических статей. Эту тенденцию можно объяснить развитием интернета и переходу от традиционных биографических статей к персональным веб-страницам организаций.

В нашем посте мы хотели бы обратить внимание на самую распространенную подкатегорию биографических статей — некрологи, которые составляют около 61% от общего числа таких статей. При этом более 45% из них были связаны с естественными науками, а гендерное распределение в этой категории примерно такое же, как и в обычных биографических статьях: 77% некрологов посвящены мужчинам, 15% — женщинам.

В OpenAlex в отличие от Web of Science нет отдельного типа публикации «biographical item», однако «biography» присутствует в списке концептов. Мы проанализировали более 100 тысяч публикаций, относящихся к этой категории, и отобрали среди них те, в заголовке которых указаны годы жизни деятеля, которому посвящена публикация. На основании этих данных, а также данных Web of Science по предметным областям журналов, мы построили диаграмму, на которой отображается медианное количество прожитых лет, а также квартильные значения по этому показателю по каждой из 6 областей ОЭСР. Средний возраст по всем областям — 63,9 лет.

#некрологи #webofscience #openalex