AI Для Всех
12.1K subscribers
1.01K photos
120 videos
10 files
1.29K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Deciphering Ancient Texts with AI

Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.

Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.

Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.

Блог-пост

#ScientificML #nlp #images #history #lingustics
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach

Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).

Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.

Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.

#ScientificML #nlp #linguistics #history
The Met Dataset: произведения искусства

Для формирования обучающего набора используется коллекция Метрополитен-музея (Metropolitan Museum of Art, The Met) в Нью-Йорке, находящаяся в открытом доступе и состоящая из около 400 тысяч изображений из более чем 224 тысяч классов, начиная с эпохи палеолита и заканчивая моднейшими художниками современности.

Каждый музейный экспонат соответствует уникальному произведению искусства и определяет свой собственный класс. Обучающее множество имеет распределение с длинным хвостом, где более половины классов представлены одним изображением, что делает его особым случаем обучения на нескольких снимках.

🗂 Датасет

#datasets #art #history