DSML KZ Новости
2.92K subscribers
199 photos
2 videos
51 files
558 links
Новости, митапы, ивенты, поздравляшки и прочие важные посты с чатика про машинное обучение в Казахстане:

Вакансии: @ml_jobs_kz
Вступить в сообщество: @databek_bot
LinkedinPage: linkedin.com/company/dsmlkz
Предложения и Реклама: @ayana_mussabayeva
Download Telegram
Всем салем. Меня зовут Султан Нурмухамедов.

Более чем два года назад, еще в старом Казахстане DS/ML прочитал пост Алена Баева о его учебе в Школе Анализа Данных.

Тот пост сильно бустнул во во мне мотивации поступать в ШАД. Теперь спустя два с небольшим года, сам будучи без пяти минут выпускником, решил написать свою историю поступления и учебы в ШАДе.

Поступление.

К январю 2021 года у меня был диплом НУ (math major) и работа RA там же. Примерно в это время я принял для себя решение поступать в Школу Анализа Данных.

Почему я всё-таки решил поступать? Основных причины было две.

Первая была объективная — за ML будущее, а ШАД — одно из лучших мест, где ему обучают.

Вторая была скорее субъективная. Меня сильно замотивировали комментарии о том, как это тяжело, и мне хотелось туда поступить хотя бы просто потому, что это сложно.

Расстановка сил была примерно следующей: я неплохо разбирался в теории вероятности, более менее что-то помнил по линейной алгебре, еще хуже помнил мат анализ, а алгоритмы я последний раз трогал на первом курсе универа.

Быстренько получив желтый пояс по с++ на курсере, я начал заново открывать для себя алгоритмы. Закрыл три курса от San Diego и все оставшееся время решал литкод и готовился к матеше. По линейной алгебре ботал Кострикина, по матану Демидовича, а по теорверу решал задачи со сборника Севастьянова.

Примерно в апреле-мае начались вступительные. Онлайн тест я прошел довольно легко. Решил 11 из 12 задач. На решение не смотрят, важны только ответы. Каждый аналитически полученный ответ проверял численно на питоне.

Второй этап состоял из двух туров: контест по алгоритмам и экзамен по математике. С контестом справился неплохо. Решил 4 из 5 задач. За последнюю задачу я даже не брался, но оказалось, что это была гробовая задача, которую решили только единицы.

На экзамене по математике просят решить 8 задач. По две задачи на матан, линал, теорвер, одна задача на алгоритмы (нужно своими словами описать решение и оценить его по времени и памяти) и какая нибудь ультразалупически сложная задача на свободную тему (обычно идет самой последней).

По опыту прорешивания прошлогодних вступительных, на экзамене рассчитывал решить 4, если повезет 6 задач. Реальность оказалась куда суровее — решил только две!!! После такого фейла кэф на мое поступление в ШАД заметно поднялся, а мотивация готовиться к третьему этапу снизилась.

На удивление, через три недели получил письмо с приглашением на собеседование!

Первым шло собеседование по мотивации. Тут главное дать понять, что ты не залетный тип, знаешь куда поступаешь и готов тратить по 30-40 часов в неделю на учебу.

Вторым был собес по алгоритмам. 3 задачи уровня leetcode easy. Сложность в том, что на все про все дают 30 минут и по ходу решения надо проговаривать
все свои мысли вслух. Решил все три.

На последнем собесе по математике дали задачу по линалу (надо было посчитать детерминант матрицы 1000x1000). Тут мне повезло - эту задачу я уже решал у Кострикина. Затем проверяющий погонял меня по теорверу. Из более-менее сложного попросил посчитать мат ожидание одной не помню какой случайной величины. После нескольких безуспешных попыток посчитать все в лоб, догадался заюазть moment-generation function.

Где-то через две недели я получил письмо об успешном зачислении в ШАД.
Учеба. 1 семестр:

После поступления просят выбрать трек, по которому хочешь обучаться. Их четыре: Data Science, Разработка машинного обучения, Инфраструктура больших данных и Анализ данных в прикладных науках.

Выбор трека влияет на то, какие курсы тебе предстоит закрыть. Например, на инфраструктурном треке можно не закрывать ML, но обязателен курс по операционным системам, разработчику машинного обучения необходимо закрыть с++, а дата саентисту Python. Также имеется большая свобода в выборе элективов. Главное, чтобы в каждом семестре было как минимум три закрытых курса. Я решил выбрать трек Data Science, хотя по итогу, помимо своих курсов, умудрился закрыть все необходимые курсы для разработчика ML.

Первый семестр был единственным, в котором я ходил на занятия очно, и мне предстояло закрыть Алгоритмы 1, Python и Машинное обучение 1.

Алгоритмы 1:
Самый жесткий среди обязательных курс в ШАДе. Говорят, половина отвалившихся приходится именно на курс алгоритмов. При этом он очень интересный и хорошо структурирован. Домашки тут трех типов: контесты, задачи на теорию и код-ревью.

Контесты устроены просто — засылаешь свое решение в проверяющую систему и если оно проходит все тесты, не падает по времени и памяти и не ломается под натиском санитайзеров, то получаешь свои баллы. Если хотя бы на одном тесте что-то падает, то остаешься с дыркой от бублика. Особенно больно, когда после пяти часов анализа решения на бумажке, исправлений кода, стресс тестов и дебага твое решение падает на последнем 100500-ом тесте. Благо на каждую задачу дают сто попыток.

Теоретические же домашки мне показались скучными. Обычно просят придумать решение для задачи или доказать оценк сложности для какого-нибудь алгоритма (если смотрел лекции, то все это не очень сложно).

На код-ревью, в отличие от контеста, твой код проверяют еще и на симпатичность. Код-ревью мне показались скорее больше про знание с++ и паттерны проектирования, чем про сами алгоритмы. За несколько итераций с проверяющим (обычно работник Яндекса) твой костыльный говнокод должен превратиться во что-то более менее приличное.
Сложность: Hard
Моя оценка: Зачет

Python:
Очень полезный и очень интенсивный курс. Каждую неделю выдаются маленькие домашки по пройденному материалу. По мимо них есть три большие домашки: интерпретатор питона на питоне, map-reduce и телеграм бот. Каждая большая домашка выдается на три недели.

Из больших домашек не успел сделать только map-reduce, так как принялся за нее только за три дня до дедлайна. Курс показался мне слишком объемным. Если на первый лекциях еще успевал ухватывать суть, то к концу семестра у меня уже ехала крыша от корутин, метаклассов и дескприпторов. Очевидно, что курсу очень тесно в части, как, например, курс по с++.
Сложность: Medium
Моя оценка: Хорошо

Машинное обучение 1:
Курс прекрасно подходит для тех, кто никогда не занимался машинном обучением. Начиная с матричного дифференцирования и мат статистики, вы плавно переходите непосредственно к самому ML - классическое обучение с учителем, оценка качества, вероятностные модели, методы оптимизации и т.д. Помимо теории, каждая лекция
сопровождается практикой - sklearn, catboost, pandas и прочее.

Также специально для курса был написан довольно неплохой учебник.
Можно даже не смотреть лекции, а чисто ботать учебник.

Сложность: Easy
Моя оценка: Хорошо
Учеба. 2 семестр:
На второй семестр из обязательных для меня курсов были - Основы статистики в машинном обучении и Машинное Обучение 2. Также я взял Алгоритмы 2 (да, я люблю боль) и Рекомендательные системы.

Основы статистики в машинном обучении:
Тут рассказывают про доверительные интервалы, бутстреп, проверку гипотез, регрессионные модели и т.д. Курс состоит из 4 домашек и одной контрольной. Домашки в основном теоретические. Практика в большинстве своем сводилась к эмпирическому подтверждению теории на питоне. Курс мне показался слишком скучным за счет сильного уклона в сторону теории. Также, несмотря на название курса, далеко не очевидно как некоторые темы могут пригодиться в современном машинном обучении.
Сложность: Medium
Моя оценка: Хорошо

Алгоритмы 2:
То же самое, что и первые алгоритмы, только на максималках. Закрывая этот курс, понял, насколько круто объясняет Макс Бабенко. Обычно преподам приходится выбирать между математической точностью и педагогической ясностью повествования. У Макса же получается объяснять довольно сложный материал понятно и во всех деталях.

Домашки тут чуть хардовее чем на первых алгосах. Некоторые задачи садился решать рано утром, заканчивал поздно ночью. Но на зачет в целом набрать не сложно. Помимо основных домашек, можно набрать балы на семинарских задачах и бонусных контестах.
Сложность: Hard
Моя оценка: Зачет

Машинное обучение 2:
Вторая часть курса по машинному обучению. По сути, сборная солянка всего, что не влезло в первую часть. Тут и свертки, рекуррентные сети, кластеризация, ранжирование, EM и т.д. В целом курс устроен так же, как и первая часть — теория, лабки, Kaggle конкурсы. Из минусов: в виду большого количества тем лекторы пытаются впихнуть в тебя максимум знаний за сжатые сроки. Ну, невозможно за лекцию и семинар объяснить RL или рекомендательные системы (по крайней мере мне). Скорее вам дадут некую интуицию и начальную информацию по теме. А дальше, если будет интересно, либо бери соответствующий теме курс в ШАДе, либо изучай самостоятельно.
Сложность: Medium
Моя оценка: Зачет

Рекомендательные системы:
Отличный полусеместровый курс, на который у меня тупо не хватило времени. Преподы очень сильно заморочились над оформлением презентаций, а каждой лекции предшествовал небольшой видео-тизер. Понравилась домашка по матричной факторизации, где надо было поработать с реальным датасетом Я.Музыки. К сожаление, дальше второй домашки продвинуться не смог ввиду большой загруженности по другим курсам.
Сложность: Medium
Моя оценка: Незачет
Учеба. 3 семестр:
Говорят, второй курс в ШАДе сильно легче первого. Так оно и есть. Из обязательных курсов тут Компьютерное Зрение или NLP. Взял оба. Третьим взял с++. По Компьютерному Зрению и NLP настрой был боевой. Должен же я хоть раз в ШАДе получить «Отлично». А вот по с++ настрой был скорее вялый. Долго рассуждая о полезности с++ для дата саентиста, решил все таки, что полезно, но не настолько,
чтобы рваться на оценку выше зачета.

Компьютерное Зрение:
По-моему, самый лучший курс в ШАДе. Курс можно разбить на две части. В первой объяснят основы обработки изображений (шумоподавление, выделение краёв, сжатие изображений). Вторая часть про нейросетевые методы классификации, сегментации,
распознавание лиц и т.д. Очень понятные и интересные семинары, где объясняют, как работает каждая строчка кода (в отличие от того же ML 2, где за минуту прокликивают весь ноутбук).

Но главная фишка курса - это нереально крутые домашки. Во первых они почти все с автоматической проверкой, во вторых подкреплены подробнейшим описанием в pdf (в отличии от курса по эффективному DL, где описание походу писал ChatGPT).

Чего стоит домашки по реализации алгоритма сжатия JPEG или написании сверточных сетей (с батчнормами и дропаутами) на одном только numpy. Также понравилась
домашка по поиску ключевых точек на лице, на которой я долго не мог набрать на полный балл. Оказалась, для полного балла ребята писали аугментаций на несколько страниц кода и придумывали всякие хаки для обучения.
Сложность: Medium
Моя оценка: Отлично.
Даже умудрился войти в топ 3 по сумме баллов.

С++ 1:
Курс по плюсам устроен аналогично курсу по питону, только на плюсах. Из преимуществ курса — это очень классные преподаватель и семенаристка, которые умеют хорошо объяснять материал и быстро отвечают на вопросы в чате.

Примерно к середине семестра я набрал нужные баллы на зачет, выполнив все доступные к тому моменту маленькие домашки и одну большую (написать трассировщик лучей). Так как изначально моя стратегия была набрать именно на зачет и сосредоточиться на других, более полезных для меня предметах, то во второй половине курса расслабился и делал только интересные мне домашки.
Сложность: Medium
Моя оценка: Зачет

NLP:
Очень понятный и несложный курс. В первой части курса дается база — words embeddings, text classification, language modeling, transformers и т.д. Во второй части идут лекции от приглашенных спикеров.

Целостность и последовательность курса помогает проследить за эволюцией NLP. Как некоторые статистические методы, которые ранее занимали центральное место в науке, находят новую жизнь и интерпретацию в нейронных сетях. Не обошлось и без
философствований на тему искусственного интеллекта.

Из минусов: долгая проверка домашек. Последнюю дз мне проверили аж в начале
следующего семестра.
Сложность: Easy
Моя оценка: Отлично
Учеба. 4 семестр
В последнем семестре у меня была полная свобода в выборе предметов. Я взял два курса от ВШЭ: Генеративные модели и Эффективные системы глубинного обучения. И два чисто шадовских курса: Обучение с подкреплением и Рекомендательные Системы. Ген Модели и Эффективный DL начались вместе с учебой в вышке в середине января. Остальные предметы, как обычно в ШАДе, стартовали во второй половине февраля.

Генеративные Модели:
Самый дорогой для меня курс в ШАДе. Сейчас объясню. Дело в том что в начале каждого семестра студенту в пользование выдается датасфера (яндексовый аналог google colab). Но в этот раз доступ к ней мне выдали слишком поздно. Соответственно, все свои модели я обучал на колабе. А так как ГАНы - Гадкие и Абсолютно Необучаемые, то пришлось раскошелиться на кругленькую сумму на покупку ресурсов.

Помимо ГАНов на курсе рассказывают о вариационных автокодировщиках, авторегрессионных моделях, нормализующих потоках и других подходах. Курс состоит из 4 основных домашек, проекта и экзамена (последние два необязательны). Кроме первой, все домашки сильно времязатратные. Например, на написание StarGAN v2 потратил
около 30 часов чистого времени без учета времени обучения модели. Зато когда видишь конечные картинки, испытываешь нереальный кайф.
Сложность: Hard
Моя оценка: Хорошо

Эффективные системы глубинного обучения:
Все проблемы в ШАДе можно разбить на две категории: те которые решаются через подумать, и те, которые решаются через пошаманить. Так вот, курс по эффективному DL - это про пошаманить, а именно про то, как обучить модель, не влезающую в одну видеокарту, находить узкие места в коде обучения и инференса, организовывать
эксперименты по обучению нейросетей и т.д.

Домашки тут все разные. Где-то надо просто добавить WandB и Hydra в готовый код, а где-то нужно было написать свой Butterfly All-Reduce и Ring All-Reduce. В целом курс получился очень полезным и информативным.

Из минусов: крайне непонятное описание домашек и чат, на 99 процентов состоящий из мемов и аниме, в массе которой теряется очень важная инфа.
Сложность: Medium
Моя оценка: Хорошо

Обучение с подкреплением:
Понятный и крайне интересный курс. Преподы классные, стараются объяснять материал максимально простым языком.

Домашки несложные а-ля вставьте свой код в указанном месте. Были также и теоретические дз на доказательства. Понравилась домашка с реализацией Advantage Actor Critic для игры Atari Breakout. При оптимальной политике обучения (не лезть писать код, пока полностью не поймешь теорию) курс покажется легким и кайфовым.
Сложность: Easy
Моя оценка: Хорошо-Отлично
(жду проверки)

Рекомендательные Системы:
Моя вторая попытка закрыть рекомендашки.
Сложность: Medium
Моя оценка: Курс еще не завершен

Послесловие
:
Стоит ли сейчас идти в ШАД? Коротки ответ - да.

Для более развернутого ответа следует разбить этот вопрос на две части.

Насколько хорош ШАД сейчас и насколько мне самому надо быть хорошим чтобы туда поступить. Отвечая на первую часть, замечу, что, несмотря на все происходящие сейчас в России события, школа все еще держит планку. Основной костяк преподавателей остался, хоть многие и перешли на удаленку. Качество знаний и уровень
домашек от этого не упал.

Кем надо быть чтобы поступить в ШАД? Есть расхожий стереотип о том, что в ШАД идут те, кто между дотой и пивом с пацанами выберет порешать Демидовича. Отчасти это правда. Хорошее математическое образование, наверное, обязательно, хотя и были люди, кто поступал с гуманитарных факультетов, но это скорее исключение из правил.
При этом богом математики и крутым олимпиадником быть не требуется. И без этого при должной подготовке поступить очень даже возможно.

P.S.
Тем, кто это читает и сдает экзамены в этом году, желаю удачи в поступлении и будущей учебе. Будет сложно, но вам понравится.
Forwarded from Doubletapp
ДЛЯ ЧЕГО НУЖНА И КАК СОЗДАЕТСЯ АЙДЕНТИКА БРЕНДА?

В начале этого года основатель казахcтанского датасайнс-сообщества DSML KZ обратился в Doubletapp с задачей создать бренд сообщества и продумать концептуальное оформление социальных сетей.

Что из этого получилось? Смотри в прямом эфире 16 мая в 19:00 по мск (UTC+3). Руководитель DSML KZ Ануар Аймолдин, графический дизайнер Doubletapp Павел Лаптев и наш CEO Сергей Анчутин расскажут о том, что было сделано на проекте, почему были приняты те или иные решения и как нам удалось достичь крутого результата!

На эфире ты узнаешь:

📌 Какие задачи решает обновленная идентичность бренда?
📌 Как уйти от шаблонов и сделать уникальную айдентику?
📌 Сколько часов занимает разработка айдентики?
📌 Дизайн жасағанда, ұлттық айдентикасын қалай есте сақтауға болады?
📌 И, конечно, увидишь результат.

Встречаемся 16 мая в 19:00 по мск (UTC+3) на YouTube-канале Doubletapp:

https://2tapp.cc/youtube/datascienceru

Есть вопросы? Пиши их в комментариях!

@Doubletapp
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто использует картографические сервисы для бизнеса, пройдет онлайн-встреча от API Яндекс Карт.

Дата: 14 июня
Время: 15:00
Формат: Онлайн

На встрече вы узнаете:
-Какие решения есть в рамках API Яндекс Карт;
-Какие существуют сценарии их использования;
-Какие преимущества есть у их API и SDK для разных индустрий.

Пока точно знаем, что геотехнологии помогают улучшать опыт пользователя на сайте и в приложении и оптимизировать разные процессы: оформление заказа, назначение курьеров, маршрутизацию при доставке и т.д.

Регистрация:
https://clck.ru/34ZhP5
В 22:00 будет игра наподобии своей игры внутри ChatGPT

Посмотреть что получилось можно будет на стриме в нашем дискорд канале

Ждем
вас через час
This media is not supported in your browser
VIEW IN TELEGRAM
Более года назад DSML KZ переехал в закрытую телеграм группу, чтобы сделать чат более неанонимным и доверительным.

В чате вы можете спросить совета по карьере и образованию, по-братски зарефериться и устроиться на работу, обсудить новейшие разработки в сфере глубокого обучения, и просто побеседовать за жизнь, от обсуждения футбольных матчей до книжного клуба.

В группе также есть объявления о живых встречах сообщества и многое другое!

Попасть в группу можно заполнив краткую анкету в нашем телеграм боте @databek_bot
GDSC Nazarbayev University совместно с командой @quantori 16-19 июня проведут серию ивентов, посвящённых машинному обучению для предсказания заболеваний на основе генетической информации.
Участников ждёт воркшоп от Артёма Касьянова - эксперта в этой сфере, так что даже новички могут поучаствовать и получить ценные знания, а успешные участники получат мерч и возможность пройти стажировку в одной из крупнейших международных MedTech компаний. Более подробная информация на канале GDSC NU
Quantori, an international IT provider for life science and healthcare industries, invites you to its meetup that will take place in Astana Hub on June 14!

➡️VISUALIZING DATA WITH WEBGL⬅️

Let's explore the intricacies of data visualization on the web and delve into the specifics and fundamentals of using WebGL. The speaker will share practical examples of implementing WebGL in drug research projects.

📆 June 14, 06 PM
📍Astana Hub, Media Hall

What to expect at the meetup:
▪️Discover popular methods for visualizing data on the web
▪️Learn how to get started with 3D and WebGL
▪️Gain insights into the specific applications of WebGL in Life Science development

The event is beneficial for:
- Developers working with data visualization
- Anyone interested in exploring WebGL or three.js.
- Those curious about the potential of WebGL in the Life Science industry

Register via the link to expand your knowledge of WebGL and data visualization. The event is free of charge, offline.
Открыли второй канал с вакансиями который покрывает Айти вакансии не связанные с дс

На нем мы будем публиковать вкусные (и не очень вкусные) позиции, имеющие отношение к Казахстану либо предоставляющие ремоут или релокацию

Как всегда мы будем рады поддержке сообщества! Подписывайтесь на DSML IT Jobs
Попасть в группу можно заполнив краткую анкету в нашем телеграм боте @databek_bot
В СРЕДУ в 21:00 пройдёт DSML СВОЯ ИГРА!

Знатоки сообщества будут биться, отвечая на вопросы по ML, матеше и просто на кругозор. Вас ждут интеллектуальные вопросы, сгенерированные великим GPT-4, красивый интерфейс и конечно же титаны знаний и лучшие знатоки всея DSML.

Игра будет проходить 21 июня в 21:00 на нашем дискорд канале.
Теперь все наши каналы с новостями и вакансиями собраны в одном месте:

https://t.me/addlist/pyTrow8JCPpmMzky

Примечание: чтобы зайти в основное сообщество вы должны пройти регистрацию по ссылке в пине
Лето - время отпусков, каникул, и... горящих дедлайнов сбора документов для абитуриентов. Мы решили сделать подборку программ бакалавриата в Казахстанских вузах.

Всю неделю мы будем публиковать по одному универу и вспомним, какие основные плюсы и минусы каждого вуза были выделены в анонимном опросе нашего прошлогоднего рейтинга вузов DSML KZ.

Помимо общих характеристик каждого универа,
поговорим о его наиболее подходящих программах для тех, кто интересуется анализом данных, машинным обучением и IT разработкой.
Начать обзор универов мы решили с Казахского Национального Университета им. aль-Фараби. В прошлом году в виду нехватки отзывов этот университет не вошел в рейтинг вузов от DSML KZ.

По результатам прошлогоднего анонимного опроса можно выделить следующие положительные стороны КазНУ:
• Кампус университета, некогда легендарный КазГУград, по праву можно назвать самым крупным и живописным в Алматы.
• Университет начал предоставлять студентам возможность участия в конференциях и стажировках за границей.

Соответствущие отрицательные стороны:
• Студенты обращают внимание на старомодные подходы к преподаванию некоторых предметов, что может снижать их актуальность и эффективность.
• Существует потребность в большем количестве практических навыков, возможно, учебная программа слишком сфокусирована на теоретической составляющей.
Мы выделили две программы в КазНУ:

ВЫЧИСЛИТЕЛЬНЫЕ НАУКИ И СТАТИСТИКА (6В05404), факультет: мехмат.
Предметы на ЕНТ: математика+физика.
Пороговый балл ЕНТ на грант - 90, на платное - 80

Программа делает упор на прикладную математику и data science.
Основные дисциплины: Алгоритмизация и программирование; Алгоритмы и структуры данных; Введение в квантовые вычисления; Введение в машинное обучение; Дискретная математика; Введение в функциональный анализ данных; Мат анализ (1,2); ООП; Машинное обучение.

КОМПЬЮТЕРНЫЕ НАУКИ (6В06102), факультет информационных технологий.
Предметы на ЕНТ: математика+информатика.
Пороговый балл ЕНТ на грант - 85, на платное - 75

Программа делает больший упор на практические дисциплины в сфере IT-разработки.
Основные дисциплины: Алгоритмы и структуры данных; Архитектура компьютерных систем; Архитектура систем параллельных вычислений; Базы данных; Дискретная математика; Императивное программирование; Компьютерные сети и безопасность; Методы вычислений; Компьютерное зрение; Проектирование и анализ алгоритмов.

Информация об оплате:
В КазНУ стоимость одного кредита = 16.667 тг (на 2022-2023 учебный год).
Обучение на платном отделении бакалавриата по вышеуказанным программам для граждан РК составляет 1 миллион тенге в год.
Для иностранных граждан ближнего зарубежья цена уже выше:
- 1.500.000 тг в год на русское и казахское отделение
- 1.700.000 тг в год - на английское.