Налейте аналитику
977 subscribers
43 photos
2 files
33 links
Мысли вслух лида аналитики ЛитРес, уроки по SQL/Python для новичков и не только, рассуждения о том, как делать надо и главное - как не надо, что должен уметь начинающий аналитик и чем дата-саентист отличается от дата-инженера

karaulovandrey@yandex.ru
Download Telegram
Что должен уметь и знать аналитик?

Понимая, что направлений в аналитике много, и на начальных этапах сложно определиться с конкретным, список будет максимально широкий и общий, а оттого, возможно, банальный. Но каждый из тех, кто сейчас в уме считает критерий согласия хи-квадрат при анализе результатов опроса или не глядя выбирает XGBoost при решении ML-задачи классификации или б-г его знает, что еще делает, недоступное простым смертным, должен понимать, что N лет назад он не знал об этом ничего или, возможно, чуть-чуть меньше.


1. SQL. Железобетонное первое место занимает именно "Эс-ку-эль"/"Эс-кью-эль"/"Си-ку-ел" - неважно, называйте как удобно. Structured Query Language с ихнего переводится на великий могучий очевидно как "язык структурированных запросов", а на практике это основной язык, на котором аналитик данных разговаривает с базами данных. Почему я поставил этот навык на первое место? Я не знаю ни одного аналитика, кому бы он не пригодился: у кого-то SQL занимает 5% рабочего времени, у кого-то (их еще иногда называют SQL-аналитиками) - 70%. Причем знающие люди скажут, что даже те Системы Управления Базами Данных, которые гордо именуются классом NoSQL на самом деле управляются языком, максимально приближенным к привычному SQL. И с чем бы вы ни работали - Google BigQuery, Яндекс ClickHouse или Hadoop (+Hive) - с SQL вы все равно столкнетесь и даже будете этому рады ) Есть много так называемых диалектов SQL (postgreSQL, MySQL, SQLite и несколько других), которые немного отличаются по синтаксису, совсем капельку - по логике и чуть-чуть по функционалу. По личному опыту, имеет смысл учить postgreSQL, но это очень субъективно, а перейти с одного диалекта на другой за неделю-другую, в общем-то, не составит труда.

Что почитать? С книжкой в библиотеке сидеть не стоит. В сети есть куча сервисов и курсов, на которых бесплатно и не очень можно обучиться SQL в виде интерактивных уроков. Например, очень красиво (и бесплатно) сделано тут . Поверьте, это не реклама, на момент написания статьи на канале 1 подписчик - это я ))

2. Excel. По моему субъективному мнению, это второе место. Кому-то Excel может показаться простым и банальным выбором, кто-то вполне обходится в работе и без него, но Эксель не зря называют первым BI-инструментом. Для многих его возможности скрыты за клеймом "инструмента для таблиц", что, безусловно, правда, но только отчасти. В Экселе можно реализовывать, например, подбор коэффициентов для моделей регрессии через Solver, отобразить продажи на карте мира или сделать простенькую игру. Аналитики часто используют Excel в качестве инструмента для представления результатов исследований. Также предлагаю желающим ознакомиться с пакетом "Анализ данных". В данном случае для начала работы аналитиком, достаточно сохранить в закладках что-то по типу такого сайта.

3. Математика и статистика. В большей или меньшей степени знание математики необходимо. Во многих задач достаточно будет не ошибиться, отвечая на вопрос "На сколько процентов 57 больше 19?" или "Чему равна медиана ряда натуральных чисел {1,2,3,4,5}?" Но есть задачи, где без твердого фундамента придется трудно. Особенно это относится к области Data Science и машинному обучению (не подбором гиперпараметров единым), задачам на расчет стат значимости результатов АБ-тестов и наверняка еще очень многому, что просто под вечер не лезет мне в голову.
Что должен уметь и знать аналитик? (продолжение)

4. Python/R.
Начинающим аналитикам стоит взять на заметку, что освоение одного из языков программирования для работы с данными - важнейшая часть пути от Junior к Middle и Senoir-позициям. Выбирать стоит, как мне кажется, питон, т.к. он распространен намного шире языка R в среде аналитиков. Процент задач, для которых необходимо знание питона, разнится как от специализации аналитика, так и от конкретной компании, но базовые навыки обработки данных знать нужно. Чтобы освоить Python могу, как ни странно, порекомендовать этот курс от Яндекса и ВШЭ по ML, широко известный в узких кругах: первая часть в нем как раз посвящена обработке данных с помощью numpy/pandas - для старта вполне достаточно.
Что должен уметь и знать аналитик? (продолжение продолжения)

Данная статья является продолжением первой статьи о скиллах и ключевых навыках аналитика. Если в первый раз мы говорили о необходимых знаниях, то перечисленные ниже - скорее из разряда "будет плюсом" в резюме. Конечно, опытный аналитик должен обладать и этими навыками, но претендент на Junior-позицию вполне может освоить их по ходу непосредственно трудовой деятельности.


5. Инструменты Веб-аналитики. Веб-аналитика позволяет изучить сайт "от и до" - оценить кол-во посетителей/транзакций в единицу времени, посмотреть, как пользователи перемещаются по сайту, на какие разделы/кнопки кликают чаще, сколько времени проводят, на каких страницах завершают серфинг по сайту и много чего еще. Поэтому, возможно, нахождение на 5-м месте вызовет вопросы (почему так низко?). Я понимаю, что для многих работа в Яндекс Метрике и/или Google Analytics занимает большое место в рабочем процессе, и, соглашусь, важность этих инструментов сложно переоценить. Но так как статья носит более общий характер и не уточняет специализацию аналитиков, порядок у меня получился именно такой. Веб-аналитикам, безусловно, нужно уметь настраивать и Google Tag Manager, и цели в Метрике, и отправку событий в GA, и разбираться в рекламных кабинетах систем, но у Дата-саентистов или SQL-аналитиков эти знания если и есть, то точно не в оперативной памяти. Каких-либо курсов по Веб-аналитике я не проходил, поэтому рекомендовать что-то от себя не буду.


6. BI-инструменты. Через какое-то время после того, как аналитик научился работать с данными в Excel/Гугл-таблицах, у него встает следующий вопрос: можно ли автоматизировать процесс сбора данных? Он с завидной регулярностью делает SQL-запросы в Базу данных, выгружает оттуда таблицу с проданными товарами и выручкой и присылает полученную таблицу с парой графиков коллегам из отдела продаж. BI (бизнес-интеллеженс мазафака) позволяет в том числе автоматизировать такие регулярные процессы. Вообще, основной смысл и назначение BI-инструментов состоит в том, чтобы подключиться к различным (подчеркнуто) источникам данных, соединить их внутри себя воедино и построить интерактивный отчет, в котором двигать ползунки и нажимать кнопки сможет любой человек, сколь угодно далекий от аналитики. Подключаться к данным такие системы умеют регулярно или даже (реже) в реальном времени. Среди решений солидную долю рынка занимают такие BI-продукты, как PowerBI, Tableau, Qlick, OWOX и многие другие. Плюсы и минусы систем я рассмотрю в отдельной статье, но по личному опыту, если в организации нет BI-инструмента, то для аналитика это отличный способ проявить инициативу по его внедрению, а проще всего (и дешевле) это сделать с PowerBI. Напомню, что на канале мнение исключительно субъективное )

7. Инструменты для работы с большими данными. Что такое BIG DATA? Можно ответить ироничной фразой "Все, что не помещается в моем Excel - это БИГ ДАТА" . А Excel, на заметку любителям скучных фактов, вмещает 2 в степени 20 строк и 2 в степени 14 столбцов (если калькулятора под рукой нет, то это 1 048 576 строк и 16 384 столбцов). Основная мысль в том, что классические хранилища и/или инструменты на больших объемах заканчивают работать и начинают тихо умирать. Например, SQL-базы данных для хранения Терабайтных таблиц не предназначены. Они, конечно, при соответствующих серверах данные в себе содержать будут, а вот прочитать эти данные или не дай б-г провести с ними какие-нибудь манипуляции будет очень трудно. Время обработки запросов будет расти, а желание работать с такими базами - падать. БИГ ДАТА же инструменты, благодаря уникальным технологиям обработки больших массивов данных с такими задачами справляются. Поэтому, если в резюме аналитика будет строчка о том, что он работал с Hadoop или Spark, это определенно добавит ему веса в глазах работодателя.