IT-trends

Источники данных

Общедоступные объявления о вакансиях всей IT-сферы Беларуси (агрегаторы вакансий, каталоги джоббордов, сайты по трудоустройству).
С самого начала 2018 года постоянно сканируются более 20 общедоступных ресурсов Интернета.

Получение аналитических метрик

Идентификаторы и наименования работодателей (компаний) учитываются как важная часть реляционной модели, положенной в основу представленного анализа трендов. Это было необходимо в связи с тем, что компании часто размещают объявления об одной и той же вакансии одновременно на разных сайтах (например, много URL соответствуют одной реальной вакансии). При этом часто предприятие называется разными (несовпадающими) именами на разных порталах (например, аккаунты одной компании зарегистрированы в разное время разными её представителями на разных ресурсах). Система помогает успешно распознать эти различные имена единой компании и накапливает (агрегирует) вакансии соответствующим образом в реляционной модели, при сканировании сайтов.

Такой подход позволил анализировать динамику сразу двух метрик для заданного ключевого слова:

Количество новых и обновленных вакансий (уникальных URL) с заданным ключевым словом, суммарно за конкретную неделю. Это распространенная, но не лучшая метрика, т.к. одна и та же вакансия часто дублируется на многих порталах. Здесь это тонкие полупрозрачные графики трендов, представленные выше.
Количество реальных компаний, которые опубликовали/обновили свои вакансии, имеющие заданное ключевое слово, суммарно за конкретную неделю. Система агрегирует публикации каждой компании на разных сайтах (даже под разными версиями ее имени) под единый идентификатор каждой конкретной компании. Поэтому даже распространенное дублирование вакансий - конкретной компанией - все равно учитывается как от того же идентификатора конкретной компании. Окончательно метрика рассчитывается как суммарное количество таких уникальных идентификаторов реальных компаний, за конкретную неделю. Поэтому это приоритетная метрика, представлена толстыми яркими трендовыми линиями на диаграммах выше.

С целью достижения максимальной точности, исследование каждого заданного ключевого слова начинается с релевантного анализа текстов вакансий на предмет:

синонимов терминологии в отрасли, псевдонимов (например, Kubernetes|k8s, JS|JavaScript)
является ли оно частью других слов: iOS внутри NagiOS/scenariOS, React внутри reaction/reacted, redis внутри redistributor и т.п.
различных способов их написания (MS SQL/Microsoft SQL), а также лишних/потерявшихся пробелов/дефисов (MS-SQL/MS SQL/MSSQL)
явных случаев ошибок/опечаток в текстах (kubernetis/doker), пропущенных/лишних буквах (posgres/reddis/jenkinks)

Актуальность информации

Важный момент: если после публикации/обновления некоторое объявление однажды перестают обновлять (просто висит), то оно выпадает из представленной статистики уже со следующей недели, т.е. здесь предлагается и проводится анализ самих тенденций в чистом виде, опираясь исключительно на актуальные динамичные общедоступные данные. Выбранная дискретность агрегации (гранулярность - одна неделя) также оптимальна для отключения флуктуаций внутри недели (т.к. мало публикаций, например, по выходным)

Наглядность и достоверность

Каждый график снабжен легендой и описаниями. Расчетные линии трендов, исходные точки данных, а также легенды графиков - все они интерактивны. Во всплывающих подсказках легенд указаны соответствующие коэффициенты детерминации r^2, для оценки каждой полученной линии тренда. В некоторых случаях этот показатель превышает 90%.