• Ср. Сен 27th, 2023

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Автор:admin

Янв 12, 2023

Вдруг стало интересно, как часто пишут, комментируют и о чем в основном статьи в этом разделе. Вооружившись Python, я запарсил 3000 статей. А также комментарии и лайки, чтобы ответить на ряд интересующих меня вопросов. В этой статье мы посмотрим на общие медиапоказатели, динамику, когортный анализ и анализ текста. А так же поиграем в игру!


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Тут будет три блока:

  • Общие медиапоказатели
  • Анализ текста
  • Анализ комментариев

Общие медиапоказатели

Вычисляем, сколько в среднем собирает одна статья.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Видно, что достаточно большой разброс STD есть и большинство распределений смещено влево. Например, лайки: среднее — 10, но при этом процентиль 50 равен 5. Это означает, что половина постов собирает не больше 5 лайков. Процентиль 75 равен 11, значит, 75 процентов статей набирают не более 11 лайков. Это говорит о том, что среди статей есть много неудачных, но при этом есть статьи, которые значительно опережают другие.

Можно посмотреть на гистограмму распределения лайков:


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Около 600 статей собрало 0 лайков. 😟 Основная масса статей слева на графике.

Вот, например, распределение по размеру текста:


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Похоже, тут гистограммы не очень интересны. Найти процентили, чтобы определять результат, гораздо лучше. Повторим, что число процентиля показывает, какой процент наблюдений не превышает это число. Например, посмотрите на таблицу ниже, если ваша статья набрала больше 17к просмотров, значит, вы входите в топ-1% по просмотрам.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Еще можно сказать:

  • 10 процентов статей имеют меньше 253 слов в тексте;
  • 90 процентов статей не набирают больше 23 лайков;
  • 80 процентов статей не набирают больше 9 комментариев;
  • 1 процент статей имеет более 31 картинки (1 статья входит в топ-1% по этому показателю) .

Кстати, вот тут две мои прошлые статьи вошли в топ 10% по лайкам и топ 5% по просмотрам и комментариям: Сравнение скорости загрузки сайтов, сделанных на Bitrix, Tilda, WordPress и Gatsby и Как меняются интересы женщин со временем. Узнаем при помощи данных из социальных сетей.

Напоследок можно кинуть в корреляцию, но тут, увы, ничего интересного. Достаточно очевидно, что лайки, комменты, просмотры влияют друг на друга.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Найдем топ-статьи

По лайкам


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

По просмотрам


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Найдем топ авторов

Данные у нас примерно за полгода. С конца мая до середины декабря 2022-го было 1219 авторов.

Топ по лайкам


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Топ по просмотрам


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Топ по количеству комментариев


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

А как часто авторы пишут?

Посчитаем процентили по количеству публикаций за полгода. Тут по горизонтали процентиль, по вертикали — количество публикаций.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

10 процентов авторов за полгода написали больше 5 статей. 1 процент авторов сделал больше 18 статей — профессионалы.

Что там в динамике

В какое время выходят статьи и в какой день недели?

Строчки — часы, столбцы — день недели, где 0 — понедельник. Внутри количество публикаций.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Разрежем на месяца


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

О чем они там пишут?

Сейчас будет немного экспериментальная методика, которую я придумал для своего приложения Awake. Мы возьмем все тексты и разобьем их на слова. Добавим их в таблицу. Каждое слово будет получать статистику из статьи по лайкам, просмотрам и комментариям. Также каждое слово мы обработаем библиоткой pymorphy2, которая приведет слова в словарную форму, это «клиенты» в «клиент». А также скажет, какая грамма. Граммы — это существительные, прилагательные, глаголы, предлоги и т. д.

Вот такая таблица получается на 3 миллиона строк.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Теперь мы можем развлекаться с этой таблицей. Отфильтруем все слова по существительным, сделаем групировку по каждому слову, чтобы найти самые популярные.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Достаточно ожидаемый список слов. Каждый столбец в этой таблице показывает средние медиапоказатели по каждому слову. Например, статьи со словом «клиент» в среднем набирали 10 лайков, 7 комментариев, 1058 просмотров.

А статьи со словом «год» набирали в среднем больше просмотров, чем другие статьи. Статьи со словом «товар» имели в среднем больше картинок. Статьи со словом «сайт» имели больше activ/view.

Прилагательные


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Попробуем вытащить интересные термины и поиграть в игру!

Что чаще употреблялось: «SMM», «SEO» или «контекст»?

Содержание скрыто Показать


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Какая компания популярнее: «Яндекс» или Google?

Содержание скрыто Показать


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Какие термины популярнее? CTR или ROMI? Или, может, вдруг CPA?

Содержание скрыто Показать


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Что там по сайтам? WordPress или Tilda?

Содержание скрыто Показать


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Какие слова еще стоит проверить, как думаете? Пишите в комментарии, добавим в часть 2.

Купить рекламу Отключить

Как же группируются слова?

Чтобы ответить на этот вопрос, мы воспользуемся алгоритмом TNSE.

TNSE — нелинейный алгоритм снижения размерности многомерных данных. Простыми словами: есть таблица с большим множеством столбцов, этот алгоритм преобразует таблицу с маленьким количеством столбцов так, что сохранится смысл в значениях, но значения станут абстрактными. В нашем случае это два столбца, которые мы отправим на Scatter plot. Этот прием используют аналитики, чтобы найти группировки в больших данных.

Сейчас будет немного сложно. Построим таблицу следующим образом. Будем брать каждую статью, забирать оттуда только существительные и находить 50 самых часто употребляемых и присваивать им рейтинг по «секретной» формуле. Это очень похоже на протоалгоритмы поисковых систем. После делаем кросс-таблицу, где по строкам слова, по столбцам статьи, а внутри рейтинг. В этой таблице только те слова, которые прошли в топ-50 из каждой статьи. Статьи, где меньше 5 лайков, не участвуют.

Вот небольшой кусок этой таблицы.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Таким образом в нашей матрице будут группировки слов в статьях, и мы отправим их в TNSE. Строим график где X, Y — абстрактные координаты слов, показывающие их близость, размер точки — частота упоминаний слов, цвет просто обычный KMeans для красоты.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Сколько вы видите группировок? Давайте увеличим и посмотрим поближе.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Вижу для себя направление, связанное с IT, — рассказывать про современные Web-разработки и Data Science для маркетологов. Кстати, рекомендую свой бесплатный курс «База IT для бизнеса за час».

Предполагаю, что кто-то захочет сделать график, где по вертикали будут лайки, по горизонтали — просмотры. Объем кружочка — количество упоминаний. Цвет — кластер.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Подсказка: чем выше точка, тем больше статьи с таким словом лайкали, чем правее, тем больше было охвата. Если смотреть на точки по вертикали, то можно увидеть темы, которые были одинаково популярны, но чем выше, тем больше было отклика. Например, статьи со словами «сайт» и «продвижение» получили одинаковый охват, но точка со словом «сайт» намного выше по вертикали и значит лайков было больше.

Комментарии

За полгода было 6729 комментаторов в разделе маркетинг, которые сделали 18850 комментариев.

Есть важный момент: я не до конца парсил все комменты, потому что это слишком долго и неудобно. Я собрал только первые два уровня глубины. Это значит, что вся статистика в реальности выше.

Топ-комментаторы


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Когда же все комментируют? В рабочее время? После работы? До работы?


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Более сокращенная версия


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Влияет ли время на длину комментария?


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Наши любимые процентили по количеству слов в комментариях.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Когортный анализ

Сделаем когортный анализ.

Когортный анализ радует! Очень хороший след от когорт.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Пояснение для тех кто не знаком с когортным анализом — В 6 месяце было 2209 комментариев, в следующем месяце (Период 1) комментаторы из 6 месяца сделали 858 комментариев, дальше они же сделали 754 и т.д.

То же самое в процентах:


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Какие слова есть в комментах?

Прилагательные:


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Построим график TNSE по существительным.


                    Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Вывод

Целью данного исследования были разведка и попытка узнать что-нибудь интересное, чтобы скорректировать свою деятельность. Мне кажется, достаточно много очевидных выводов можно сделать из этих данных — например, что не нужно тут писать проходной контент, он не взлетит.

Получилось найти процентили по основным медиапоказателям, и теперь можно оценивать свои работы по процентилям. Интересно было найти категории внутри раздела при помощи ключевых слов. И посмотреть отклик на термины. Динамический анализ показал, что аудитория растет, и качество контента тоже. На когортном анализе было видно, что тут есть достаточно активное сообщество.

Если у вас остались какие-то вопросы или предложения — я с удовольствием на них отвечу в комментариях. Возможно стоит подключить к этим данным библиотеки из OpenAI, сделаем если будет востребовано.

Кстати, мы тут делаем реактивные сайты на Gatsby, PWA-приложения, дизайн и маркетинг.

Было интересно? Дальше будет интереснее — Подписывайтесь 😊

Наши другие публикации:
Исследование: важные детские качества по странам. Данные из World Values Survey
Таргетируемся на очень обеспеченных людей

Источник: vc.ru