Парсинг — это автоматизированный сбор информации из открытых источников в интернете по заданным условиям. Он экономит время при работе с большим объемом данных и приводит их в структурированный вид для дальнейшего использования.

SEO-специалисты используют парсинг для сбора метатегов и заголовков с сайтов, описаний товаров и цен в интернет-магазинах, мониторинга ошибок оптимизации и других задач. В этой статье расскажем о разных способах сбора метаданных с сайтов.

Зачем собирать и анализировать метатеги и заголовки

Работа над содержимым тегов title и description, заголовков h1 — важнейшая часть внутренней поисковой оптимизации сайта. Вхождение ключевых слов в тег title и заголовок первого уровня — одни из важных факторов ранжирования как в Яндексе, так и в Google.

Содержимое title и description формирует сниппет, кликабельность которого (CTR) тоже влияет на рейтинг документа в выдаче. Для привлекательного сниппета важно также не выходить за рамки рекомендуемого поисковиками количества символов в title и description. В противном случае они отобразятся на странице результатов в урезанном виде:

Чтобы проанализировать метаданные на своем или клиентском проекте, сайтах конкурентов, SEO-специалисту нужно получить их в удобном для работы виде.

Как собрать метатеги вручную

Собрать метатеги и заголовки с сайта можно вручную при помощи копирования и вставки в Excel или Google Таблицу. Для этого в режиме просмотра кода находим теги Title и Description и копируем их содержимое:

Title и description находятся в начале кода страницы после тега .
Найти заголовок H1 можно при помощи поиска в режиме просмотра кода:

Чаще всего заголовок первого уровня — это название раздела, товара, услуги. Чтобы проверить это, выделите заголовок на странице и правой кнопкой выберите функцию «просмотреть код»:

Справа или внизу (в зависимости от настроек браузера) откроется консоль, где будет показан код выделенного фрагмента:

На примере наша гипотеза подтвердилась — название категории является заголовком H1.

Копировать теги и заголовки вручную очень трудозатратно. Посмотрим, как можно автоматизировать процесс.

Парсинг метатегов при помощи Google Таблиц

Парсить метатеги и заголовки сайта можно при помощи функции IMPORTXML Google Таблиц. Она импортирует данные из источников формата XML, HTML, CSV, TSV, RSS, ATOM XML в ячейки таблицы при помощи запросов Xpath.

Синтаксис функции выглядит так:
IMPORTXML(«https://site.com/»; «Xpath-запрос»)

В первой части формулы содержится заключенный в кавычки url (обязательно с указанием протокола), во второй — запрос Xpath.

Сложно? Совсем нет. Знать язык запросов Xpath для использования этой функции не обязательно. Просто воспользуйтесь опцией браузера «копировать Xpath». Как это сделать:

  • выделяете нужный элемент на странице, кликаете правой кнопкой и выбираете «просмотреть код»;
  • в выделенном фрагменте кода при помощи правой кнопки выбираете опцию «Copy Xpath»:

Xpath-запрос скопирован, теперь остается вставить его в функцию IMPORTXML на нужном листе Google Таблицы.

Для title функция будет выглядеть так: =IMPORTXML(«https://site.com/»;»//title»)

Аналогично для h1:
=IMPORTXML(«https://site.com/»;»//h1″)

А вот в случае description синтаксис посложнее. Дело в том, что нам нужно не содержимое тега, а содержимое атрибута content. То есть сначала нужно найти тег meta, затем атрибут name=’description’ и наконец второй атрибут content. Xpath-запрос будет выглядеть так:
//meta[@name=’description’]/@content

Соответственно полный вид функции IMPORTXML для парсинга description такой:
=IMPORTXML(«https://site.com/»;»//meta[@name=’description’]/@content»)

Но каждый раз копировать нужную ссылку долго. Проще поступить так. Выгрузите в Google Таблицу список нужных url и на место ссылки в функции подставьте номер ячейки, например:
=IMPORTXML(A2;»//title»)

На выходе получим такой результат:

Формулу можно протянуть на все адреса и быстро получить нужные данные.

Парсинг при помощи расширений для браузера

Парсить данные сайтов можно при помощи бесплатных браузерных расширений. Примеры расширений для Chrome: Parsers, Scraper, Data Scraper, kimono.

Покажем, как работает расширение Scraper. После установки значок расширения появится на панели браузера:

Откройте страницу, с которой вы хотите собрать данные, нажмите на значок и выберите опцию «Scrape similar…»:

В выпадающем окне в блоке Selector выберите XPath, введите нужный запрос – //title, //h1 или //meta[@name=’description’]/@content и нажмите на кнопку «Scrape»:

Обратите внимание, что значения в блоке Columns во всех случаях должны быть такими же, как в нашем примере. Результат парсинга можно экспортировать в Google Docs. Минус работы с расширением — трудоемкость процесса. Потребуется открывать все нужные страницы для сбора данных.

Программы для парсинга сайтов

Упростить задачу парсинга метаданных могут специальные программы – SEO-парсеры. Они показывают наличие, длину и содержимое метатегов и заголовков на всех страницах сайта.
Примеры таких парсеров: Screaming Frog SEO Spider, Netpeak Spider, ComparseR.

Это платные программы с большим функционалом. Он требуется SEO-специалисту для комплексного анализа сайта: внутренней, внешней, технической оптимизации. Покупать такие инструменты для узкой задачи парсинга метатегов и заголовков нецелесообразно.

Парсинг метатегов онлайн инструментом PromoPult

Собрать метаданные и заголовки с любого сайта онлайн можно при помощи Парсера метатегов и заголовков PromoPult. Это профессиональный инструмент, который в несколько кликов соберет с любого сайта следующие данные:

  • содержимое метатегов title, description, keywords;
  • заголовки h1-h6.

Результаты можно хранить в облаке или выгружать в формате XLSX. Ограничений на количество анализируемых url в сутки нет.

Для каких задач подходит парсер

  • Анализ внутренней оптимизации своего проекта: инструмент покажет страницы с отсутствующими метаданными и заголовками, укажет на дубли и нерелевантные данные.
  • Сбор метатегов и заголовков клиентских сайтов: парсер выполнит перечисленные выше задачи по всем проектам и сэкономит время SEO-специалиста.
  • Парсинг данных сайтов конкурентов. Сравнение с другими проектами в нише станет источником идей для оптимизации своих или клиентских сайтов.
  • Как составная часть SEO-аудита. На этапе приемки проекта в работу или формирования коммерческого предложения требуется быстро оценить качество оптимизации сайта и объем работ. Инструмент поможет быстро выявить проблемы оптимизации тегов и заголовков.

Как работать с парсером метатегов и заголовков PromoPult

1. Загрузите список страниц (url), с которых необходимо собрать данные, одним из трех способов — ссылкой на xml-карту сайта, XLSX-файлом или списком url:

1. Выберите данные, которые нужно собрать, и запустите парсинг:

На стоимость парсинга не повлияет, все чекбоксы вы отметите или только некоторые. Исключать что-то из задачи имеет смысл, только чтобы сэкономить время при обработке данных с большого ресурса (более 1000 url).

2. Готовый отчет появится в списке задач, его можно просмотреть прямо на странице инструмента по клику на название или скачать в формате XLSX:

Парсинг происходит в фоновом режиме, можно закрыть вкладку или браузер, а уведомление о завершении придет на почту. Все отчеты хранятся на сервере PromoPult неограниченное время.

Для того чтобы оценить инструмент, доступен бесплатный парсинг 500 запросов. Нужно только зарегистрироваться в системе и добавить задачу.