Парсинг — это автоматизированный сбор информации из открытых источников в интернете по заданным условиям. Он экономит время при работе с большим объемом данных и приводит их в структурированный вид для дальнейшего использования.
SEO-специалисты используют парсинг для сбора метатегов и заголовков с сайтов, описаний товаров и цен в интернет-магазинах, мониторинга ошибок оптимизации и других задач. В этой статье расскажем о разных способах сбора метаданных с сайтов.
Зачем собирать и анализировать метатеги и заголовки
Работа над содержимым тегов title и description, заголовков h1 — важнейшая часть внутренней поисковой оптимизации сайта. Вхождение ключевых слов в тег title и заголовок первого уровня — одни из важных факторов ранжирования как в Яндексе, так и в Google.
Содержимое title и description формирует сниппет, кликабельность которого (CTR) тоже влияет на рейтинг документа в выдаче. Для привлекательного сниппета важно также не выходить за рамки рекомендуемого поисковиками количества символов в title и description. В противном случае они отобразятся на странице результатов в урезанном виде:
Чтобы проанализировать метаданные на своем или клиентском проекте, сайтах конкурентов, SEO-специалисту нужно получить их в удобном для работы виде.
Как собрать метатеги вручную
Собрать метатеги и заголовки с сайта можно вручную при помощи копирования и вставки в Excel или Google Таблицу. Для этого в режиме просмотра кода находим теги Title и Description и копируем их содержимое:
Title и description находятся в начале кода страницы после тега .
Найти заголовок H1 можно при помощи поиска в режиме просмотра кода:
Чаще всего заголовок первого уровня — это название раздела, товара, услуги. Чтобы проверить это, выделите заголовок на странице и правой кнопкой выберите функцию «просмотреть код»:
Справа или внизу (в зависимости от настроек браузера) откроется консоль, где будет показан код выделенного фрагмента:
На примере наша гипотеза подтвердилась — название категории является заголовком H1.
Копировать теги и заголовки вручную очень трудозатратно. Посмотрим, как можно автоматизировать процесс.
Парсинг метатегов при помощи Google Таблиц
Парсить метатеги и заголовки сайта можно при помощи функции IMPORTXML Google Таблиц. Она импортирует данные из источников формата XML, HTML, CSV, TSV, RSS, ATOM XML в ячейки таблицы при помощи запросов Xpath.
Синтаксис функции выглядит так:
IMPORTXML(«https://site.com/»; «Xpath-запрос»)
В первой части формулы содержится заключенный в кавычки url (обязательно с указанием протокола), во второй — запрос Xpath.
Сложно? Совсем нет. Знать язык запросов Xpath для использования этой функции не обязательно. Просто воспользуйтесь опцией браузера «копировать Xpath». Как это сделать:
- выделяете нужный элемент на странице, кликаете правой кнопкой и выбираете «просмотреть код»;
- в выделенном фрагменте кода при помощи правой кнопки выбираете опцию «Copy Xpath»:
Xpath-запрос скопирован, теперь остается вставить его в функцию IMPORTXML на нужном листе Google Таблицы.
Для title функция будет выглядеть так: =IMPORTXML(«https://site.com/»;»//title»)
Аналогично для h1:
=IMPORTXML(«https://site.com/»;»//h1″)
А вот в случае description синтаксис посложнее. Дело в том, что нам нужно не содержимое тега, а содержимое атрибута content. То есть сначала нужно найти тег meta, затем атрибут name=’description’ и наконец второй атрибут content. Xpath-запрос будет выглядеть так:
//meta[@name=’description’]/@content
Соответственно полный вид функции IMPORTXML для парсинга description такой:
=IMPORTXML(«https://site.com/»;»//meta[@name=’description’]/@content»)
Но каждый раз копировать нужную ссылку долго. Проще поступить так. Выгрузите в Google Таблицу список нужных url и на место ссылки в функции подставьте номер ячейки, например:
=IMPORTXML(A2;»//title»)
На выходе получим такой результат:
Формулу можно протянуть на все адреса и быстро получить нужные данные.
Парсинг при помощи расширений для браузера
Парсить данные сайтов можно при помощи бесплатных браузерных расширений. Примеры расширений для Chrome: Parsers, Scraper, Data Scraper, kimono.
Покажем, как работает расширение Scraper. После установки значок расширения появится на панели браузера:
Откройте страницу, с которой вы хотите собрать данные, нажмите на значок и выберите опцию «Scrape similar…»:
В выпадающем окне в блоке Selector выберите XPath, введите нужный запрос – //title, //h1 или //meta[@name=’description’]/@content и нажмите на кнопку «Scrape»:
Обратите внимание, что значения в блоке Columns во всех случаях должны быть такими же, как в нашем примере. Результат парсинга можно экспортировать в Google Docs. Минус работы с расширением — трудоемкость процесса. Потребуется открывать все нужные страницы для сбора данных.
Программы для парсинга сайтов
Упростить задачу парсинга метаданных могут специальные программы – SEO-парсеры. Они показывают наличие, длину и содержимое метатегов и заголовков на всех страницах сайта.
Примеры таких парсеров: Screaming Frog SEO Spider, Netpeak Spider, ComparseR.
Это платные программы с большим функционалом. Он требуется SEO-специалисту для комплексного анализа сайта: внутренней, внешней, технической оптимизации. Покупать такие инструменты для узкой задачи парсинга метатегов и заголовков нецелесообразно.
Парсинг метатегов онлайн инструментом PromoPult
Собрать метаданные и заголовки с любого сайта онлайн можно при помощи Парсера метатегов и заголовков PromoPult. Это профессиональный инструмент, который в несколько кликов соберет с любого сайта следующие данные:
- содержимое метатегов title, description, keywords;
- заголовки h1-h6.
Результаты можно хранить в облаке или выгружать в формате XLSX. Ограничений на количество анализируемых url в сутки нет.
Для каких задач подходит парсер
- Анализ внутренней оптимизации своего проекта: инструмент покажет страницы с отсутствующими метаданными и заголовками, укажет на дубли и нерелевантные данные.
- Сбор метатегов и заголовков клиентских сайтов: парсер выполнит перечисленные выше задачи по всем проектам и сэкономит время SEO-специалиста.
- Парсинг данных сайтов конкурентов. Сравнение с другими проектами в нише станет источником идей для оптимизации своих или клиентских сайтов.
- Как составная часть SEO-аудита. На этапе приемки проекта в работу или формирования коммерческого предложения требуется быстро оценить качество оптимизации сайта и объем работ. Инструмент поможет быстро выявить проблемы оптимизации тегов и заголовков.
Как работать с парсером метатегов и заголовков PromoPult
1. Загрузите список страниц (url), с которых необходимо собрать данные, одним из трех способов — ссылкой на xml-карту сайта, XLSX-файлом или списком url:
1. Выберите данные, которые нужно собрать, и запустите парсинг:
На стоимость парсинга не повлияет, все чекбоксы вы отметите или только некоторые. Исключать что-то из задачи имеет смысл, только чтобы сэкономить время при обработке данных с большого ресурса (более 1000 url).
2. Готовый отчет появится в списке задач, его можно просмотреть прямо на странице инструмента по клику на название или скачать в формате XLSX:
Парсинг происходит в фоновом режиме, можно закрыть вкладку или браузер, а уведомление о завершении придет на почту. Все отчеты хранятся на сервере PromoPult неограниченное время.
Для того чтобы оценить инструмент, доступен бесплатный парсинг 500 запросов. Нужно только зарегистрироваться в системе и добавить задачу.