Дубли страниц: найти и уничтожить

Илья Русаков

Руководитель в impulse.guru
Опыт в интернет-маркетинге 12 лет
Преподаватель в Нетологии, Синергии, Деловой среде

Руководитель в impulse.guru

Загрузка...

рейтинг

11014

Материал адресован предпринимателям и маркетологам, которые хотят сами контролировать состояние сайта, а также проверять работу SEO-подрядчика. Далеко не всегда нужно знать HTML, чтобы успешно склеивать и удалять дубли страниц. Понимание того, как работает система, позволяет сформулировать грамотное техзадание программисту.

Дубли — это страницы сайта, контент которых полностью или частично совпадает. По сути, дубли — это полные или частичные копии страниц, доступные по уникальным URL-адресам.

Дублированный контент — массовая проблема. Считается, что до трети всех сайтов содержит дубли.

Какие бывают дубли страниц на сайте

Дубли бывают полными, когда по разным URL-адресам доступны абсолютно идентичные страницы, и частичными. Во втором случае контент страниц совпадает на 80% и более. Поисковые системы расценивают такие страницы как неуникальные и объединяют их в так называемый дублирующий кластер.

Пожалуй, нет предпринимателей, маркетологов, SEO-специалистов и вебмастеров, которые бы не сталкивались со следующими типами полных дубликатов:

Одна и та же страница по адресу с «WWW» и без «WWW»:

https://site.ru
https://www.site.ru

Дубли страниц с протоколами HTTP и HTTPS:

http//site.ru
https//site.ru

Дубли со слешем (слешами) на конце или в середине URL и без:

https//site.ru/page
https//site.ru/page/
https//site.ru/page//
https//site.ru///page

Дубли главной страницы с различными приписками на конце URL:

https://site.ru/index
https://site.ru/index.php
https://site.ru/index.html
https://site.ru/home.html
https://site.ru/index.htm
https://site.ru/home.htm
https://site.ru/default.asp
https://site.ru/default.aspx

Страница доступна по URL-адресам в верхнем и нижнем регистрах:

https//site.ru/page
https//site.ru/PAGE
https//site.ru/Page

Дубли с нарушениями в иерархии URL-адресов. К примеру, товар доступен по нескольким разным URL:

https://site.ru/category/tovar
https://site.ru/tovar
https://site.ru/category/dir/tovar
https://site.ru/dir/tovar

Дубли с добавлением произвольных вложенностей или символов в URL-адрес:

https://site.ru/page/blablabla
https://site.ru/blablabla/page
https://site.ru/pageblablabla

На месте blablabla может стоять случайный набор цифр и латинских символов.

Дубли с добавлением «звездочки» в конце URL:

https://site.ru/page/
https://site.ru/page/*

Дубли с заменой дефиса на нижнее подчеркивание или наоборот:

https://site.ru/category/tovar-001
https://site.ru/category/tovar_001

Дубли, возникающие из-за добавления в URL-адрес дополнительных параметров и меток:

URL-адреса с GET-параметрами. С помощью GET-параметров вебмастер адаптирует контент страницы под конкретного пользователя. Область применения: интернет-магазины, форумы, отзовики. GET-параметры в адресе расположены после символа «?» и разделяются символом «&». Например, в адресе https://site.ru/?top=1 GET-параметр top имеет значение 1. Если GET-параметр влияет на содержание страницы — это не дубль. А если GET-параметр не меняет контент страницы, то этот параметр называют незначащим, и страницу стоит скрыть от поиска. Примеры адресов с незначащими GET-параметрами:

https://site.ru/index.php?example=15&product=40
https://site.ru/index.php?example=40&cat=15

URL-адреса с UTM-метками. UTM-метки могут иметь вид https://www.site.ru/?utm_source=yandex&utm_medium=cpc Они помогают системам аналитики отслеживать параметры трафика. Несмотря на то, что страницы с UTM не должны индексироваться поисковыми машинами, нередко в выдаче встречается полный дубль страницы с UTM-меткой.

URL-адреса с метками GCLID (Google Click Identifier). Метки позволяют сервису Google Analytics отследить действия посетителей, которые перешли на сайт по рекламному объявлению. Адрес перехода может выглядеть так: https://site.ru/?gclid=blablabla, где blablabla — определенный набор символов.

URL-адреса с метками YCLID. Метки отслеживают эффективность рекламных кампаний в Яндекс Метрике. Адрес перехода может выглядеть так: https://site.ru/?yclid=blablabla (набор цифр)

URL-адреса с метками OPENSTAT. Это универсальные метки, которые применяют для анализа эффективности рекламы, посещаемости и поведения пользователей на сайте. Пример, как может выглядеть ссылка: https://site.ru/?_openstat=blablabla

Дубли, сгенерированные реферальной ссылкой. С помощью реферальных ссылок сайты распознают, от кого пришел новый посетитель. Вид ссылки может быть такой: https://site.ru/register/?refid=blablabla Когда пользователь переходит по URL с параметром «?ref=…», должно происходить перенаправление на URL-адрес без параметра, но разработчики часто забывают сделать эту настройку.

Распространенные типы частичных дублей:

Карточки (страницы) похожих товаров. Актуально для интернет-магазинов и маркетплейсов, где товары отличаются только определенными характеристиками (цветом, размерами, материалом). В итоге карточки имеют практически одинаковый контент. Решением будет объединить близкие товары на одной странице и добавить селектор для выбора характеристик. Либо — уникализировать описания товаров на их карточках.

Страницы результатов поиска по сайту. Этот тип страниц опасен тем, что пользователи могут сгенерировать большое количество подобных страниц за короткий промежуток времени.

Дубли, возникающие при пагинации, сортировке, фильтрации контента. Содержимое таких страниц, включая заголовок и описание, может оставаться неизменным, меняется только порядок размещения элементов:

https://site.ru/category/ (целевая страница)
https://site.ru/category/?price=low (страница-дубль с сортировкой по убыванию цены)
https://site.ru/category/?price=high (страница-дубль с сортировкой по возрастанию цены)

Региональные версии страниц. При выборе региона на странице изменяются адрес, номер телефона, название города, заголовок, но основной контент не меняется, и такие страницы поисковики могут расценить как дубли.

Версии для печати или скачивания в PDF, например:

https://site.ru/category/tovar1
https://site.ru/category/tovar1/print
https://site.ru/category/tovar1/pdf

Страницы отзывов и комментариев, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.

Встречается комбинирование в URL-адресах описанных выше вариантов.

Откуда берутся дубли страниц

Полные и частичные дубликаты страниц часто возникают из-за особенностей работы CMS. Дубли могут автоматически генерироваться при добавлении в адрес GET-параметров и меток.

Человеческие ошибки также приводят к копированию страниц на сайте, например:

контент-менеджер один и тот же товар поместил в несколько категорий, и теперь карточка товара доступна по разным URL-адресам;
вебмастер изменил структуру сайта — существующим страницам присвоил новые URL, но они остались доступны и по старым адресам;
вебмастер допустил ошибку в директивах robots.txt, в настройке 301 редиректов или страницы 404.

Отдельный случай — смысловые дубли, когда разные страницы сайта конкурируют за одни и те же поисковые запросы. Эта ошибка возникает из-за неправильной кластеризации семантики.

Чем опасно дублирование страниц на сайте

Коварство дублей в том, что пользователю они не мешают получить нужную информацию. Зато с точки зрения SEO дубли страниц представляют серьезную опасность.

Прежде всего — поисковые машины могут неправильно идентифицировать релевантную страницу.

Посмотрите на картинку и скажите, какой из трех плодов более релевантен запросу «зеленое яблоко».

Дубли страниц на сайте: пример

Согласитесь, ответить не просто. Все объекты — яблоки, и они зеленые. Они одинаково релевантны запросу, а выбрать нас просят один.

В таком же затруднительном положении оказывается поисковая машина, когда ей нужно выбрать из двух, трех или более копий одну страницу и показать ее в результатах поиска. Не удивительно, что поисковик «колеблется», «меняет мнение» — дубли скачут в выдаче.

Трафик разделяется. В итоге ни одна из конкурирующих страниц не накапливает достаточно метрик для закрепления в топе. Лишь со временем одна страница станет ранжироваться, а другие будут размечены как дубли.

Другой негативный эффект — посадочные страницы недополучают ссылочную массу. Посетители, встречая в результатах поиска не оригинальную страницу, а дубликат, начинают ссылаться на него. Результат — посадочная страница теряет естественную ссылочную массу.

Страдает скорость обхода и индексирования. Когда на сайте много дублей, роботы тратят больше времени на их обход, вместо того, чтобы сканировать ценный контент. А значит, посадочные страницы сайта будут медленнее попадать в поиск.

Сами по себе дубли страниц не являются причиной пессимизации сайта — но лишь до тех пор, пока поисковые алгоритмы не посчитают, что вебмастер намеренно создает дубли с целью манипулировать выдачей.

Даже если дело не доходит до бана, множество страниц с одинаковым контентом размывают качество сайта в глазах поисковиков. Значительная доля страниц-дублей сигнализирует поисковым системам, что сайт не достоин быть в топе выдачи.

Наконец, если устранение дублей откладывать в долгий ящик, их может накопиться столько, что специалисту физически будет сложно обработать отчеты, систематизировать причины дублирования и внести исправления. Дубли страниц подобны баобабам в сказке о Маленьком принце: если их не выпалывать, они корнями разорвут планету.

Опасность дублей страниц

В интересах SEO-специалиста находить и устранять дубли регулярно.

Как обнаружить дубли страниц?

Поиск дублей страниц можно вести разными способами. Чтобы найти все дубли и ничего не упустить, лучше использовать поочередно несколько сервисов и способов. Для поиска основных дубликатов достаточно какого-то одного инструмента — вебмастер волен выбрать тот, который ему ближе.

Парсинг сайта в специализированной программе или онлайн-сервисе

Для поиска дубликатов подходит программа Screaming Frog SEO Spider. До 500 адресов инструмент позволяет протестировать бесплатно.

Screaming Frog находит как полные дубли страниц, так и частичные. Оба вида дублей отображаются на вкладке Content под фильтрами Exact Duplicates и Near Duplicates.

Программа Screaming Frog для поиска дублей страниц

Среди других инструментов технического аудита сайтов отметим следующие, доступные в России осенью 2022 года:

SE Ranking
Site Analyzer
PromoPult
Xenu Link Sleuth
BatchUniqueChecker
Siteliner
Copyscape
Comparser
СайтРепорт

Поиск дублей с помощью вебмастеров поисковых систем

Раздел «Яндекс Вебмастер/Диагностика» уведомит вебмастера о проблеме, если дубли составят значительную долю страниц на сайте.

В разделе «Яндекс Вебмастер/Индексирование/Страницы в поиске» под фильтром «Исключенные» отображается диаграмма и список исключенных из индекса страниц:

Яндекс Вебмастер помогает находить дубли страниц

На скриншоте — произвольный сайт-пример. Видно, что Яндекс удалил из индекса 182 неканонические (дублирующие) страницы.

Прокрутив вниз, в правом нижнем углу находим опцию «Скачать таблицу». В скачанном файле у страниц-дублей будет статус DUPLICATE.

Функционал для определения дублей имеется в разделе «Яндекс Вебмастер/Индексирование/Заголовки и описания». Когда сайт свободен от дублей, здесь выводится сообщение: «Всё в порядке. На сайте не найдено большого количества одинаковых Title и Description».

В Google Search Console состояние дел с индексацией страниц отображается на диаграмме:

Google Search Console помогает находить дубли

Кроме того, сервис раскрывает причины, почему часть страниц оказалась вне индекса:

Google Search Console указывает на причины дублирования страниц

Зная причину дублирования, вебмастер быстрее исправит ошибку.

Поиск дублей через операторы

Поисковый оператор «site:» ограничивает результаты поиска только страницами заданного сайта, например:

Поисковые операторы помогают находить дубли страниц на сайте

Просмотрев выдачу, можем обнаружить страницы-дубликаты, а также «мусорные» страницы, которые нужно удалить из индекса.

Если перед оператором «site:» поместить уникальный фрагмент текста со страницы, то поисковик покажет в выдаче только эту страницу:

Поиск дублей страниц поисковыми операторами

Одна страница в результатах поиска значит, что у нее нет дублей. Если же в выдаче несколько страниц, возможно, это и есть дубли, от которых необходимо избавиться.

Этот прием сужает поиск до наиболее важных, посадочных страниц, дублирование которых недопустимо.

Один из явных признаков дублей — повторяющиеся Title. Найти копии метатегов Title на сайте помогают операторы «site:» и «intitle:» — см. скриншот:

Поисковые операторы для обнаружения дублей страниц

Мониторинг дублей, которые возникают на страницах сортировок, фильтров и поиска, можно вести с помощью операторов «site:» и «inurl:».

Запросы будут выглядеть так:

site:https://site.ru inurl:sort
site:https://site.ru inurl:filter
site:https://site.ru inurl:search

Операторы, в основном, одинаково работают в Google и Яндексе.

Поиск дублей с помощью операторов может быть полезен владельцам небольших сайтов, например, бизнесам в сфере услуг.

Задача: избавиться от дублей

Для нового и старого сайтов решения проблемы с дублями — разные. На новом следует предупредить проблему — провести первичную настройку сайта. А на старом уже нужно лечение.

Большинство дублей страниц устраняется с помощью правильной настройки CMS. Иными словами, эффективное избавление от дублей сводится к составлению техзадания вебмастеру или программисту и проверки его реализации.

Для «выкорчевывания» дублей, засоряющих выдачу, существует несколько способов, и применяются они в зависимости от ситуации или типа дублей:

физическое удаление;
перенаправление;
назначение канонической страницы;
запрет на индексирование.

Рассмотрим основные способы устранения дублей страниц на сайте.

Физическое удаление дублей

Нет страницы — нет проблемы. Физическое устранение — хорошее решение для статических дублей. Одновременно удаляются ссылки на страницу во внутренней перелинковке сайта.

Метод работает со страницами, которые «не жалко», то есть без ссылочного веса и трафика. В противном случае трафик со страницы лучше перенаправить на основную посадочную посредством 301 редиректа.

Склейка дублей через 301 редирект

301 редирект сообщает роботам поисковых систем, что по данному URL страница больше недоступна и перенесена на другой адрес навсегда. Посетители автоматически перенаправляются со старого адреса на актуальный. Как правило, в течение двух недель страница-копия выпадает из поиска.

Главные преимущества 301 редиректа — передача показателей авторитетности и ссылочного веса страницы-копии, а также однозначное указание роботам на склейку доменов/страниц.

301 редирект — самый надежный способ избавления от дублей, но при этом самый требовательный к профессиональным навыкам вебмастера или программиста.

Если сайт использует сервер Apache, то редирект настраивают путем создания или редактирования служебного файла .htaccess Место этого файла — в корневом каталоге сайта (там же, где и файла robots.txt, о котором речь ниже). Доступ к корневому каталогу — по FTP.

Самый простой 301 редирект — со страницы на страницу:

Redirect 301 /page-1/ https://site.ru/page-2/

Один из обязательных технических редиректов, без которого не обходится ни один сайт, — перенаправление трафика с главной страницы с префиксом WWW на главную страницу без WWW. Или наоборот. Процедура называется «выбор главного зеркала сайта».

Два адреса одного сайта — с WWW и без — возникают автоматически в ходе присвоения сайту домена.

Редирект с субдомена WWW на вариант без WWW в файле .htaccess происходит по правилу:

RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC]
RewriteRule ^(.*)$ https://site.ru/$1 [R=301,L]

Выбор в пользу домена с WWW выглядит так:

RewriteCond %{HTTP_HOST} ^site\.ru$ [NC]
RewriteRule ^(.*)$ https://www.site.ru/$1 [R=301,L]

Для новых сайтов чаще выбирают домен без WWW, то есть перенаправляют трафик с адреса вида https://www.site.ru на https://site.ru Но если сайт уже получает трафик, лучше выбрать в качестве главного зеркала более посещаемый вариант домена.

Для SEO подавляющего большинства сайтов нет никакой разницы, какое зеркало главное. Только для высоконагруженных проектов, например, сайтов маркетплейсов и социальных сетей всегда выбирают адрес с WWW. Это нужно, в частности, для настройки сети доставки контента (CDN).

Другой обязательный ныне редирект — перенаправление трафика с простого протокола HTTP на защищенный протокол передачи данных HTTPS:

RewriteCond %{HTTPS} !=on
RewriteRule^(.*)$ https://%{HTTP_HOST}/$1 [R=301,L]

Редактируя .htaccess, вебмастера настраивают другие типы 301 редиректов для случаев:

лишние слеши в URL;
нарушена иерархия URL;
URL в разных регистрах;
URL с параметрами;
и других.

В этой работе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дублирующие страницы, но и весь сайт.

Если сайт размещен на сервере Nginx, то 301 редирект настраивается по-иному.

Большинство CMS упрощает вебмастерам и владельцам сайтов настройку рабочего зеркала сайта. Редактирование файла .htaccess доступно через плагины.

Современные конструкторы сайтов имеют панель, где выбор рабочего зеркала совершается простым выбором опций. К примеру, в Tilda панель выглядит так:

Выбор главного зеркала в конструкторе Tilda

Подобный интерфейс предусмотрен в Яндекс Вебмастере, где склейка доменов производится в разделе «Индексирование/Переезд сайта». В панели убираем (или ставим) галочку напротив WWW, ставим галочку напротив HTTPS и сохраняем изменения.

Выбор главного зеркала сайта в Яндекс Вебмастер

В течение полутора-двух недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL-адреса страниц сайта в соответствии с нашим выбором.

В Google Search Console главным зеркалом всегда автоматически назначается адрес с HTTPS. Выбор зеркала с WWW или без делается либо с помощью 301 редиректа, либо через указание канонический страницы.

Проверить корректность настройки 301 редиректа можно плагином Redirect Path или другими. А также посмотреть динамику показателей в Google Search Console и Яндекс Вебмастере. Когда после склейки показы и клики на доменах-копиях равны нулю — значит, все настроено правильно.

Если владелец не счел нужным выбрать основной домен, то поисковая система сама назначит один из сайтов на роль основного зеркала. Однако не всегда это решение будет оптимальным с точки зрения продвижения.

301 редирект — мощный инструмент, он работает во всех поисковиках, но имеет ту особенность, что дублирующая страница полностью выпадает из индекса. В ряде случаев это нежелательно.

В таких ситуациях вебмастера оставляют дубли в индексе, но сообщают поисковикам, какая страница является основной или канонической. Именно она появляется в результатах поиска.

Назначение канонической страницы

Альтернативой 301 редиректу является метатег с атрибутом rel=«canonical». Этот атрибут указывает на каноническую, приоритетную для индексации страницу. При этом дубликаты размечаются поисковым роботом как второстепенные документы и не попадают в индекс, но остаются доступны пользователям.

Самый популярный способ указать на приоритетную страницу — в коде между тегами <head> и </head> страницы-дубля добавить метатег Link с атрибутом rel=«canonical»:

<link rel=«canonical» href=«ссылка на каноническую страницу» />

Такую ссылку следует добавить в код всех страниц-дублей. Процедура доступна владельцам сайтов и маркетологам даже с минимальным знанием HTML. Кроме того, тут нечего бояться — настройкой canonical сложно что-либо сломать на сайте.

Другой способ — добавить в код страницы-дубля HTTP-заголовок вида:

Link: <ссылка на каноническую страницу>; rel=«canonical»

Этот способ подходит как для обычных HTML-страниц, так и для электронных документов (PDF, DOC, XLS и т.д.).

Рекомендуем проверить корректность файла sitemap.xml . В карте сайта все страницы по умолчанию считаются каноническими. Однако канонический адрес в sitemap.xml является менее значимым сигналом, чем атрибут rel=«canonical». Лучше не делать ставку на этот метод. Главное, чтобы в карту сайта не попадали дубли страниц, иначе поисковые боты будут путаться в выборе канонического адреса.

Канониклы можно прописывать вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress — это Yoast SEO или All in One SEO.

Конструктор Tilda по умолчанию проставляет каноникал сам на себя — Google такое допускает и даже приветствует. Пример — ниже:

Канониклы для устранения дублей страниц на сайте

Что выбрать для искоренения дублей — каноникал или 301 редирект?

В ситуации, если вебмастер не хочет показывать пользователю запрашиваемую страницу (ее больше не существует или она переехала), нужно применять 301 редирект.

В том случае, когда пользователь должен увидеть запрашиваемую страницу, даже если они неканоническая, — настраиваем canonical. Среди таких полезных дублей могут быть страницы фильтров, сортировок, пагинации, с UTM-метками, мобильные версии сайтов, AMP- и Turbo-страницы.

301 редирект — это прямой запрет индексации. Атрибут canonical — мягкая рекомендация, которой поисковые системы могут и не последовать. Google анализирует более 20 сигналов, чтобы решить, какую страницу выбрать в качестве канонической из дублирующего кластера, и rel=«canonical» лишь один из них.

Узнать, есть ли у страницы каноническая версия, отличная от указанной вебмастером, можно в «Яндекс Вебмастер/Индексирование/Страницы в поиске/Последние изменения/Статус и URL», а также в «Google Search Console/Проверка URL». Нередко лучшим решением будет довериться алгоритмам в выборе канонической страницы.

Яндекс и Google рекомендуют прописывать в метатеге Link абсолютный, а не относительный адрес канонической страницы. Размещать в коде два и более указания на каноникал бессмысленно — поисковики проигнорируют их все.

Запрет на индексацию дублей

Сканирование и индексацию дублей можно запретить или, по меньшей мере, постараться предотвратить. Делается это с помощью файла robots.txt или метатега.

Текстовый файл robots.txt размещается в корне сайта и управляет доступом к его содержимому. Файл robots.txt сообщает поисковым ботам, какие страницы или файлы сайта не следует сканировать.

Для этого используется директива Disallow, которая запрещает поисковым ботам заходить на ненужные страницы:

User-agent: *
Disallow: /page-duplicate

Специалисты используют блокировку через robots.txt в случаях, когда полностью уверены, что поисковые роботы не должны видеть дубли и служебные страницы. Чаще всего — это страницы с результатами поиска, страницы для печати и скачивания и другие, загрязняющие выдачу.

Способ практически не требует навыков программиста, но он не подходит, если дублей много: на изменение robots.txt каждого дубля уйдет значительное время.

Проверить корректность файла robots.txt позволяет Яндекс Вебмастер…

Анализ robots.txt в Яндекс Вебмастер

…и Google Search Console:

Анализ robots.txt в Google Search Console

На скриншотах в файле robots.txt нет никаких запретов на сканирование и индексацию страниц сайта.

С блокировкой индексации есть две проблемы — маленькая и большая.

Малая проблема состоит в том, что инструкции файла robots.txt носят рекомендательный характер для поисковых ботов. Они не гарантируют удаление дубликатов из выдачи, если они были проиндексированы ранее или на дубли страниц ведут ссылки — роботы могут перейти по ним, и дубликат попадет в индекс.

Более надежный способ запретить индексацию дублей — использовать метатег robots следующих видов:

<meta name=«robots» content=«noindex, nofollow»> (не индексировать документ и не переходить по ссылкам)

<meta name=«robots» content=«noindex, follow»> (не индексировать документ, но при этом переходить по ссылкам)

В отличие от robots.txt, этот метатег — прямая команда, и она не будет игнорироваться поисковыми роботами.

Основная проблема, точнее, особенность, о которой нужно знать, связана с политикой поисковых систем. В настоящее время Google и Яндекс не рекомендует блокировать поисковым роботам доступ к идентичному контенту с помощью файла robots.txt или иными способами.

Не имея возможности сканировать страницы-дубликаты, поисковики не смогут определять, что по разным URL размещены одинаковые материалы, и будут обращаться с этими страницами как с уникальными.

Лучше разрешить сканирование таких URL, но при этом пометить их как копии при помощи тега <link> с атрибутом rel=«canonical» или настроить 301 редирект. Эти инструкции, в отличие от блокировки, передают вес дубликата целевой странице.

Яндекс (только Яндекс!) для блокировки индексации страниц с незначащими GET-параметрами рекомендует использовать директиву Clean-Param.

Пример для адреса с UTM-метками:

Clean-Param: utm_source&utm_medium&utm_campaign

Робот Яндекса, видя эту директиву в файле robots.txt, не будет много раз обходить повторяющийся контент. Как следствие, эффективность обхода повысится.

Завершающий этап — обновление карты сайта

Карта сайта sitemap.xml — служебный файл, который содержит систематизированный перечень страниц, рекомендованных для приоритетной поисковой индексации. При каждом обходе робот смотрит, какие изменения вносились в этот файл, и быстро освежает информацию о сайте в индексе.

Включать в файл sitemap.xml нужно только канонические, открытые для сканирования и индексации страницы, отдающие код ответа 200. И, напротив, следить, чтобы в карту сайта не попадали дубли страниц.

Все URL в карте сайта должны быть открыты в robots.txt для сканирования, индексации и не должны содержать метатег «noindex».

Сайтмап должна автоматически регулярно обновляться при добавлении/удалении, закрытии/открытии для индексации заданных страниц.

Карту сайта следует рассматривать в качестве подсказки роботам, какие страницы владелец сайта, маркетолог, вебмастер считает наиболее качественными. Но это только подсказка, а не руководство к действию.

Пагинация страниц сайта: как избежать дублирования

Пагинация на сайте — это разделение массива данных на части и вывод их на отдельных страницах. Так достигается высокая скорость загрузки страниц, улучшаются поведенческие факторы. Это удобно пользователям десктопов.

Адреса страниц пагинации могут быть как статическими, так и динамическими:

https://site.ru/catalog/page-2/ (статический URL)
https://site.ru/catalog?page=2 (динамический URL)

Множество однотипных страниц пагинации поисковики могут расценить как дубли. Решения проблемы следующие.

Запрет на индексацию в файле robots.txt. Disallow прописывается на всех страницах пагинации, кроме первой. Минус: поисковой системе будет сложнее отыскать все товары или новости категории.

Запрет на индексацию в метатеге robots. На всех страницах пагинации, кроме первой, прописывается инструкция <meta name=«robots» content=«noindex, follow» />. Минус тот же, см. выше.

Назначение первой страницы канонической. На всех остальных страницах пагинации проставляется rel=«canonical» со ссылкой на первую страницу.

Первая страница — это всегда начальная страница категории, поэтому https://site.ru/catalog/ и https://site.ru/catalog/page-1/ будут одной и той же страницей — дубликатами. Важно настроить 301 редирект с https://site.ru/catalog/page-1/ на https://site.ru/catalog/.

Создание страницы «View all» («Показать все») со всеми товарами всех страниц пагинации. На эту страницу настраиваются ссылки-канониклы со страниц пагинации. Роботам достаточно обработать один этот URL, чтобы весь контент попал в индекс. Подходит для небольших категорий с 3-4 страницами пагинации, иначе — слишком долгая загрузка.

Назначение всех страниц пагинации в качестве канонических. Простановка атрибута rel=«canonical» каждой страницы на саму себя. Метод увеличивает число документов коммерческой направленности в индексе, демонстрирует поисковику полный ассортимент продукции в категории, улучшает коммерческие факторы. Подход популярен в англоязычном SEO.

Уникализация каждой страницы пагинации подстановкой номера страницы, топонима, характеристики (НЧ-запроса). Title каждой страницы пагинации отличается от Title первой страницы и образуется по шаблону с подстановкой переменных, например:

Наименование категории + {номер страницы}
Купить {наименование товара} + в {название города} + по цене от {минимальная стоимость}
{Характеристика товара (тип, цвет и т.д.)} + купить в интернет-магазине «название»

Description страниц пагинации образуется по такому же принципу:

Заказывайте {наименование товара} + в интернет-магазине «название». Скидка 10% на первый заказ, бесплатная доставка курьером.
Купить {наименование товара} — доставка по России, гарантия 1 год, наложенный платеж. Более 300 моделей в интернет-магазине «название». Выбирайте {наименование категории} от производителя.
{Наименование товара} + по цене от {минимальная стоимость} — характеристики, фото, реальные отзывы покупателей. Заходите на сайт «название» или звоните +7 (xxx) xxx-xx-xx.

Оптимизированный текст должен быть размещен только на первой странице и не повторяться на остальных страницах пагинации.

Связывание страниц пагинации атрибутами rel=«prev»/«next». Для первой страницы в head вставляем строку: <link rel=«next» href=«https://site.ru/page2.html»>. Для каждой последующей страницы указываем ссылку на следующую и предыдущую страницу. Для второй страницы пагинации в разделе head должно быть прописано:

<link rel=«prev» href=«https://site.ru/page1.html»>
<link rel=«next» href=«https://site.ru/page3.html»>

И так далее. Правда, Google уже несколько лет не использует эту разметку, а Яндекс ее не считывает. На поиске присутствие/отсутствие такой цепочки никак не отражается.

Бесконечная прокрутка, или Single Page Content. Содержимое категории подгружается динамически, как только посетитель ресурса прокручивает скролл до самого низа или нажимает на кнопку «Показать еще». Бесконечные ленты приняты в социальных сетях, мобильных версиях маркетплейсов и онлайн-СМИ. Прием способен надолго задержать посетителя на ресурсе. Настраивается прокрутка при помощи AJAX-подгрузок в JavaScript. При этом URL не меняется, просто по запросу пользователя подгружаются новые порции контента. Google находит у этого современного способа представления контента ощутимые преимущества.

Бесконечная подгрузка вместо пагинации

Никак не работать с пагинацией. Этот путь не такой глупый, как может показаться. Расчет на то, что современные поисковики сами способны разобраться со структурой представления товаров/новостей, как бы ни была реализована пагинация. Главная задача вебмастера — обеспечить индексацию страниц пагинации.

Пожалуй, одного универсального решения касательно дублирования страниц при пагинации не существует. Выбор стратегии зависит от обстоятельств: объема ассортимента, типа сайта, CMS, приоритетной поисковой системы и других.

«Холивары», которые ведутся по этому вопросу в SEO-среде, имеют своим истоком абсолютизацию положительного опыта, полученного в конкретных обстоятельствах. Не факт, что этот опыт хорошо себя покажет в другом контексте.

Тем не менее, выделим тренды в SEO страниц пагинации, которые нам представляются актуальными:

не закрывать контент от индексации;
уникализировать страницы пагинации;
настраивать канониклы на страницу «View all»;
настраивать канониклы на самих на себя;
смелее использовать бесконечную прокрутку.

Поясним последний пункт. В 2022 году смартфоны — это около 80% всего интернет-трафика. Экраны размером с ладонь сформировали UX, где нет мест пагинации.

На смартфонах удобно:

прокручивать вертикально;
смахивать горизонтально;
просматривать (сортировать, фильтровать) карточки, которых может быть много;
кликать по карточкам — загружать не только одноэкранное изображение или вертикальное видео, но и пространный материал (статью, rich-контент в маркетплейсе).

Смартфоны диктуют иные способы структуризации и представления многостраничного контента, отличные от традиционной пагинации. Какие именно способы и как теперь быть с дублями — тема отдельной статьи.

Добавим сюда отложенную загрузку изображений Lazy Load, распределенные сети доставки контента CDN, стандарты связи LTE и 5G, другие технологии, которые кардинально ускоряют загрузку даже тяжелого контента. Все это снимает одну из главных задач пагинации — ускорение загрузки контента.

В 2022 году пагинация — это бензиновый двигатель. Пока еще широко распространен, но будущего нет. Актуальны вопросы организации и представления контента в мобайле, включая устранение дублей.

Не согласны? Возразите нам в комментариях к статье!

Заключение

Одни и те же дубли страниц на сайте можно закрыть от индексации разными способами. На практике работают и канонизация страниц, и редирект, и директивы robots.txt, и метатег robots.

Каждый поисковик дает свои рекомендации. Google не приветствует закрытие дублей с помощью robots.txt или метатега robots с атрибутами «noindex, nofollow», а предлагает использовать rel=«canonical» и 301 редирект.

А вот Яндекс более лоялен к robots.txt — здесь даже есть своя директива Clean-Param, которая помогает устранять дубли с GET-параметрами.

Задача оптимизатора – подобрать способы, которые будут оптимальны для конкретного кейса. К примеру, если ресурс ориентирован на зарeбежную аудиторию, лучше взять за основу рекомендации Google. Для России лучше придерживаться рекомендаций Яндекса.

Выбирайте способ, исходя из технических предпосылок и собственных навыков программирования. Ну, а если нет времени на то, чтобы разобраться с дублями, закажите бесплатный аудит сайта в impulse.guru

Помимо рекомендаций по работе с дублями вы получите массу полезной информации о своем ресурсе: наличии ошибок в HTML-коде, заголовках, метатегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента. В итоге у вас на руках будет готовая SEO-стратегия продвижения ресурса в интересах вашего бизнеса.

# SEO

Загрузка...

рейтинг

Загрузка...

рейтинг

11014