Браузеры. Восстановление. Windows. Оптимизаторы. Антивирус

Наличие внутренних дублей страниц может привести к ошибкам индексации сайта и даже свести на нет результаты продвижения. К примеру, если у продвигаемой страницы есть дубли, после очередного апдейта один из них может заменить в выдаче нужную страницу. А это обычно сопровождается существенным проседанием позиций, так как у дубля, в отличие от продвигаемой страницы, нет ссылочной массы.

Откуда берутся дубли страниц?

Как я только что упоминала, дубли бывают четкие и нечеткие.
Четкие дубли – это страницы с абсолютно одинаковым контентом, которые имеют разные URL-адреса. Например, страница для печати и ее обычный оригинал, страницы с идентификаторами сессий, одни и те же страницы с разными расширениями (.html, .php, .htm). Большинство четких дублей генерируются движком сайта, но есть и такие, которые возникают из-за невнимательности вебмастера. К примеру, разные URL для главной страницы – у одного нашего клиента до недавнего времени «морда» совершенно статичного сайта (без движка) была доступна по трем разным URL-адресам: site.ru/, site.ru/index.html и site.ru/default.html. Очень часто четкие дубли появляются после замены дизайна и структуры сайта – все страницы получают новые URL-адреса, но старые адреса тоже работают, и в результате каждая страница доступна по 2 разным URL.

Нечеткие дубли – это страницы с очень похожим контентом:
где контентная часть по объему намного меньше сквозной части : страницы галерей (где само содержание страницы состоит из одной лишь картинки, а остальное – сквозные блоки), страницы товарных позиций с описанием товара всего одним предложением и т.д..
страницы, на которых частично (или полностью, но в разном порядке) повторяется одно и то же содержание . Например, страницы категорий товаров в интернет-магазинах, на которых одни и те же товары отсортированы по разным показателям (по цене, по новизне, по рейтингу и т.д.) или страницы рубрик, где пересекаются одни и те же товары с одними и теми же описаниями. А также страницы поиска по сайту, страницы с анонсами новостей (если один и тот же анонс используется на нескольких страницах) и т.д.

Как определить, есть ли на сайте дубли?

Определить наличие внутренних дублей на сайте можно с помощью поиска Яндекса. Для этого в поисковой строке в расширенном поиске нужно ввести кусок текста страницы, подозреваемой в дублях (текст нужно вводить в кавычках), указав в строке «на сайте» свой домен. Все найденные страницы могут быть четкими или нечеткими дублями друг друга:

Определить дубли можно и с помощью поиска Google. Для этого нужно в поисковую строку ввести кусок текста проверяемой страницы в кавычках и через пробел указать область поиска – site:examplesite.ru. Пример запроса на проверку дублей:

“Длинное предложиение из десяти-пятнадцати слов со страницы, которую мы подозреваем в том, что у нее есть дубли и хотим подтвердить или опровергнуть это” site:examplesite.ru

Если дубли найдутся, это будет выглядеть так:

Как избавиться от дублей страниц?

Оптимальный способ избавления от дублей зависит от того, каким образом дубль появился на сайте и есть ли необходимость оставлять его в индексе (например, если это страница товарной категории или галереи).

Директива Disallow в Robots.txt

Директива “Disallow” используется для запрещения индексации страниц поисковыми роботами и для удаления из базы уже проиндексированных страниц. Это оптимальный вариант борьбы с дублями в случаях, если дублированные страницы находятся сугубо в конкретных директориях или если структура URL позволяет закрыть много дублей одним правилом.
Например, если нужно закрыть все страницы с результатами поиска по сайту, которые находятся в папке www.examplesite.ru/search/, достаточно в Robots.txt прописать правило:

Другой пример. Если знак «?» является идентификатором сеанса, можно запретить индексацию всех страниц, содержащих этот знак, одним правилом:

Таким образом можно запрещать к индексации четкие дубли: страницы для печати, страницы идентификаторов сессий и т.д., страницы поиска по сайту и т.д.
Описание директивы «Disallow» в разделе помощи Яндекса
Описание правил блокировки и удаления страниц в справке Google

Тег rel=canonical

Тег rel=canonical используется для того, чтоб указать роботам, какая именно страница из группы дублей должна участвовать в поиске. Такая страница называется канонической .
Для того, чтоб указать роботам каноническую страницу, необходимо на неосновных страницах прописать ее URL:

Такой способ избавления от дублей отлично подходит в том случае, если дублей достаточно много, но закрыть их единым правилом в Robots.txt невозможно из-за особенностей URL .

301 редирект

301 Permanent Redirect используется для переадресации пользователей и поисковых ботов с одной страницы на другую. Использовать этот способ нужно в случае, если некоторые страницы в результате смены движка или структуры сайта поменяли URL, и одна и та же страница доступна и по старому, и по новому URL. 301 редирект дает сигнал поисковым ботам, что страница навсегда сменила адрес на новый, в результате чего вес cтарой страницы передается новой (в большинстве случаев).

Настроить редирект с одной страницы на другую можно, прописав в файле.htaccess такое правило:

Redirect 301 /category/old-page.html http://www.melodina.ru/category/new-page.html

Можно настроить и массовый редирект со страниц одного типа на другой, но для этого нужно, чтоб у них была одинаковая структура URL.

О том, как сделать 301 редирект на блоге Devaka.ru .

Творческий подход

Бывают случаи, когда страницы, имеющие признаки нечетких дублей, действительно содержат полезную информацию, и удалять их из индекса не хотелось бы. Что делать в таком случае? Менять, добавлять или уникализировать контент.
Например, если проблема с нечеткими дублями возникла из-за слишком объемной навигации , нужно искать способы увеличить контентную часть или .

Часто бывает, что страницы с описаниями товаров одной и той же категории очень похожи друг на друга . Уникализировать такой текст не всегда возможно, а закрывать к индексации нецелесообразно (это уменьшает контентную часть). В этом случае можно посоветовать добавлять на страницы какие-то интересные блоки: отзывы о товаре, список отличий от других товаров и т.д.

В случае, если в разных рубриках выводится много одних и тех же товаров с одинаковыми описаниями, тоже можно применить творческий подход . Допустим, есть интернет-магазин сумок, где одни и те же товары выводятся сразу в нескольких категориях. Например, женская кожаная сумка с ручкой от Chanel может выводиться сразу в 4-х категориях женские сумки, кожаные сумки, сумки с ручкой и сумки Chanel. В этом нет ничего плохого, так как сумка действительно подходит для всех 4-х категорий, но если анонс с описанием сумки выводится во всех этих категориях, это может навредить (особенно если пересекающихся товаров много). Выход – либо не выводить анонсы на страницах рубрик вообще, либо сокращать их до минимум и автоматически менять описания в зависимости от категорий, на которых выводится товар.
Пример: Стильная [женская] [кожаная] cумка черного цвета [с ручкой] на каждый день.

Я встречала много разных вариантов внутренних дублей на сайтах разной сложности, но не было такой проблемы, которую нельзя было бы решить . Главное, не откладывать вопрос с дублями до тех пор, когда нужные страницы начнут выпадать из индекса и сайт станет терять трафик.

Встречаются практически всегда. Это связано с тем, что разработчики сайта не учли множество нюансов связанных с SEO. Поэтому обычно вопросы с дублями решает оптимизатор совместно с вебмастерами.

1. Что такое дубли страниц на сайте

Дубли страниц - это страницы с разными URL (адрес), но с одинаковым содержимом

Например, одна и та же страница доступна по адресам (код ответа 200)

/category/razdel.html /category/razdel/

Подобных примеров с дублями страниц можно привести очень много. При этом даже если содержание страницы будет немного другое, очень важное значение имеет то, что название страницы, которое прописывается в и <h1> может совпадать. Этого уже достаточно, чтобы создать себе сложности в поисковых системах.</p> <p>Чаще всего проблемы с множеством дублей встречаются в интернет-магазинах. Их каталоги как правило выводится через страницы с номерами:</p> <p>Адреса этих страниц как правило заканчиваются на page=N , где N-номер страницы. Тайтлы и заголовки никто у каждой страницы естественно не меняет. Итого на сайте может присутствовать десятки страниц с одинаковыми заголовками. Например:</p> <blockquote><span>/category/kosmetika?page=1 /category/kosmetika?page=2 /category/kosmetika?page=3 </span> </blockquote> <p>А еще часто добавляют и параметр сортировки sort=alf , тогда количество дублей начинает расти еще быстрее:</p> <blockquote><span>/category/kosmetika?page=1&sort=alf /category/kosmetika?sort=alf&page=1 /category/kosmetika?sort=alf /category/kosmetika?page=1 </span> </blockquote> <p>Возможны и другие варианты сортировок. Получаем, что один тайтл выводится на десятках и даже сотнях страниц с разными URL.</p> <h2>2. Почему важно бороться с дублями страниц</h2> <p>Поисковая машина ранжирует документы согласно своему алгоритму. К примеру, пользователь задал какой-то запрос в поисковике, а у Вас на сайте есть множество страниц с одинаковым заголовком. Какую из этих страниц надо выдать поисковой машине? Непонятно. Также это снижает внутренний вес других страниц. Снижается траст сайта .</p> <p>Дубли страниц оказывают негативное влияние на весь сайт в целом. При этом решить эту проблему можно довольно простыми способами. Давайте для начала кратко рассмотрим варианты поиска дублей страниц.</p> <h2>3. Как найти дубли страниц на сайте</h2> <h3>3.1. Программы сканнеры</h3> <p>Обычно программы-сканеры хорошо ищут дубли страниц внутри сайта переходя по ссылкам. В этом есть большой минус, т.к. если на какую-то доступную страницу нету ссылки, то сканнер просто не сможет ее найти.</p> <p>Бесплатными сканнерами сайта являются:</p> <ul><li>Netpeak spider</li> </ul><h3>3.2. Онлайн сервисы</h3> <p>Существует несколько онлайн сервисов, которые сканируют сайт. Правда, скорее всего, для больших сайтов они не подойдут, поскольку будут иметь ограничения (например, бесплатный анализ не более 500 страниц).</p> <p>В сервисах Яндекс Вебмастер и Google Вебмастер есть специальный разделы в оптимизации HTML, где можно найти повторяющиеся заголовки. Наверное, это один из самых доступных и легких способов для поиска дублей.</p> <h3>3.3. Через запросы</h3> <p>Также есть возможность попробовать поискать дубли через запросы в поиске Яндекса и Гугла повторяющиеся заголовки</p> <blockquote>Для Яндекса: site : urlsite.ru title :(запрос ) Для Google: site : urlsite.ru intitle :запрос </blockquote> <p>Где urlsite.ru - Ваш адрес сайта. Однако этот способ поможет выявнить глобальные проблемы движка, что впрочем мы и хотели.</p> <h3>3.4. Потенциальные дубли</h3> <p>Далеко не все страницы сайта, которые могли быть в индексе проиндексированы. Но лучше заранее предупредить возможность индексации дублей документов. Например, многие движки любят отдавать корректный ответ сервера по следующим адресам:</p> <blockquote><span>/category/razdel /category/razdel/category/ /category/razdel/category/category/category/category/ </span> </blockquote> <p>Если у вас есть конкурент в выдаче (а он зачастую есть), то он может легко насолить Вам просто добавив пару ссылок на такие страницы. При этом появлятся катастрофичное число новых страниц сайта. Потому что как правило все ссылки на сайте относительные.</p> <blockquote><span>/category/razdel/tovar1.html /category/razdel/category/tovar1.html /category/razdel/category/category/category/category/tovar1.html </span> </blockquote> <h2>4. Как удалить дубли сайта из индекса</h2> <p>Дубли страниц бывают разные и бороться с ними нужно по разному. Рассмотрим все возможные случаи.</p> <h3>4.1. Дубли за счет доступности сайта по www и без www</h3> <p>Начнем с самого часто встречающейся ситуации, когда сайт доступен по www и без www. Например</p> <blockquote>www.site.ru/cat/ site.ru/cat/ </blockquote> <p>Эту ситуацию легко поправить, прописав в.htaccess соответствующие директивы (см. редирект 301 с www на без www).</p> <p>Редирект без www на страницу сайта с www (site.ru -> www.site.ru)</p> <blockquote>RewriteEngine On RewriteCond %{HTTP_HOST} ^site.ru RewriteRule (.*) http://www.site.ru/$1 </blockquote> <p>Для обратного редиректа с www на без www (www.site.ru -> site.ru)</p> <blockquote>RewriteEngine On RewriteCond %{HTTP_HOST} ^www.site.ru RewriteRule (.*) http://site.ru/$1 </blockquote> <p>Примечание </p><p>Помимо этих дублей советую прописать в.htaccess другие возможные варианты дублей. Я имею ввиду про добавление.html у директорий:</p> <blockquote>/category/index.html /category/ </blockquote> <p>А так же слэшей</p> <p>Как с этим бороться читайте в отдельных статьях:</p> <h3>4.2. Дубли за счет сортировок и лишних страниц каталога</h3> <p>Каждый такой случай нужно рассматривать более индивидуально, но общие рецепты можно написать можно. Рассмотрим два варианта.</p> <h4>4.2.1. Через мета тег meta robots</h4> <p>Если есть возможность прописать директиву meta на дублях страниц, то лучше всего это сделать:</p> <blockquote><meta name ="robots " content ="noindex,nofollow "> </blockquote> <p>Т.е. этот тег должен выводиться только на страницах:</p> <blockquote>/category/kosmetika?page=2 /category/kosmetika?page=3 /category/kosmetika?page=4 /category/kosmetika?page=4&sort=alf </blockquote> <p>Но не на всем сайте! Сделать это несложно. Например в php можно прописать</p> <blockquote><span>if($_GET["page"] != "" || $_GET["sort"] != "") </span> { echo "<meta name ="robots " content ="noindex,nofollow "; } else { echo "<meta name ="robots " content ="all "; } </blockquote> <h4>4.2.2. Через robots.txt</h4> <p>В корне сайта есть файл robots.txt . В нем можно прописать правила индексирования сайта. При этом сделать это даже проще, чем прописывать теги meta. Но если первый способ сработает на 100%, то задавая запрет индексации через robots.txt мы даем лишь рекомендацию поисковым машинам не индексировать ненужные документы.</p> <p>Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.</p> <i> </i><h2>Что такое дубли страниц?</h2> <p>Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.</p> <p>Адреса таких страниц могут быть почти идентичными.</p> <p><b>Дубли: </b></p> <ul><li>с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.</li> <li>со слешем в конце, например, site.ru/seo/ и site.ru/seo</li> <li>с.php или.html в конце, site.ru/seo.html и site.ru/seo.php</li> </ul><p>Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.</p> <h2>Какими бывают дубликаты?</h2> <p>Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:</p> <ul><li><b>Полные дубли </b> - когда одна и та же страница размещена по 2-м и более адресам.</li> <li><b>Частичные дубли </b> - когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.</li> </ul><h2>Причины возникновения дублей</h2> <p>Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.</p> <ol><li>Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;</li> <li>Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;</li> <li>URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;</li> <li>Страницы комментариев;</li> <li>Страницы для печати;</li> <li>Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.</li> </ol><h2>Влияние дублей на продвижение сайта</h2> <ul><li>Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.</li> <li>Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.</li> <li>Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).</li> <li>За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.</li> <li>Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.</li> </ul><h2>Как найти дубли страниц</h2> <p>Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.</p> <h3>Программа XENU (полностью бесплатно)</h3> <p>Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.</p> <p>Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.</p> <h3>Программа Screaming Frog SEO Spider (частично бесплатна)</h3> <p><img src='https://i1.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/screaming-frog-seo-spider-8.jpg' align="center" width="100%" loading=lazy></p> <p>Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.</p> <h3>Программа Netpeak Spider (платная с триалом)</h3> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/2017-09-06_14-37-08.png' align="center" width="100%" loading=lazy></p> <h3><span>Яндекс Вебмастер </span></h3> <p>Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.</p> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/Dubli-stranits-YAndeks-Vebmaster-2.png' align="center" width="100%" loading=lazy></p> <h3>Google Search Console </h3> <p>В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).</p> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/image05.png' align="center" width="100%" loading=lazy></p> <h3><span>Язык поисковых запросов </span></h3> <p>Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».</p> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/Dubli-stranits-Site.png' align="center" width="100%" loading=lazy></p> <h3>Сервисы онлайн </h3> <p>Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.</p> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/2018-07-11_00-55-16.png' align="center" width="100%" loading=lazy></p> <p>Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic</p> <p><img src='https://i2.wp.com/webmaster-seo.ru/wp-content/uploads/2018/07/2018-07-11_00-56-56.png' align="center" width="100%" loading=lazy></p> <h2>Удаление дублей страниц сайта</h2> <p>Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:</p> <ol><li>Их физическому удалению - хорошее решение для статических дублей.</li> <li>Запрещению индексации дублей в - подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.</li> <li> в файле-конфигураторе «.htaccess» - хорошее решение для случая с рефф-метками и ошибками в иерархии URL.</li> <li>Установке тега « » - лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.</li> <li>Установке тега «meta name=»robots» content=»noindex, nofollow»» - решение для печатных версий, табов с отзывами на товарах.</li> </ol><h2>Чек-лист по дублям страниц</h2> <p>Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.</p> <p>Запомните следующее:</p> <ol><li>Полные дубли - это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли - это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.</li> <li>Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.</li> <li>Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.</li> <li>Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.</li> <li>Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.</li> <li>Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».</li> </ol> <p>Сегодня мы будем говорить о дублировании контента, а точнее о методах поисках дублей страниц на вашем ресурсе. Проблема дублирования в современном интернете стоит остро, так как если у вас имеются <b>дубли страниц на сайте, </b> вы можете попасть под санкции поисковых систем.</p><p>И так первое, что нам необходимо знать это “<i>что такое дублирование контента (дубли страниц) </i>” и какие бывают их виды, а потом мы уже будем искать пути борьбы с ними.</p><p><b>Дублирование контента </b> – это отображение одного и того же текста на разных страницах сайта (на разных адресах). Дубли страниц на сайте бывают двух видов:</p><ul><li>Полные дубли;</li><li>Неполные (частичные) дубли;</li> </ul><p><b>Полные дубли </b> – это когда одна страница, в полной мере отображает содержимое другой и при этом имеет другой адрес.?&cat=10&product=25 и https://сайт/?product=25&cat=10</p><p><b>Неполные дубли </b> – это частичное отображение текста страницы на другой. Это например новостная лента в блогах или текст в сайдбарах. Наиболее часто они встречаются в интернет-магазинах и сайтах где публикуются анонсы, новости.</p><h2>Как определить дубли страницы на сайте.</h2><p>Ниже я приведу методы которые используются для определения дублей. Ничего сложного здесь нету, только необходимо немного времени и терпения.</p><ol><li>Поисковая выдача Yandex;</li><li>Поисковая выдача Google;</li><li>Страница открывается со слешем “/” и без;</li><li>Страница открывается с www и без www;</li> </ol><p>1. Начинаем с первого метода, переходим в аккаунт Google–вебмастер. Дальше переходим на вкладку “<i>Вид в поиске либо Оптимизаци </i>” и выбираем “<i>Оптимизация HTML </i>”. На этой странице можно найти и посмотреть все похожие мета-описания и заголовки title.</p><p>Google Webmaster определяем дубли страниц на сайте. </p><p>Этот метод отлично подойдет для определения полных дублей, частичные дубли с помощью этого метода определить не возможно.</p><p>2. Далее рассматриваем как можно определить дубли с помощь поисковой выдачи Yandex. Переходим в поисковую систему и вводим часть текста, при этом обворачиваем его в “кавычки” для того что бы получить точное вхождение фразы.</p> <br><img src='https://i1.wp.com/loleknbolek.com/wp-content/uploads/2014/08/%D0%91%D0%B5%D0%B7%D1%8B%D0%BC%D1%8F%D0%BD%D0%BD%D1%8B%D0%B9.jpg' width="100%" loading=lazy><br><img src='https://i0.wp.com/loleknbolek.com/wp-content/uploads/2014/08/%D0%91%D0%B5%D0%B7%D1%8B%D0%BC%D1%8F%D0%BD%D0%BD%D1%8B%D0%B9-1024x530.jpg' width="100%" loading=lazy> Yandex — проверяем дубли страниц <p>Если в выдаче появилась только одна страница оригинал, это отлично – значит дублей нету, если же появилось пару страниц, значит имеются дубли которые необходимо удалить.</p><p>3. С помощью поисковой системы Google, определять дубли страниц на сайте, можно также, как и в Yandex. Только при этом необходимо в поисковую строку ввести запрос site:moysite.ru -site:moysite.ru/&, где фразу moysite.ru, заменяем на адрес своего сайта. Если в выдаче нашло только один ваш сайт значит дублей нету, если несколько, необходимо предпринимать меры борьбы с дублированием.</p><p>4. Дублирование также может бить если вы используете . Система может генерировать автоматические ссылки которые будут открываться как со слешем “/” так и без.?&cat=10&product=25, вы можете проверить открывается ли этот адрес со слешем в конце “/” https://сайт/?&cat=10&product=25/. Если открывается и не перенаправляет () на выше приведенную страницу, то это дубль страница. Если перенаправляет все работает нормально и можно не беспокоится.</p><p>5. Определяем зеркала главной страницы сайта. Аналогично выше описанному методу, пробуем добавлять www или убирать спереди адреса сайта. Если заходит и по одному и по другому адресу, то у вас имеются дубли главной страницы и необходимо их склеить и выбрать главное зеркало сайта.</p><p>Ищите дублируемый контент на своем ресурсе, так как это может привести к плохим последствиям. Если Яндекс еще более лояльно относится к дублям, то Google очень сильно наказывает за это и накладывает . Дубли страниц это грубо говоря мусор интернета, а поисковые системы не любят мусор так как он кушает много ресурсов. Поэтому советую устранять эти проблемы еще до индексации статьи поисковой системой.</p> <p><b>Добрый день, друзья! </b> </span> Уже очень давно меня просили читатели блога сделать пост о том, как избавиться от replytocom. Тема эта актуальна, так как из-за этого в индексе получается огромное число похожих страничек с параметрами коммента. Все дело в том, что многие блоги созданы на CMS WordPress, который грешит дубликацией комментариев. Поэтому я решил дать всю информацию не только о replytocom. В статье я раскрываю понятие дублированного контента, даю методику поиска дублей страниц сайта и поясняю, почему от них нужно избавляться. А в следующем посте я покажу, как нужно их удалять.</p> <i> </i><h2>Дублированный контент на сайте</h2> <p>Дубли бывают разными — тихими и заразными. 🙂 Если серьезно, то дублированная страница — это документ сайта, который может иметь полностью или частично одинаковый контент. Разумеется, каждый дубль имеет свой адрес (url страницы). Четкий дубль страницы может возникнуть по следующим причинам:</p> <ul><li>искусственно создаются владельцем сайта для специальных нужд. Например, страницы для печати, которые позволяют пользователю коммерческого сайта скопировать информацию по выбранному товару / услуге.</li> <li>генерируются движком ресурса, так как это у них заложено в теле. Некоторые современные CMS выдают похожие страницы с другими урлами, размещенные по своим разным дерикториям.</li> <li>появляются за счет ошибок веб-мастера, который управляет сайтом. Например, ресурс обзаводиться двумя одинаковыми главными страницами с разными адресами (например, site.ru и site.ru/index.php).</li> <li>возникают по случаю изменения структуры сайта. Например, при создании нового шаблона с другой системой урлов, новые страницы со старым контентом получают совершенно другие адреса.</li> </ul><p>Нечеткий дубль получают страницы, которые частично дублируют контент. Такие страницы имеют общую часть шаблона сайта, но отличаются небольшим контентным наполнением. Например, такими небольшими дублями могут быть страницы ресурса, имеющие результаты поиска или отдельные элементы статьи (например, картинки — такое очень часто бывает во многих шаблонах блогов).</p> <p>На следующем рисунке я собрал самые частые варианты дублей страниц, которые присущие блогу с движком Вордпресс (без учета различных плагинов и фишек шаблона, которые также частенько создают дублированные документы):</p> <p><img src='https://i1.wp.com/workformation.ru/wp-content/uploads/2014/05/blog.jpg' align="center" width="100%" loading=lazy></p> <p>Наличие дублей страниц на сайте может говорить о том, что или веб-мастер не знает об их присутствии, или он просто не умеет с ними бороться. А бороться с ними нужно, так как они приводят к различным ошибкам и проблемам в плане поискового продвижения. Об этом сейчас и поговорим.</p> <h2>Почему нужно удалять дубли страниц</h2> <p>Но какими бы не были пассивными дубли страниц, они могут подложить конкретную свинью владельцу любого сайта или блога. Итак, чем же так опасен дублированный контент? Вот основные проблемы, которые возникают при наличии дублей:</p> <p><b>Ухудшение индексации сайта </b>. </span> Я называю это проблемой №1. Дело в том, что в зависимости от источника и ошибок веб-мастера, страница сайта может иметь от одного до нескольких или больше дублей. Например, главная может грешить двумя-тремя дупликатами, а посты блогов из-за вездесущего replytocom скопируются по количеству комментариев. И если блог популярный, то и число «левых» страниц будет огромным. А поисковые системы (особенно Google) не любят дубли и поэтому частенько занижают позиции самого сайта.</p> <p><b>Замена релевантной страницы. </b> </span> Алгоритм поисковой системы может посчитать дубль более релевантным, чем продвигаемая страница-оригинал (). Тем самым в выдаче будет находиться не целевая страница, а ее клон. Но у этого клона совсем другие незначительные параметры (ссылочный вес, ), которые со временем пессимизируют сайт в серпе поисковой системы.</p> <p>Итак, подытожим вышесказанное. Дубли страниц создают помеху в нормальной индексации сайта, становятся источником неправильного выбора поисковиком релевантной страницы, забирают влияние естественных внешних ссылок. Также дубли неправильно распределяют внутренний ссылочный вес, отбирая силу у продвигаемых страниц и меняя поведенческие показатели:</p> <p><img src='https://i2.wp.com/workformation.ru/wp-content/uploads/2014/05/problems.jpg' align="center" width="100%" loading=lazy></p> <p>В общем, дубли — это большое зло в поисковом продвижении и страшный сон оптимизатора. 🙂</p> <h2>Как определить и проверить дубли страниц</h2> <p>Есть разные способы поиска и проверки дублей страниц. Они требуют разного уровня знаний CMS и понимание работы поискового индекса. Я покажу самый простой из способов. Это не значит, что если он простой, то не точный. С его помощью легко находятся дубликаты документов сайта. И самое главное — этот способ не требует особых знаний и не займет много времени.</p> <p>Для того, чтобы найти и проверить свой сайт на наличие дубликатов страниц, нужно или воспользоваться расширенным поиском Яндекса (Гугла) или сразу ввести в поисковую строку специальный запрос. Сначала рассмотрим первый вариант.</p> <h3>Проверка сайта на дубли с помощью расширенного поиска</h3> <p>Расширенный поиск Яндекса позволяет получить более точную выдачу благодаря уточняющим параметрам запроса. В нашем случае нам нужно только два параметра — адрес сайта и кусочек текста той страницы, по которой мы ищем дубли. Сначала мы выделяем текст, который находится на той странице нашего сайта (для примера взят абсолютно чужой ресурс), которую будем проверять на дубли. Затем идет в расширенный поиск Яндекса и вносим в соответствующие позиции кусочек контента и адрес сайта:</p> <p><img src='https://i2.wp.com/workformation.ru/wp-content/uploads/2014/05/yandex-1.jpg' align="center" width="100%" loading=lazy></p> <p>Далее мы нажимаем заветное слово «Найти» и русский поисковик начинает формировать выдачу. Она получится не той, которую мы обычно наблюдаем — она будет состоять полностью из заголовков и сниппетов только нашего ресурса. Причем, если в выдаче будет только один результат поиска, то все хорошо — дублированного контента этой страницы нет. Если же есть в полученном серпе несколько результатов, то придется доставать лопату:</p> <p><img src='https://i1.wp.com/workformation.ru/wp-content/uploads/2014/05/yandex-2.jpg' align="center" width="100%" loading=lazy></p> <p>В моем примере поисковик нашел несколько нечетких дублей — ряд страниц из пагинации по некоторым рубрикам. Сразу видно, что на данном сайте страница с выделенным текстом про рецепт салата явно размещалась сразу в разных рубриках. А так как запрет на индексацию страниц пагинации для этого ресурса не ставился, в индексе повылазили всевозможные дубли.</p> <p>Теперь рассмотрим те же действия для зарубежного поисковика. Заходим на страницу расширенного поиска Google и совершаем те же самые действия:</p> <p><img src='https://i2.wp.com/workformation.ru/wp-content/uploads/2014/05/google-1.jpg' align="center" width="100%" loading=lazy></p> <p>Заполнив все необходимое на расширенном поиске, получаем индексацию исследуемого сайта согласно указанному куску текста:</p> <p><img src='https://i0.wp.com/workformation.ru/wp-content/uploads/2014/05/google-2.jpg' align="center" width="100%" loading=lazy></p> <p>Как видим, Гугл также проиндексировал неточные дубли исследуемой страницы — в выдаче все те же страницы рубрик.</p> <p>В принципе получить те же самые результаты можно и не используя расширенный поиск. Для этого нужно в простом варианте Гугла или Яндекса прописать следующий запрос. И в этом заключается второй способ определения дублей.</p> <h3>Поиск дублей страниц с помощью специального запроса</h3> <p>С помощью расширенного поиска легко находятся все дубликаты по заданному тексту. Конечно, с помощью данного способа мы не получим дубли страниц, которые не содержат текст. Например, если дубль создается «кривым» шаблоном, который зачем-то показывает на другой странице картинку, которая находится на странице-оригинале. То такой дубликат выше описанным способом найти не получиться. В таком случае придется использовать другой способ.</p> <p>Его суть проста — с помощью специального оператора мы запрашиваем индексацию всего нашего сайта (или отдельной страницы) и уже вручную смотрим выдачу в поисках дубликаторов. Вот правила синтаксиса этого запроса:</p> <p><img src='https://i2.wp.com/workformation.ru/wp-content/uploads/2014/05/google-5.jpg' align="center" width="100%" loading=lazy></p> <p>Когда мы в запросе указываем адрес главной страницы,то получаем просто список проиндексированных страниц поисковым роботом. Если же мы указывает адрес конкретной страницы, то получаем список проиндексированных дублей этой страницы. В Яндексе они сразу видны. А вот в Гугле все немного сложнее — сначала нам покажут те страницы, которые есть в основной выдаче:</p> <p><img src='https://i2.wp.com/workformation.ru/wp-content/uploads/2014/05/google-6.jpg' align="center" width="100%" loading=lazy></p> <p>Как видно на картинке, в основной выдаче у нас находится одна страница сайта и она же является оригиналом. Но в индексе есть и другие страницы, которые являются дублями. Чтобы их увидеть, нужно нажать на ссылку «Показать скрытые результаты»:</p> <p><img src='https://i0.wp.com/workformation.ru/wp-content/uploads/2014/05/google-41.jpg' align="center" width="100%" loading=lazy></p> <p>В итоге нам выдается список дублей, которые Гугл проиндексировал и связал со страницей-оригиналом (цифра 1 на картинке). В моем примере такими дублями стали страницы с позициями 2 и 3.</p> <p>На второй позиции находится дубль, который является трекбэком данного документа (<i> </i>автоматическое уведомление для других сайтов данной публикации). Вещь конечно нужная, но ее присутствие в индексе не желательно. Хозяин данного сайта это прекрасно понимает и поэтому прописал запрет на индексацию трэкбеков с сайта. Об этом говорит надпись «Описание веб-страницы недоступно из-за ограничений в файле robots.txt». Если посмотреть инструкцию для поисковых систем (robots.txt), то увидим следующую картину:</p> <p><img src='https://i1.wp.com/workformation.ru/wp-content/uploads/2014/05/trackback.jpg' height="186" width="223" loading=lazy></p> <p>Благодаря последним директивам, автор сайта указал на запрет индексации трэкбеков. Но к сожалению, Гугл заносит в свой индекс все, что ему попадется под руку. И здесь уже нужно просто удалять дубли из базы данных. об этом поговорим уже во второй статье, посвященной дублированному контенту.</p> <p>На третьей позиции показан горячо любимый многими блоггерами replytocom. Он получается путем использования комментирования на блогах и сайтах. И благодаря ему возникает просто огромная куча дублей — обычно это количество примерно равно число комментов на ресурсе. В нашем примере этот атрибут, как и трэкбек закрыты для индексации. Но Гугл и его схавал в свой индекс. Тоже нужно чистить вручную.</p> <p>Кстати, если мы немного изменим наш запрос, то можем получить те же результаты, что дает расширенный поиск дублей по кусочку текста:</p> <p><img src='https://i0.wp.com/workformation.ru/wp-content/uploads/2014/05/google-3.jpg' align="center" width="100%" loading=lazy></p> <p>Итак, друзья, в этой статье я приоткрыл занавес над понятием дублей страниц и их успешным поиском и проверкой. В качестве закрепления пройденного материала предлагаю посмотреть мой видеоролик на эту тему. В нем я наглядно показал не только сегодняшний материал в двух частях, но и добавил другие примеры дублированного контента:</p> <p><span class="JBt-4c_ZUTI"></span><br><span class="uwm-kratgYM"></span></p> <p>В следующей статье Вы узнаете, . До встречи!</p> <p>С уважением, Ваш Максим Довженко</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> <div class="moduletable"> <div class="custom"> <div id="yandex_rtb_R-A-173290-2"></div> </div> </div> <div class="moduletable"> <div class="dopzagl">Тематические материалы:</div> <div class="row-fluid dopmat"> <div class="span3"> <div class="image-feat"> <a href="/cddvdblu-ray/kody-dlya-gta-san-andreas-na-android-kody-na-gta-san-andreas-vse-kody-na-mashiny-dengi-oruzhie-kak.html"> <img src="/uploads/569e8a221ee631c71d21321f35d9e2b5.jpg" alt="Коды для GTA San Andreas на Android" title="Коды для GTA San Andreas на Android" / loading=lazy> </a> </div> <header> <a href="/cddvdblu-ray/kody-dlya-gta-san-andreas-na-android-kody-na-gta-san-andreas-vse-kody-na-mashiny-dengi-oruzhie-kak.html">Коды для GTA San Andreas на Android </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/treatment-of-viruses/zona-51-na-gugl-kartah-koordinaty-tainstvennye-zony-chem-drimlend.html"> <img src="/uploads/404e13105b07329e02019180a97ef396.jpg" alt="Зона 51 на гугл картах координаты" title="Зона 51 на гугл картах координаты" / loading=lazy> </a> </div> <header> <a href="/treatment-of-viruses/zona-51-na-gugl-kartah-koordinaty-tainstvennye-zony-chem-drimlend.html">Зона 51 на гугл картах координаты </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/programs/strimy-world-of-tanks-bonus-kody-wot-den-prema-na-halyavu-lbz-dlya-straika-bonus-kod.html"> <img src="/uploads/5b7cba170e1bdba6f05426c836bd7057.jpg" alt="Бонус-коды WoT День према на халяву!" title="Бонус-коды WoT День према на халяву!" / loading=lazy> </a> </div> <header> <a href="/programs/strimy-world-of-tanks-bonus-kody-wot-den-prema-na-halyavu-lbz-dlya-straika-bonus-kod.html">Бонус-коды WoT День према на халяву! </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/optimizers/epf-chem-otkryt-chem-otkryt-epf-format-mozhno-li-izmenit.html"> <img src="/uploads/45f333277a0ee19caef4e0cd9cb6039e.jpg" alt="Epf чем открыть. Чем открыть epf-формат? Можно ли изменить расширение файлов" title="Epf чем открыть. Чем открыть epf-формат? Можно ли изменить расширение файлов" / loading=lazy> </a> </div> <header> <a href="/optimizers/epf-chem-otkryt-chem-otkryt-epf-format-mozhno-li-izmenit.html">Epf чем открыть. Чем открыть epf-формат? Можно ли изменить расширение файлов </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/cddvdblu-ray/1s-yazyk-zaprosov-format-daty-kak-v-zaprose-ukazat-pustuyu-datu-eshch-o-bityh-i.html"> <img src="/uploads/3387634019f9a3e3f125bd6ab83997b6.jpg" alt="Как в запросе указать пустую дату?" title="Как в запросе указать пустую дату?" / loading=lazy> </a> </div> <header> <a href="/cddvdblu-ray/1s-yazyk-zaprosov-format-daty-kak-v-zaprose-ukazat-pustuyu-datu-eshch-o-bityh-i.html">Как в запросе указать пустую дату? </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/recovery/kak-vkontakte-vnesti-cheloveka-chernyi-spisok-kak-dobavit-v-chernyi.html"> <img src="/uploads/64a7cc8b1c82dacb56af504979953c97.jpg" alt="Как добавить в черный список в "ВК"?" title="Как добавить в черный список в "ВК"?" / loading=lazy> </a> </div> <header> <a href="/recovery/kak-vkontakte-vnesti-cheloveka-chernyi-spisok-kak-dobavit-v-chernyi.html">Как добавить в черный список в "ВК"? </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/life-hacks/pandora-3500-instrukciya-po-ekspluatacii-avtosignalizacii-skachat.html"> <img src="/uploads/f7a4c1bc2c08070ea4a5fbe614fa0480.jpg" alt="Пандора 3500 инструкция по эксплуатации" title="Пандора 3500 инструкция по эксплуатации" / loading=lazy> </a> </div> <header> <a href="/life-hacks/pandora-3500-instrukciya-po-ekspluatacii-avtosignalizacii-skachat.html">Пандора 3500 инструкция по эксплуатации </a> </header> </div> <div class="span3"> <div class="image-feat"> <a href="/games/tomagavk-7010-instrukciya-ustanovka-avtozapuska-skachat-besplatno.html"> <img src="/uploads/7223b9496514ca6046a4171b6330f798.jpg" alt="Скачать бесплатно инструкцию по установке и эксплуатации в формате PDF" title="Скачать бесплатно инструкцию по установке и эксплуатации в формате PDF" / loading=lazy> </a> </div> <header> <a href="/games/tomagavk-7010-instrukciya-ustanovka-avtozapuska-skachat-besplatno.html">Скачать бесплатно инструкцию по установке и эксплуатации в формате PDF </a> </header> </div> </div> </div> </p> <div class="article-info muted"> <div class="modified"> <span class="icon-calendar"></span> Обновлено: 30.08.2023 </div> <div class="hits"> <span class="icon-eye-open"></span> 103583 </div> </div> <div class="proofreader_prompt">Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter</div> </div> <div class="sharecont img-rounded"> <span class="lin">ПОДЕЛИТЬСЯ:</span> <div class="share42init" data-url="" data-title=""></div> <script type="text/javascript" src="/templates/vyborovednew/js/share42/share42.js"></script> </div> </div> <div class="span3 mainfreim"> <div class="moduletable"> <h3>Рубрики сайта</h3> <ul class="nav menu"> <li class="item"><a href="/category/windows-10/" title="Windows 10">Windows 10</a></li> <li class="item"><a href="/category/communication/" title="Общение">Общение</a></li> <li class="item"><a href="/category/browsers/" title="Браузеры">Браузеры</a></li> <li class="item"><a href="/category/antivirus/" title="Антивирус">Антивирус</a></li> <li class="item"><a href="/category/office/" title="Офисные">Офисные</a></li> <li class="item"><a href="/category/video/" title="Видео">Видео</a></li> <li class="item"><a href="/category/cddvdblu-ray/" title="CD / DVD / Blu-Ray">CD / DVD / Blu-Ray</a></li> <li class="item"><a href="/category/recovery/" title="Восстановление">Восстановление</a></li> <li class="item"><a href="/category/optimizers/" title="Оптимизаторы">Оптимизаторы</a></li> <li class="item"><a href="/category/programs/" title="Программы">Программы</a></li> <li class="item"><a href="/category/games/" title="Игры">Игры</a></li> </ul> </div> <div class="moduletableadvert"> <div class="customadvert"> <center> </center> </div> </div> </div> </div> </div> </div> </div> <div class="container-fluid"> <div class="row-fluid"> <div class="span12 bottomarrow"> <div class="topbegr futerdesktop"> <div class="container"> <div class="row-fluid"> <div class="span4 center"></a> </div> <div class="span8"> <div class="span12 menufuter center"> <ul class="nav menu"> <li><a class="str" href="/">Главная</a></li> <li><a class="but" href="">О журнале</a></li> <li><a class="otz" href="/feedback.html">Контакты</a></li> <li><a class="vopr" href="">Реклама</a></li> </ul> <div class="span12 futercopir center"><div style="float:left; width:90%;">Copyright © 2024 acjc.ru - Браузеры. Восстановление. Windows. Оптимизаторы. Антивирус</div> <div style="float:right; width:10%;"> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div> <script type="text/javascript"> (function($) { $.lockfixed(".moduletableadvert",{ offset: { top: 10, bottom: 10} }); } )(jQuery); </script> <div id="proofreader_container" class="proofreader_container" style="display:none;"></div></body> </html>