Гэри Иллис из Google поделился обширной информацией о том, как Google обнаруживает повторяющиеся страницы, а затем выбирает каноническую страницу для включения в страницы результатов поисковой системы.

Он также рассказал, как взвешиваются не менее двадцати различных сигналов, чтобы помочь идентифицировать каноническую страницу, и почему машинное обучение используется для корректировки весов.

 

Как Google обрабатывает канонизацию

 

Гэри сначала начинает с описания того, как сканируются сайты и индексируются документы. Затем он переходит к следующему этапу - канонизации и обнаружению дубликатов.

Он подробно описывает сокращение содержимого до контрольной суммы, числа, которое затем сравнивается с контрольными суммами других страниц для определения идентичных контрольных сумм.

Гэри:

«Мы собираем сигналы, и теперь мы подошли к следующему шагу, который фактически является канонизацией и обнаружением дублирования.

… Сначала вы должны обнаружить дубликаты, по сути, сгруппировать их вместе, заявив, что все эти страницы являются дублированием друг друга. А затем вам нужно найти для всех них страницу лидеров.

И то, как мы это делаем, возможно, так делают большинство людей, другие поисковые системы, которые в основном сводят контент к хэшу или контрольной сумме, а затем сравнивают контрольные суммы.

И это потому, что это сделать намного проще, чем сравнивать, возможно, три тысячи слов ...

… Итак, мы сокращаем содержимое до контрольной суммы, и делаем это, потому что мы не хотим сканировать весь текст, потому что это просто не имеет смысла. По сути, это требует больше ресурсов, и результат будет примерно таким же. Итак, мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем их с контрольными суммами ».

Затем Гэри отвечает, обнаруживает ли этот процесс почти повторяющиеся или точные дубликаты:

Хороший вопрос. Он может поймать оба. Также он может ловить рядом дубликаты.

У нас есть несколько алгоритмов, которые, например, пытаются обнаружить, а затем удалить шаблон со страниц.

Так, например, мы исключаем навигацию из расчета контрольной суммы. Убираем и нижний колонтитул. И тогда у вас остается то, что мы называем центральным элементом, то есть центральное содержимое страницы, что-то вроде самой сути страницы.

Когда мы вычисляем контрольные суммы и сравниваем контрольные суммы друг с другом, то те, которые довольно похожи или, по крайней мере, немного похожи, мы объединяем их в дублирующий кластер ».

Затем Гэри спросили, что такое контрольная сумма:

«Контрольная сумма - это в основном хэш содержимого. В основном отпечаток пальца. По сути, это отпечаток чего-то. В данном случае это содержимое файла…

И затем, как только мы вычислили эти контрольные суммы, у нас есть дублированный кластер. Затем нам нужно выбрать один документ, который мы хотим показать в результатах поиска ».

Затем Гэри обсудил причину, по которой Google предотвращает появление повторяющихся страниц в поисковой выдаче:

"Зачем мы это делаем? Мы делаем это, потому что обычно пользователям не нравится, когда один и тот же контент повторяется во многих результатах поиска. И мы делаем это еще и потому, что наше пространство для хранения в индексе не бесконечно. В принципе, зачем нам хранить дубликаты в нашем индексе? »

Затем он возвращается к сути темы, обнаруживая дубликаты и выбирая каноническую страницу:

«Но вычислить, какая из них будет канонической, а какая - ведущей в кластере, на самом деле не так просто. Потому что есть сценарии, в которых даже людям будет довольно сложно сказать, какая страница должна быть той, которая должна отображаться в результатах поиска.

Итак, мы используем, я думаю, более двадцати сигналов, мы используем более двадцати сигналов, чтобы решить, какую страницу выбрать как каноническую из дублированного кластера.

И большинство из вас, вероятно, догадываются, какими будут эти сигналы. Очевидно, что один - это содержание.

Но это могут быть и такие вещи, как, например, PageRank, например, какая страница имеет более высокий PageRank, потому что мы все еще используем PageRank после всех этих лет.

Это может быть, особенно на том же сайте, какая страница находится на URL-адресе https, какая страница включена в карту сайта или если одна страница перенаправляется на другую страницу, тогда это очень четкий сигнал, что другая страница должна стать канонической, атрибут rel = canonical ... снова является довольно сильным сигналом ... потому что ... кто-то указал, что эта другая страница должна быть канонической.

А затем, как только мы сравнили все эти сигналы для всех пар страниц, мы пришли к фактическому каноническому. И тогда каждый из этих сигналов, которые мы используем, имеет свой вес. И мы используем машинное обучение вуду, чтобы вычислить вес этих сигналов ».

Теперь он переходит к деталям и объясняет причину, по которой Google дает перенаправлениям больший вес, чем сигнал URL http / https:

«Но, например, чтобы дать вам представление, 301 редирект или любой другой вид перенаправления на самом деле должен иметь гораздо больший вес, когда дело доходит до канонизации, чем то, находится ли страница на URL-адресе http или https.

Потому что в конечном итоге пользователь увидит цель перенаправления. Поэтому нет смысла включать источник переадресации в результаты поиска ».

Мюллер спрашивает его, почему Google использует машинное обучение для корректировки весов сигналов:

«Так что, иногда мы ошибаемся? Зачем нам машинное обучение, ведь мы просто записываем эти веса один раз, и тогда все идеально, не так ли? "

Затем Гэри поделился анекдотом о том, как он работал над канонизацией, пытаясь ввести hreflang в расчет в качестве сигнала. Он рассказал, что было кошмаром пытаться регулировать веса вручную. Он сказал, что ручная корректировка весов может отбросить другие веса, что приведет к неожиданным результатам, таким как странные результаты поиска, которые не имеют смысла.

Он поделился примером ошибки страниц с короткими URL-адресами, которые внезапно стали лучше ранжироваться, что Гэри назвал глупым.

Он также поделился анекдотом о том, как вручную уменьшить сигнал карты сайта, чтобы справиться с ошибкой, связанной с канонизацией, но это усиливает другой сигнал, что затем вызывает другие проблемы.

Дело в том, что все весовые сигналы тесно взаимосвязаны, и для успешного внесения изменений в весовые коэффициенты требуется машинное обучение.

Гэри:

«Допустим, ... вес сигнала карты сайта слишком велик. А затем, допустим, команда обманщиков говорит: «Хорошо, давайте немного уменьшим этот сигнал».

Но затем, когда они немного уменьшат этот сигнал, другой сигнал станет более мощным.

Но вы не можете контролировать, какой сигнал, потому что их около двадцати.

А затем вы настраиваете тот другой сигнал, который внезапно становится более мощным или тяжелым, а затем генерирует еще один сигнал. А потом вы настраиваете его, и, по сути, это бесконечная игра, по сути, это настоящий удар крота.

Поэтому, если вы подадите все эти сигналы в алгоритм машинного обучения, а также все желаемые результаты, вы сможете обучить его устанавливать эти веса за вас, а затем использовать те веса, которые были рассчитаны или предложены алгоритмом машинного обучения ».

Затем Джон Мюллер спрашивает, могут ли эти двадцать весов, такие как ранее упомянутый сигнал карты сайта, считаться сигналами ранжирования.

Мюллер:

«Являются ли эти веса фактором ранжирования? … Или канонизация не зависит от рейтинга? »

Гэри ответил:

«Итак, канонизация полностью не зависит от ранжирования. Но страница, которую мы выбрали в качестве канонической, попадет на страницы результатов поиска и будет ранжироваться, но не на основе этих сигналов ».

Выводы

Гэри много рассказывал о том, как работает канонизация, в том числе о ее сложности. Они обсуждали возможность записи этой информации позже, но казались устрашенными задачей записать все это.

Эпизод подкаста был озаглавлен «Как технический контент для поиска пишется и публикуется в Google, и многое другое!» но я должен сказать, что наиболее интересной частью было описание Гэри канонизации внутри Google.