Почему восстанавливать сайты из Веб Архива — это дичь

Как только речь заходит про дропы и восстановление сайтов на них, почему-то все думают только о Веб Архиве (web.archive.org). И пока не набьют шишки на паре десятков сайтах, восстановленных через Веб Архив, увы, не начинают смотреть в другие стороны. Ниже я описал основные причины — почему восстановление сайтов через Веб Архив — это плохо.

Важно понимать, что Веб Архив — это не инструмент для SEO-оптимизаторов и вебмастеров, а общественная организация, которая призвана сохранить важные документы в интернете, которые могут быть удалены. Поэтому и применять этот инструмент для своих нужд нужно с большой осторожностью.

Причина #1 — Кол-во страниц и файлов гораздо меньше, чем было на оригинальном сайте. Краулер Веб Архива сохраняет страницы по собственному алгоритму и у него нет цели сохранить весь сайт на своих серверах. Получается, что при восстановлении сайта из Веб Архива вы получаете сайт, на котором будет не хватать большого количества страниц (не всегда, но примерно в 90% случаев).

  • Меньше страниц, соответственно, какая-то часть страниц, которые не получали траффик потеряются, и после восстановления
  • На страницы, которые не сохранились в Веб Архиве вели ссылки со всего сайта. Соответственно, при восстановлении получаем сайт с большим количеством битых ссылок.

Для сравнения, взял несколько сайтов, которые восстанавливал через MyDrop.io в декабре 2017 и сравнил реальное кол-во страниц с тем, которые сохранились в Веб Архиве.

Даже несмотря на то, что ещё не все страницы у восстановленных дропов вошли в индекс, видно, что только для последнего сайта совпадает кол-во страниц из Веб Архива с тем, что реально есть на сайте.

Причина #2 — URL’ы в Веб Архиве могут не соответствовать тому, что было на сайте на самом деле. Веб Архив сохраняет все страницы в виде статики, от чего могут быть проблемы при переносе этих страниц на ваш сервис. Две самые распространённые ошибки:

  • Если в URL используются параметры, то конечная страница изменит URL и потеряет вес. Например, если на восстанавливаемом сайт была страница с URL’ом «page.php?param=1&param=2», то на ваш сервер/хостинг она сохранится как папка «page.php_param=1_param=2» с файлом index.htm внутри, на котором и будет контент конечной страницы.
  • Многие страницы сохраняются как папки. Если на исходном файле URL был отличным от htm или html (т.е. не было явно указано, что расширение страницы html), она будет сохранена как папка, или расширение будет приписано автоматически.

Для тех, кто не понял, какие последствия это несёт проблема новых урлов:

  1. Для поисковых систем это будут абсолютно новые страницы и урлы, соответственно ни о каков возврате траффика на них не стоит мечтать. Как только вы меняете в URL хотя бы на один символ, поисковая система начинает воспринимать страницу как новую (только если не склеить со старой). Склейка старых и новых урлов для сайтов из Веб Архива — большая проблема, т.к. вам нужно будет восстановить большое кол-во паттернов для редиректов в htaccess, что только дополняет проблемы при восстановлении.
  2. Если на эти страницы стояли какие-то урлы, то нужно забыть о том, что у страниц восстановится «ссылочный вес» (он же Page Rank).
  3. Из-за новых урлов в восстановленных через Веб Архив сайтах, может сломаться (и часто так оно и есть) перелинковка внутри сайта.

Причина #3 — Актуальность данных оставляет желать лучшего. Страницы, сохранённые Веб Архивом, в лучшем случае скачиваются по несколько раз в год. В худшем, какие-то страницы могут быть скачаны 3-5 лет назад. В итоге, не редки ситуации, когда страницы скаченного сайта будут иметь разный дизайн или какие-то элементы интерфейса (меню, или блоки).


Заключение

Прибегайте к скачиванию данных из Веб Архива только в крайнем случае. Для того, чтобы нормально восставить сайт, и Веб Архива нужно потратить не мало времени.


Комментарии:

Хороший пост)

«увы, не начинают смотреть в другие стороны» — что за стороны?

    Одна из таких сторон — MyDrop.io 🙂

Тут батенька я с вами не согласен. Вебархив зачастую сохраняет основные страницы, которые есть в индексе ПС и приносят трафик. Да, вебархив не делает полной копии сайта, но от 50 до 70 % нужных страниц он делает. А при полной отсутствии другой альтернативы это очень даже не плохо. Остается вопрос только в получении качественной копии, это да. На сколько я знаю есть несколько сервисов которые предлагают услугу восстанавления (robo2.net r-tools.org — как я понимаю оба от одного разработчика и еще один без диза (видать только на стадии теста) но с очень детальной проработкой парсинга и кучей плюшек http://parsim.site) тут и страницы остаются на своих урл и лишнее из кода удаляется. Так что не нужно вебархив сбрасывать со щитов, он еще как полезен 😉


Оставьте комментарий