Как защититься от парсинга? Результат Панда. - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Поисковые системы
Дата
USD/RUB90.2486
BTC/USD68856.3712
Поисковые системы Поисковая оптимизация под Google, Yahoo, Bing и т.д.

Закрытая тема
Опции темы Опции просмотра
Старый 24.09.2019, 14:37
Start Post: Как защититься от парсинга? Результат Панда. 
  #21
yuross
Senior Member
 
Регистрация: 26.09.2010
Сообщений: 226
Бабло: $68237
Question

Такая история:

Начали мои сайты потихоньку вылетать с топа (Google USA) по не понятным причинам (были проверены все возможные причины).

Начал анализировать оказывается, что повылетали отдельные страницы. Беру куски текста в кавычки и в Google. И как оказалось, тексты были размещены на десятках сайта и не на просто сайта на ломаных сайтах вордпресса. Мой оригинал внизу или даже в соплях, а весь лом выше. Показатели (траст) ломаных сайтов намного выше моих сайтов.

Дальше смотрю на этих ломах еще траффа на такие страницы валом.
На моих сайтах пострадали (полный вылет с топ 100) только те страницы которые были спарсены.

Проанализировал конкурентов их же также спарсили, и они ушли вниз. В топе остались только супер трасты – тексты, которых также растаскались то они не упали, а стали еще выше.

Так что выходит, берем аукционный трастовый домен и размещаем на нем ворованный текст с топа (слабого сайта который в топе) и получаем топ? (а тот сайт вылетает).

Подозреваю, что на мои сайты пришла постраничная Панда.

Что делать, как в хтаксесе отсекать эти парсеры? Или есть другие варианты?
yuross вне форума  
Старый 05.10.2019, 15:27   #22
blacks
Senior Member
 
Аватар для blacks
 
Регистрация: 23.06.2008
Сообщений: 1,468
Бабло: $282970
По умолчанию

Цитата:
Сообщение от Hector Посмотреть сообщение
blacks, врядли ты сделаешь более эффективное решение, у клауда огромная база
ну у меня сайт на клауде стоит, что-то еще менять надо? просто я ж не могу постоянно быть в режиме "под атакой"
__________________
продам место для рекламы, контакты в ЛС
blacks вне форума  
Старый 05.10.2019, 17:14   #23
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Парни проблема именно в сайтах на wordpress, их боты парсят постоянно, ставьте плагины какие-то я не знаю, ебитесь с nginx настройками, у меня был написан скрипт который автоматом банит всех быстроботов кроме поисковиков, это был пиздец они мощный сервер мне ложили на ура.
Hector вне форума  
Старый 05.10.2019, 18:25   #24
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862885
По умолчанию

вордпрессы и прочие CMS созданы как раз для того, чтобы ложить мощные сервера
там адское кол-во неэффективного кода
в битриксе вообще по 50 запросов в БД на странице
веломан вне форума  
Старый 05.10.2019, 18:31   #25
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

веломан, у меня в шопе на вордпресс по 300 запросов в базу чтобы отрендерить страницу товара. Жесть. Но ничего не поделать, нужно же как-то работать. Приходится городить кеш.
Hector вне форума  
Старый 05.10.2019, 23:23   #26
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862885
По умолчанию

300 это ты конечно хватанул лишку
я даже таких цифр то не знаю...
три сотни блять
3 (!) запроса максимум должно быть
+ остальное в редиске
веломан вне форума  
Старый 06.10.2019, 10:25   #27
gumu
Senior Member
 
Регистрация: 29.01.2015
Сообщений: 486
Бабло: $66395
По умолчанию

Цитата:
Сообщение от веломан Посмотреть сообщение
вордпрессы и прочие CMS созданы как раз для того, чтобы ложить мощные сервера
там адское кол-во неэффективного кода
в битриксе вообще по 50 запросов в БД на странице
Цитата:
Сообщение от Hector Посмотреть сообщение
веломан, у меня в шопе на вордпресс по 300 запросов в базу чтобы отрендерить страницу товара. Жесть. Но ничего не поделать, нужно же как-то работать. Приходится городить кеш.
Похоже, что вы что-то не так делаете.
Сервер от хетзнера за 54 евро, почти 5к вордпрессов.
Софт - nginx + php-fpm, кэша нет.
В штатном режиме всё отлично - гуглбот бегает, сервер нормально себя чувствует.
Раз в 2 недели свершается адский набег каких-то ботов, LA ~ 1000, сайты тяжело, но открываются. Сервак при этом не ложится.
Правда, вордпрессы голые - только одна добавленная тема, плагинов нет.

Код:
[root[pts/0]@content8]:[6:20]#mysqladmin status
Uptime: 11058580  Threads: 38  Questions: 5349695757  Slow queries: 0  Opens: 611863329  Flush tables: 1  Open tables: 20000  Queries per second avg: 483.759
gumu вне форума  
Старый 06.10.2019, 12:04   #28
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862885
По умолчанию

ну у тебя то точно не 300 запросов
у тебя лёгенький вариант
без плагинов это значит текстовые страницы отдаёшь без наворотов
веломан вне форума  
Старый 06.10.2019, 20:02   #29
gumu
Senior Member
 
Регистрация: 29.01.2015
Сообщений: 486
Бабло: $66395
По умолчанию

Цитата:
Сообщение от веломан Посмотреть сообщение
ну у тебя то точно не 300 запросов
у тебя лёгенький вариант
без плагинов это значит текстовые страницы отдаёшь без наворотов
Ну я об этом и написал, в общем. Но у меня доры, а не СДЛ - мне не нужны плагины.
Но я согласен с тем, что вордпресс - это пиздец тяжёлая штука.
gumu вне форума  
Старый 06.10.2019, 21:14   #30
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862885
По умолчанию

кстати, а проблем нет с хетцнером?
абузы там или вопросы уровня "откуда у вас столько трафика"
веломан вне форума  
Старый 06.10.2019, 21:28   #31
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Хецнер это дно для вебмастера, абузера ценят больше чем клиента
Hector вне форума