Какие Идеи Бизнеса

Какие идеи бизнеса сейчас актуальны, 2017-2018 год
Началась история с того, что один из моих сайтов стал скачивать подозрительный робот. Это был не Яндекс-бот и не Гугл-бот и вообще ни один из известных поисковиков. Подозрение подкреплялось тем, что Useragent был странный — curl/, а Referer — d:/. Единственной целью таких роботов является кража контента с атакуемого ресурса…

Около двух месяцев все не доходили руки поискать злобного парсера — понять, на каком другом домене выкладывается мой ценнейший контент (шутка). Я только иногда запрещал на уровне php-кода некоторые значения Useragent и Referer, но мой таинственный друг их подправлял и снова приходил на сайт с ненужной нагрузкой.

И вот, руки дошли!
Я придумал как найти парсера, а точнее его домен(ы) в выдаче Яндекса. Немного о проекте — около 10 миллионов однотипных страниц с регистрационными данными юридических лиц РФ — названия, коды, адреса и т.п. Но, на каждой странице присутствует длинная фраза о том, что текущее состояние юрлица может не соответствовать представленному. Ну да, 10 миллионов фирм — из них 400 тысяч что-то меняют каждый год (директора, юрадрес, учредителей...) Вот по этой фразе в Яндексе нашлось куча сайтов (не моих), но и с не моим контентом! (На второй странице выдачи, например, url типа /q6bCp__08pky) Хотя, сниппеты указывали, что там таки находится информация о юрлице. Первый десяток таких страниц я просто закрывал на автомате не задумываясь, а почему, собственно, в сниппете одно, а при переходе на сайт — какой-то ГС со средством для… по вкусу — потенции, похудения, антиопохмелин и т.д. Причем, если просто забить URL с этого сайта в адресную строку, то получим Ошибку 404!

Предполагаю следующий механизм работы этой системы:

  • Ищется сайт-донор с большим количеством страниц
  • Создается домен-акцептор, который начинает скармливать Яндекс-боту страницы с сайта-донора, заменяя на лету все ссылки на свои. Причем, как я понял, не напрямую типа /otrasli/25 -> /otrasli/25, а как-то шифруя их обратимо — /otrasli/25 -> /8SDnm34rLK

Copyright © . All Rights Reserved