Вопрос легальности сбора данных — один из самых важных и неоднозначных. Сам по себе технологический процесс парсинга не является незаконным. Это просто инструмент автоматизации. Однако его использование регулируется несколькими факторами, и их игнорирование может привести к серьезным проблемам.
ФайлЭто текстовый файл в корневой директории сайта, в котором владелец ресурса оставляет рекомендации для поисковых роботов и других парсеров. Он указывает, какие разделы сайта можно сканировать, а какие — нет. С юридической точки зрения robots. txt носит рекомендательный характер. Однако его игнорирование считается дурным тоном в интернет-сообществе и может привести к блокировке вашего IP-адреса.
Пользовательское соглашениеМногие сайты в своих условиях использования прямо запрещают любой автоматизированный сбор данных. Нарушая это правило, вы нарушаете договор с владельцем сайта. Хотя в России судебная практика по таким делам пока не слишком обширна, это может стать основанием для иска о возмещении убытков, если ваш парсинг нанес сайту ущерб.
Закон о персональных данныхЭто самый строгий ограничитель. В России действует Федеральный закон № 152-ФЗ «О персональных данных». Он запрещает сбор, хранение и обработку персональных данных граждан без их согласия. К таким данным относятся ФИО, номер телефона, личная электронная почта, адрес проживания.
Если вы парсите контакты с досок объявлений, где физические лица продают свои вещи, и формируете из них базу для рассылок, вы грубо нарушаете закон. Однако сбор общедоступной информации о юридических лицах (название компании, общий телефон, почта вида
info@company.ru) обычно не подпадает под эти ограничения.
Авторское правоВы не можете спарсить статьи с новостного сайта и опубликовать их у себя. Это будет считаться воровством контента. Парсинг предназначен для анализа данных, а не для их копирования и присваивания.
Нагрузка на сервер Слишком агрессивный парсинг (сотни запросов в секунду) может замедлить работу сайта или даже «положить» его, создав эффект DDoS-атаки. Это может быть расценено как нанесение ущерба. Поэтому «вежливые» парсеры всегда работают с задержками между запросами, имитируя поведение человека.