Журнал Суда по интеллектуальным правам

Big Data и интеллектуальная собственность: системное исследование скрейпинга в рамках общей методологии интернет-права

Сёмин П.О.

инженер по данным ООО «Агро Софтвер», магистр юриспруденции

13 июля 2020

"Журнал Суда по интеллектуальным правам", № 3 (29), сентябрь 2020 г., с. 60-76

В Интернете много разнообразной и постоянно меняющейся информации, имеющей немалую ценность, но прежде чем использовать, её нужно получить в удобном виде. К числу технологий, позволяющих достать максимум данных из Сети, относится скрейпинг — сбор общедоступной информации с веб-сайтов. Скрейпинг используется в научных и практических целях1. Актуальность правовых аспектов скрейпинга в России объясняется растущим интересом к правовым вопросам «больших данных» (big data), автоматизированных действий в Интернете, цифровой экономики в целом.

На стыке скрейпинга и права возникают проблемы, связанные с интеллектуальной собственностью и персональными данными, договорным правом и особенностями его реализации в Интернете, преступлениями в сфере компьютерной информации, обязательствами из причинения вреда компьютерной технике как имуществу. Многообразие и разнородность юридических аспектов скрейпинга приводят к тому, что требуется найти особый подход к их изучению, который не сводился бы только к праву интеллектуальной собственности или информационному праву, а позволил бы провести системное исследование. Таким подходом может быть общая методология интернет-права. Настоящая работа нацелена на то, чтобы на основе общей методологии интернет-права сделать максимально широкий комплексный обзор правовых проблем, возникающих при скрейпинге веб-сайтов, и подготовить рекомендации по совершенствованию правового регулирования и правоприменительной практики.

Скрейпинг как технология

Скрейпинг — это сбор данных в Интернете, осуществляемый без использования программного интерфейса сайтов2. Можно представить, как человек открывает страницы через браузер, копирует с них текст и сохраняет его в файл — это будет ручной скрейпинг. Конечно, ручной скрейпинг сейчас — редкость, потому что для этого есть специальные компьютерные программы, так что поручать человеку такую нудную механическую работу не требуется. Таким образом, современный скрейпинг почти всегда представляет собой автоматизированный сбор данных.

Слово «скрейпинг» копирует английское scraping, которое, в свою очередь, происходит от глагола to scrape — скрести: программа выискивает данные со страниц, будто скребок. Помимо термина «скрейпинг» также используются слова «парсинг» и «краулинг». Термин parsing восходит к глаголу to parse — «разбирать на части» и подразумевает, что при скрейпинге программа разбирает страницу на элементы: заголовки, абзацы, изображения — чтобы добыть нужные данные. Термин «краулинг» (по-английски crawling, от to crawl — ползать) обычно используется для описания работы поисковых систем: их программы «ползают» от сайта к сайту и собирают информацию, необходимую для поиска. Термины «парсинг» и «краулинг» могут также обозначать этапы скрейпинга, о чём будет сказано далее. Слово «скрейпинг» наиболее близко к тому, чтобы стать общеупотребительным, во всяком случае в английском языке3, поэтому именно оно используется в данной работе. Программу для скрейпинга часто называют роботом4.

Скрейпинг осуществляется без использования программного интерфейса сайтов, и это является его важнейшей отличительной особенностью. Программный интерфейс сайта (Application Programming Interface, API) — это набор специальных команд на определённом языке программирования, с помощью которых можно извлекать данные с сайта в структурированном и машиночитаемом виде. Программный интерфейс предназначен в первую очередь для разработки приложений: сайт в таком случае выступает как база данных в техническом смысле этого термина, из которой по запросу через программный интерфейс извлекаются определённые сведения, которые потом используются в работе приложения. Например, с помощью программного интерфейса «Геокодер» сервиса «Яндекс.Карты» можно узнать географические координаты точки по заданному почтовому адресу: для этого нужно отправить специальную строку текста на интернет-адрес https://geocode-maps.yandex.ru5. Программный интерфейс сайта удобен для извлечения данных и их коммерческого использования, поэтому владелец сайта обычно вводит ограничения: лимит числа запросов, которые можно направить в течение определённого периода времени, или плату за выполнение этих запросов. Например, в бесплатной версии Геокодера лимит составляет 25 000 запросов в сутки6.

Помимо программного интерфейса есть пользовательский — страница, какой её видит человек с помощью браузера. Пользовательский интерфейс предназначен для людей, а не для роботов. Но если обычный человек вряд ли может работать через программный интерфейс, то программа вполне может работать через пользовательский. Программа-робот умеет «притворяться» человеком: она может открыть страницу через браузер, перейти по ссылке, нажать на кнопку, выделить и скопировать текст, сохранить изображение или прочитать, что на нём написано. Благодаря этому возможен автоматизированный скрейпинг: программа имитирует поведение человека, который заходит на веб-сайт и получает нужную информацию. В простейших случаях достаточно открыть страницу и сохранить текст, а в более сложных ситуациях нужны дополнительные действия — например, ввести код с картинки. Таким образом, скрейпинг в некотором смысле является автоматизацией рутинных действий.

По соотношению с программным интерфейсом можно выделить два сценария применения скрейпинга:

1) скрейпинг как обход ограничений программного интерфейса, например платности или ограниченного числа запросов;

2) скрейпинг как единственный способ получения данных в отсутствие программного интерфейса у сайта. Таких сайтов большинство: программный интерфейс обычно есть только у наиболее крупных сайтов, для которых предоставление доступа к имеющимся у них массивам данных является дополнительным сервисом и моделью коммерциализации.

Процесс скрейпинга можно разделить на три этапа: анализ сайта (website analysis), краулинг сайта (website crawling), организация данных (data organization)7. На первом этапе человек изучает структуру сайта, чтобы понять, как извлечь оттуда нужную информацию и какие программы для этого использовать. На втором этапе человек пишет сценарий работы программы, после чего программа посещает сайты и извлекает информацию. В большинстве случаев нужны не страницы сайта целиком, а только их фрагменты, поэтому одновременно с краулингом осуществляется парсинг: программа разбирает страницу на части — текстовые абзацы, гиперссылки, заголовки, изображения, видео — и сохраняет нужные элементы. На этапе организации данных информация, собранная путём краулинга и парсинга, дополнительно обрабатывается так, чтобы она была пригодна для дальнейшего использования: например, её нужно очистить от ошибочно собранных элементов и разложить по строкам и столбцам таблицы.

Существуют программные инструменты, предназначенные для скрейпинга, например: модуль BeautifulSoup для языка программирования Python и пакет rvest для языка программирования R8. Скрейпинг — давно известная технология, которая представляет собой рутинную программистскую задачу. Интересно, что на одном техническом сайте на вопрос: «Насколько сейчас актуален скрейпинг, можно ли на нём хорошо заработать?» — был дан ответ: «Это труд низкой квалификации, предложение на рынке очень большое, сам по себе скрейпинг не очень интересен»9. Следовательно, скрейпинг — довольно простая и широко используемая технология.

Общая методология интернет-права

Мнения о том, является ли интернет-право отраслью права, расходятся, но большинство специалистов считают, что существует область общественных отношений, связанных с Интернетом, и соответствующие ей области юридической практики и знаний. Единство этих областей науки и практики основано на системных правовых проблемах, возникающих при регулировании в Интернете, которые одинаковы для правоотношений разной отраслевой природы — гражданских, административных, уголовных10. У интернет-права как науки есть собственные методологические основания.

Методология интернет-права берёт начало в работах Л. Лессига, одного из самых известных в мире исследователей в сфере регулирования Интернета. В России научные положения о системной методологии интернет-права сформулировал Р.Ф. Азизов, основываясь в том числе на работах Л. Лессига. Также следует отметить вклад В.Б. Наумова и В.В. Архипова в формирование и продвижение методологии интернет-права.

Методология анализа правового регулирования в Интернете может быть использована для исследования как частно-, так и публично-правовых явлений, поэтому её можно характеризовать как общую методологию интернет-права. Она включает четыре элемента:

1) факторы, определяющие значение Интернета,

2) способы социального регулирования в Интернете (модальности регулирования),

3) концепцию уровней интернет-архитектуры,

4) системные правовые проблемы Интернета11.

Факторы, определяющие значение сети Интернет, можно определить как особенности её современного состояния, благодаря которым использовать Интернет удобно и целесообразно. По одной из классификаций, это особенности распространения информации в Интернете: объём, скорость, доступность, простота, глобальность12. Благодаря им Интернет представляет собой не просто способ связи, а информационное пространство, где люди проводят несколько месяцев в год13.

Модальности регулирования — виды ограничителей, которые влияют на поведение людей. Идею о модальностях регулирования предложил Л. Лессиг14. В какой-то мере она развивает концепцию «принципов социального порядка» Р. Фуллера и перекликается с утверждениями Г. Харта о «минимальном содержании естественного права»15. Согласно точке зрения Л. Лессига, право как в реальном мире, так и в Интернете не является единственным способом регулирования. Помимо права на поведение людей влияют иные социальные нормы (нормы сообщества), а также рынок и код. Эти четыре инструмента - право, нормы сообщества, рынок и код — являются модальностями регулирования. Вряд ли нужно объяснять, что такое право и иные социальные нормы; о регулятивной функции рынка также хорошо известно, а вот код нуждается в пояснении.

Под кодом понимается «мир как он есть»16: физические свойства реальности естественным образом ограничивают действия людей, пусть даже такое ограничение не является целенаправленным. Л. Лессиг пишет: «Не нужно никакого специального ограничения или наказания, чтобы заставить людей не ходить сквозь стены»17. У Интернета свой код: это его технические особенности, которые определяют, что в принципе возможно сделать, а что невозможно. Код также можно назвать архитектурой.

Код физического мира отличается от кода виртуального мира, поэтому те средства регулирования, которые на протяжении почти всей истории человечества развивались исключительно в реальном мире, могут давать сбои при использовании в Интернете. Можно привести такой пример различия архитектур реального мира и интернет-пространства: в реальности человек не может находиться в двух местах одновременно, а в Интернете, напротив, может одновременно просматривать несколько сайтов; поэтому в реальности возможно алиби, а в Интернете утверждение «я был на другом сайте» вряд ли может быть доказательством невиновности.

Казалось бы, раз воздействие естественных ограничителей людям неподвластно, то нет смысла рассматривать их как способ регулирования: есть закон всемирного тяготения, который делает невозможным полёты без технических средств, но другого мира у нас все равно нет. Это не так: Интернет и есть тот другой мир, где можно изменить физические законы, потому что Интернет — рукотворная система. Так, в сети владельцы сайтов и операторы связи могут следить за людьми, и в отличие от реальности слежка будет дешёвой, незаметной и эффективной. Однако использование защитных программ и технологий, таких как шифрование, VPN, прокси, блокировка систем аналитики и рекламы, отчасти меняет «код» Интернета и делает его менее удобным для сбора информации о людях.

Архитектура Интернета, с одной стороны, влияет на эффективность других модальностей регулирования. Например, сложно реализовать запрет незаконного использования результатов интеллектуальной деятельности, когда они легко копируются и распространяются. С другой стороны, код может дополнять иные регуляторы или становиться средством их реализации. Например, вместо того, чтобы блокировать пользователей за нецензурные слова в комментариях, можно внести эти слова в чёрный список так, чтобы опубликовать комментарий со словами из списка было невозможно. Закон в Интернете может быть неэффективным, но тогда можно не тратить средства на то, чтобы добиться исполнения закона, а приложить усилия к тому, чтобы изменить код. Однако и код может влиять на другие регуляторы: на борьбу с пиратством были брошены огромные ресурсы, и они дали некоторый эффект, однако правообладателям тоже пришлось менять схемы доставки и монетизации контента.

Уровни интернет-архитектуры — это элементы системы коммуникации между пользователями. Интернет представляет собой сложную технологическую систему: в нём есть информация, приложения, сетевые протоколы, линии связи, компьютерные устройства. Эти элементы зависят друг от друга и образуют определённую иерархию: соединение и передача данных невозможны без устройств и линий связи; приложения не могут работать без передачи данных и, разумеется, без устройств и линий связи; информацию нельзя получить без помощи приложений и всего, благодаря чему работают приложения. Можно выделить шесть уровней Интернет-архитектуры:

1) уровень контента — текст, фото, аудио, видео и другая информация;

2) уровень приложений — браузеры и веб-приложения, клиенты электронной почты, FTP-клиенты, мессенджеры и аналогичные программы;

3) уровень передачи данных — разбиение контента, поступающего от приложений, на пакеты, и их отправка с помощью интернет-протокола;

4) уровень интернет-протокола — маршрутизация пакетов, то есть их пересылка с одного устройства на другое через промежуточные устройства при условии, что все они идентифицируются с помощью IP-адресов (IP расшифровывается именно как Internet Protocol);

5) уровень соединения — специальные программы (драйверы), которые связывают физический уровень с уровнем интернет-протокола: благодаря этим программам использование IP-адресов и других технологий для передачи данных не зависит от того, какие устройства обмениваются данными и какие сети связи используются — компьютеры и провода, телефоны и радиоволны или холодильники и розетки18;

6) физический уровень — маршрутизаторы, модемы, металлические провода, оптические кабели, электромагнитные волны и другие аппаратные и физические составляющие компьютерных сетей19.

Более высокие уровни зависят от нижестоящих. Юридическое воздействие на нижние уровни распространяется на верхние уровни. Например, если изъять устройства и отключить сети связи (физический уровень), то пользователи не смогут распространять нежелательную информацию (уровень контента). Обратное неверно: запрет использовать Facebook (уровень приложений) не помешает передаче данных с помощью других сервисов. Л. Солам и Б. Чан сформулировали принцип учёта уровней Интернета при регулировании: регулирование не должно нарушать разделение уровней, и расстояние между уровнем, на который непосредственно воздействует регулирование, и уровнем, на котором хотят добиться эффекта, должно быть минимальным20.

Системные правовые проблемы Интернета — это проблемы, которые возникают в любых правоотношениях, касающихся Интернета, независимо от отрасли права. Можно назвать три общие проблемы:

1) проблема идентификации пользователей — пользователи взаимодействуют с помощью устройств, а устройства распознаются только по сетевым адресам, поэтому не существует очевидного способа достоверно установить субъекта отношений;

2) проблема определения юрисдикции — Интернет глобален, пользователи могут находиться в разных странах, информация пересекает границы государств, разные уровни интернет-архитектуры связаны с разными юрисдикциями, поэтому определить территориальную подсудность и применимое право и добиться исполнения решений бывает трудно;

3) проблема ответственности информационных посредников — пользователи взаимодействуют не самостоятельно, а с помощью операторов связи, провайдеров хостинга, владельцев коммуникационных сервисов и других подобных субъектов, поэтому возникает вопрос, в какой мере и при каких условиях эти лица могут нести ответственность за действия пользователей21.

Помимо трёх общих проблем в Интернете есть частные проблемы: децентрализованных технологий, гипертекста, виртуальной собственности, автоматизированных действий, игрового пространства22.

Теперь можно воспользоваться общей методологией интернет-права для системного изучения правовых проблем скрейпинга.

Факторы, определяющие значение скрейпинга

Каждый из факторов, определяющих значение Интернета - объём и доступность информации, скорость и простота её распространения, глобальность сети — находит отражение при скрейпинге.

Интернет-пространство аккумулирует огромный объём информации. Часть этой информации имеет значительную коммерческую, научную, образовательную, аналитическую и иную ценность, например: данные о людях, размещённые на страницах в социальных сетях, данные о деятельности частных организаций и государства, новостные сообщения, твиты, блог-посты, энциклопедические или научно-популярные статьи, фотографии, аудиозаписи и видеоролики, пространственные данные. Однако информация разбросана по многим сайтам и не систематизирована, что затрудняет её использование: человек может просматривать страницы сайтов и делать какие-то ограниченные выводы, но для статистического анализа, машинного обучения, создания производных продуктов неструктурированные данные малопригодны. Следовательно, необходимо извлечь информацию с сайтов и объединить её в один структурированный массив данных. Поскольку объём данных велик, то человек не способен обработать их вручную — возникает необходимость в автоматизированном сборе и обработке информации с сайтов, то есть в скрейпинге23. Таким образом, наличие в Интернете большого объёма ценной, но неструктурированной информации — предпосылка скрейпинга.

Для доступа к информации на веб-сайтах достаточно компьютера, подключения к Интернету и браузера. В отличие от радио и телевидения, пользователь может сам выбирать, какую информацию он хочет получить и в какое время, поэтому можно целенаправленно собирать только ту информацию, которая нужна. В отличие от книг, журналов и газет, доступ к информации обособлен от доступа к её физическому носителю, что многократно снижает издержки на сбор. Веб-сайты обычно проектируются с расчётом на максимальную доступность информации для пользователей, и это одновременно делает её максимально доступной для роботов. Попытки уменьшить доступность информации для программ приводят к снижению её доступности для пользователей. Таким образом, доступность информации в Интернете — ещё одна предпосылка скрейпинга.

Информация в Интернете распространяется с большой скоростью. Это приводит к тому, что скрейпинг также осуществляется быстро: программа может отправлять на сайт десятки запросов в секунду. Это приводит к двум последствиям. Во-первых, программа, в отличие от человека, может за короткое время скопировать сайт целиком. Во-вторых, скрейпинг повышает нагрузку на сайт, а повышение нагрузки снижает скорость работы сайта и может привести к сбою. Снижение скорости работы сайта и сбои, в свою очередь, способствуют оттоку посетителей и приводят к косвенным убыткам для владельца сайта. Таким образом, скорость распространения информации — одна из причин, по которой скрейпинг может причинить значительный вред владельцам сайтов.

Распространять информацию в Интернете просто и дёшево. Столь же просто и дёшево её собирать. Интернет устроен так, что при просмотре страниц сайта информация всегда копируется на устройство пользователя. Владелец сайта не может этому препятствовать и почти не может контролировать действия пользователя с информацией, оказавшейся на его устройстве. Следовательно, для сбора информации не нужно использовать дорогостоящие сканеры и копировальные аппараты — нужно лишь сохранить информацию, которая сама оказалась на устройстве пользователя. Простота скрейпинга способствует его широкому распространению, в результате скрейпинг начинает затрагивать интересы большого числа субъектов.

Интернет глобален, о чём уже говорилось выше. Следовательно, субъекты, связанные со скрейпингом, могут находиться в разных странах, причём круг этих субъектов широк: к ним обязательно относятся владелец сайта и лицо, осуществляющее скрейпинг, и также могут относиться владелец сервера, на котором размещён сайт, владелец устройства, которое используется для скрейпинга, правообладатель программы, которая собирает данные, правообладатель контента сайта, обладатель прав на доменное имя. Если субъекты находятся в разных странах, то возникают вопросы определения подсудности и применимого права, затрудняется реализация процессуальных прав и исполнение решения. Таким образом, глобальность Интернета усложняет защиту прав и разрешение споров, связанных со скрейпингом.

В современных условиях Web 2.0 правовые вопросы, касающиеся скрейпинга, осложняются тем, что права на контент могут принадлежать миллионам пользователей, публикующих статьи, фотографии, комментарии, видеозаписи на предназначенных для этого платформах. В отличие от раннего этапа развития Интернета, когда владелец сайта чаще всего был единственным правообладателем контента, сейчас права могут быть распределены между многими субъектами: например, права на текст публикации в социальной сети принадлежат пользователю, права на картинку к тексту — фотобанку, на приложенную песню — исполнителям и студии звукозаписи; права на каждый комментарий принадлежат авторам комментариев, а права на иные элементы сайта — владельцу площадки. Множественность субъектов, как и глобальность, может затруднять решение споров: например, одни правообладатели против скрейпинга, а другие не возражают.

Таким образом, большой объём неструктурированной информации в Интернете, её доступность и простота распространения — предпосылки появления скрейпинга и его широкого применения; высокая скорость доступа к информации повышает как пользу от скрейпинга, так и вред от него, а глобальный характер Интернет-пространства, обилие user-generated content и коммуникационных платформ усложняет использование правовых инструментов для решения возникающих споров.

Модальности регулирования скрейпинга

Рассмотрим вопрос о том, как модальности - право, нормы сообщества, рынок и код — проявляются при регулировании скрейпинга.

Специальное правовое регулирование скрейпинга в России отсутствует. Тем не менее, к отношениям, возникающим при скрейпинге, могут применяться нормы разных отраслей права: информационного, гражданского, уголовного, административного.

Очевидно, что скрейпинг является предметом информационного права. В первую очередь при регулировании скрейпинга важен принцип свободы информации, предполагающий, в частности, право каждого искать и получать информацию любым законным способом (ч. 4 ст. 29 Конституции России). С другой стороны, необходимо учитывать классификацию информации в зависимости от порядка предоставления или распространения (ч. 3 ст. 5 Федерального закона от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации», далее — Закон об информации) и режим различных видов конфиденциальной информации, в первую очередь персональных данных. Отдельно следует отметить право обладателя общедоступной информации требовать указания себя в качестве источника такой информации (ч. 3 ст. 7 Закона об информации).

Далее, к скрейпингу относится множество норм права интеллектуальной собственности. В основном это положения авторского права и смежных прав: исключительное право на произведения, фонограммы, сообщения передач, базы данных; квалификация сайта как охраняемого результата интеллектуальной деятельности; возможность свободного использования объектов интеллектуальных прав и открытые лицензии на произведения; разграничение объектов авторского права и неохраняемой информации; использование технических средств защиты авторских и смежных прав.

Право интеллектуальной собственности тесно переплетается с договорным правом. К лицензионным договорам и пользовательским соглашениям сайтов применимы общие положения о сделках, обязательствах и договорах. Однако нормы договорного права реализуются в Интернете, поэтому возникают, в частности, вопросы, касающиеся формы сделок и договоров, заключения browsewrap-соглашений. Поскольку Интернет глобален, то задействуются также коллизионные нормы.

Из материально-правового регулирования вытекают процессуальные вопросы: подсудность, возможность использования электронных материалов в качестве доказательств, исполнение судебных решений.

При скрейпинге возникают не только регулятивные, но и охранительные правоотношения. В частном праве это обязательства из причинения вреда и гражданско-правовая ответственность. В случае с публичным правом уместно вспомнить о преступлениях в сфере компьютерной информации: несанкционированном доступе к информации, разработке и использовании вредоносных программ. Могут использоваться публично-правовые способы охраны гражданских прав: уголовная и административная ответственность за нарушение авторских и смежных прав.

Владельцы крупных сайтов занимают доминирующее положение на рынке или стремятся к этому и обладают легальной монополией на массивы данных. Лица, осуществляющие скрейпинг, могут быть конкурентами владельцев таких сайтов. Следовательно, возникают вопросы, связанные с законодательством о защите конкуренции.

Под нормами интернет-сообщества можно понимать не обеспеченные организованным принуждением правила, сложившиеся среди пользователей Интернета, информационных посредников, поставщиков продуктов. Для начала следует отметить относительно популярную в интернет-сообществе идею свободы информации, согласно которой любая полезная информация должна свободно распространяться24. Нормы интернет-сообщества о свободе информации отличаются от похожих норм права, поскольку предполагают больше возможностей и меньше регулирования. Наличие данных норм не отменяет действие норм права, но влияет на их реализацию, а также может приводить к изменениям права.

У скрейпинга есть этические аспекты25. Неприкосновенность частной жизни и охрана персональных данных, деловая репутация, коммерческая тайна — это не только правовые, но и этические вопросы. Обработка обезличенной информации, собранной в Интернете, может привести к идентификации человека. Публикация результатов аналитического исследования, проведённого с помощью скрейпинга, может сказаться на стоимости и имидже компаний, на поведении потребителей. Сам факт скрейпинга лишает владельцев сайтов некоторой доли дохода от рекламы, потому что программы не переходят по рекламным объявлениям. Таким образом, скрейпинг должен осуществляться в соответствии с этическими стандартами26.

В качестве конкретного примера норм интернет-сообщества можно привести использование файлов robots.txt. Файл robots.txt содержит правила, написанные на специальном языке и предназначенные для программ, осуществляющих сбор информации. Правила robots.txt могут разрешать или запрещать доступ ко всем или некоторым разделам сайта для всех или некоторых программ, а также ограничивать частоту запросов. Например, владелец сайта может разрешить доступ только поисковому роботу Google один раз в час. Правила, по которым пишется файл robots.txt, никем не утверждены, но некоторое общее согласие в их отношении имеется. Они не обеспечены возможностью принуждения со стороны какого-либо уполномоченного органа, поэтому их соблюдение добровольно27. У программ для скрейпинга обычно есть настройка: учитывать robots.txt или нет. Правила robots.txt можно рассматривать как «пользовательское соглашение для роботов», поэтому возникает вопрос: что делать, если условия «обычного» пользовательского соглашения противоречат robots.txt?

Рынок как модальность регулирования скрейпинга проявляется в балансе выгод и издержек: лицо, осуществляющее скрейпинг, сопоставляет стоимость информации с затратами на её сбор, а владелец сайта сравнивает вред от скрейпинга с расходами на защиту от него. При невысокой ценности данных скрейпинг нецелесообразен. Нет смысла в скрейпинге, если данные можно получить через программный интерфейс с подходящими условиями использования. Расходы на скрейпинг обычно невелики, однако они возрастают, если владелец сайта использует технические средства защиты. В свою очередь, использование технических средств защиты сопряжено с издержками для владельца сайта: например, сложную CAPTCHA28 не смогут разгадать не только роботы, но и люди, что спровоцирует отток посетителей. Экономические соображения влияют на обращение к правовым способам защиты: судебный процесс обычно дорогой, поэтому владелец сайта будет подавать иск только в случае значительного ущерба.

К регулятивному влиянию рынка следует отнести также учёт характера отношений между субъектами. Если лицо, осуществляющее скрейпинг, является конкурентом владельца сайта, то владелец сайта заинтересован в противодействии скрейпингу. Однако возможен взаимовыгодный скрейпинг. Например, если новостной агрегатор собирает информацию с новостного сайта, то последний бесплатно получает дополнительных посетителей, пришедших по ссылкам с агрегатора. В таком случае запрет скрейпинга приносит владельцу сайта не только пользу, но и вред. В Европейском Союзе на протяжении нескольких лет идёт дискуссия о праве агрегатора Google News бесплатно использовать фрагменты материалов, взятые с новостных сайтов. В Испании в 2014 г. приняли закон, обязавший агрегаторы платить за использование оригинального контента29; в 2019 г. такой закон появился во Франции30. Компания Google в ответ исключает СМИ из агрегатора или уменьшает объём использования материалов, чтобы не платить: публикует только заголовки вместо цитат текста. По некоторым данным, исключение материалов из агрегатора приводит к снижению посещаемости новостных сайтов31. Таким образом, в Интернете экономическую ценность имеет не только сама информация, но и свободный обмен информацией между сайтами, достигающийся в том числе путём скрейпинга, и это влияет на поведение субъектов32.

Наконец, четвёртая модальность — это код, или архитектура. Для скрейпинга важны несколько архитектурных особенностей Интернета.

Во-первых, при просмотре веб-сайтов содержимое страниц временно копируется на устройство пользователя. В подавляющем большинстве случаев скопированное содержимое не защищено от пользователя. Следовательно, пользователь может превратить временное копирование в постоянное, то есть сохранить информацию, загруженную во время просмотра страниц, на своём устройстве. Эта архитектурная особенность является технологической предпосылкой скрейпинга.

Вторая особенность — невозможность со 100-процентной точностью отличить человека от робота. Человек просматривает сайты с помощью браузера, поэтому технически к сайту обращается не человек, а программа — так же, как и при скрейпинге. Существуют способы отличить человека от робота по совокупности косвенных признаков, однако их точность никогда не достигает 100%, при этом эти способы могут причинять неудобства пользователям. Один из специалистов по сбору и анализу данных заметил: «Основное заблуждение в том, что веб-скрейпинг можно заблокировать с помощью [технологий] А, Б, В. Если кратко: нет, нельзя заблокировать»33.

Третья архитектурная особенность — наличие поисковых систем. Владелец сайта вряд ли станет ограничивать доступ для поискового робота. Следовательно, возникает вопрос: если поисковый робот может собирать информацию, то почему этого не могут другие?

Четвёртая особенность — ограниченность скорости передачи данных, производительности сайта и скорости работы программы для скрейпинга, что физически ограничивает потенциал скрейпинга: можно за разумное время собрать информацию с небольшого сайта, но создание полной копии «Википедии» или «ВКонтакте» потребует значительных ресурсов и времени.

Таким образом, архитектура Интернета, с одной стороны, благоприятствует скрейпингу, а с другой - способствует «эволюции снаряда и брони»: владельцы сайтов соревнуются с лицами, осуществляющими скрейпинг, в способах скрейпинга и защиты от него. При этом скрейпинг поисковыми системами представляет собой неотъемлемый атрибут современного Интернета.

Уровни регулирования скрейпинга

Особенности регулирования скрейпинга проявляются на физическом уровне интернет-архитектуры, а также на уровнях приложений и контента.

Серверы, на которых размещён сайт — это вещи, у которых есть собственник. Когда пользователь открывает сайт, он пользуется этой вещью, потому что сервер выполняет действия: обрабатывает запрос пользователя, формирует ответ и отправляет его по сети. В правовой системе США скрейпинг может рассматриваться как неправомерное посягательство на движимое имущество (trespass to chattles)34. Так, в 1999 г. компания Ebay подала иск против компании Bidder’s Edge, поскольку последняя осуществляла скрейпинг со скоростью до 100 тысяч запросов в день, что составляло 1,53% от общего числа запросов к сайту. Суд принял меры по обеспечению иска (preliminary interjunction), ссылаясь на то, что подобные действия, вероятно, привели к дополнительным расходам владельца сайта; само дело завершилось мировым соглашением35. Таким образом, если скрейпинг осуществляется без разрешения собственника аппаратного обеспечения сайта и приносит прямой действительный ущерб, то он может рассматриваться как причинение вреда имуществу.

Программы, осуществляющие скрейпинг, копируют информацию без разрешения её обладателя. При буквальном толковании ст. 273 УК РФ они являются программами, заведомо предназначенными для несанкционированного копирования компьютерной информации, а создание, распространение или использование таких программ составляет объективную сторону преступления, предусмотренного этой статьёй. Означает ли это, что каждый, кто осуществляет скрейпинг, находится под постоянным риском уголовной ответственности? Для ответа на данный вопрос принципиальное значение имеет трактовка признака «несанкционированный». Здесь можно провести параллели с правовой системой США, где с 1984 г. действует Computer Fraud and Abuse Act (CFAA), цель принятия, сфера действия и содержание которого перекликаются с российскими нормами о преступлениях в сфере компьютерной информации. В США данный акт используется как одно из распространённых оснований для претензий к лицам, осуществляющим скрейпинг36. В частности, на CFAA ссылается профессиональная социальная сеть LinkedIn в борьбе с компанией HiQ Labs, собирающей данные из общедоступных профилей и использующей их для создания коммерческих продуктов по подбору персонала37. Согласно CFAA, ответственность несёт тот, кто «намеренно получает доступ к компьютеру без авторизации или с превышением условий авторизованного доступа» («intentionally accesses a computer without authorization or exceeds authorized access»)38. Толкование признака «without authorization» в судебной практике США менялось. В начале 2000-x понимание было предельно широким: даже нарушение условий использования сайта рассматривалось как «неавторизованный доступ». С 2009 по 2013 г. подход был более узким: суды стали различать «доступ без разрешения» и «использование информации без разрешения» и обращать внимание на технические средства ограничения доступа, а не на тексты пользовательских соглашений. С 2013 г. вновь наметилась тенденция к широкому толкованию, а с 2017 подход опять становится более узким39. В частности, в деле hiQ Labs, Inc. v. LinkedIn Corp. суд обращает внимание на то, что преступление, предусмотренное CFAA, предполагает доступ к информации, которая иными средствами недоступна — по аналогии с «взломом и вторжением» (breaking and entering)40. При сборе информации с общедоступных страниц взлома не происходит, поэтому CFAA неприменим. Чтобы избежать избыточной криминализации экономической деятельности, в России следует придерживаться аналогичного ограничительного толкования: термин «несанкционированный» относится только к доступу со «взломом» технических средств защиты. В таком случае сбор данных с открытых страниц сайтов не образует преступление, предусмотренное ст. 273 УК РФ. Если же при сборе информации происходит неавторизованный доступ к закрытым разделам сайта, то это может рассматриваться как преступление в сфере компьютерной информации.

На программном уровне также реализуются технические средства защиты от скрейпинга. Например, владелец сайта может самостоятельно блокировать IP-адреса, с которых осуществляется скрейпинг. С одной стороны, такие инструменты могут рассматриваться как технические средства защиты авторских или смежных прав. С другой стороны, они могут считаться средствами снижения нагрузки на сайт, так как направлены не на то, чтобы защитить охраняемый контент от копирования, а на то, чтобы избежать частых автоматизированных запросов, которые могут нарушить работу сервера. В зависимости от квалификации указанных технических средств меняются нормы права, которые могут стать основанием для ответственности: в первом случае это нормы права интеллектуальной собственности о технических средствах защиты прав, во втором — нормы об обязательствах из причинения вреда.

Регулирование скрейпинга на уровне контента связано с различными правовыми режимами собираемой информации. Наиболее актуальными с практической точки зрения являются правовые режимы информации, содержащей охраняемые результаты интеллектуальной деятельности, и персональных данных.

Информация, размещённая на сайте, может быть объектом авторского права или смежных прав, и в таком случае сбор информации по общему правилу считается использованием соответствующего объекта. С другой стороны, при скрейпинге может собираться неохраняемая информация: курсы валют, цены на товары, данные открытых государственных реестров, судебные решения. Такой сбор не является использованием охраняемого результата интеллектуальной деятельности. Бывает, что неохраняемая информация находится на странице вместе с информацией, содержащей объекты интеллектуальных прав. В таком случае нужно смотреть, как работает программа для скрейпинга. Если она копирует страницу и сохраняет её полностью, то происходит воспроизведение объекта интеллектуальных прав. Если копирование осуществляется на короткое время, необходимое для извлечения неохраняемой информации, после чего неохраняемая информация сохраняется, а страница удаляется, то воспроизведения не происходит.

Сайт в целом может являться объектом авторского права или смежных прав. В науке в настоящее время наиболее распространены два взаимосвязанных подхода к гражданско-правовой квалификации веб-сайта: составное произведение или база данных как разновидность составного произведения41. Больше всего вопросов связано с квалификацией сайта как базы данных. Именно этот подход использовался, например, в споре ВКонтакте с ООО «Дабл»42. С точки зрения авторского права база данных является разновидностью составного произведения, при этом у изготовителя базы данных также может возникнуть смежное право. Однако смежное право возникает в том случае, когда создание базы данных потребовало значительных затрат. Владельцы крупных сайтов, на которых больше 10 тыс. материалов, могут воспользоваться презумпцией значительных затрат, а в случае с небольшими проектами доказать значительные затраты и, соответственно, статус сайта как базы данных, весьма затруднительно. Также следует помнить о доктрине spin-off, которая может стать контраргументом лиц, осуществляющих скрейпинг, согласно которой вложения должны быть специально направлены на создание базы данных, и база данных не должна возникать как побочный продукт. Впрочем, сама доктрина spin-off характеризуется как спорная и сложная для практического применения43.

Содержимое некоторых сайтов доступно на условиях открытых лицензий. Чаще всего это Creative Commons, которая допускает скрейпинг. Скрейпинг в науке и образовании может рассматриваться либо как цитирование, либо как свободное извлечение материалов пользователем обнародованной базы данных (ст. 1335.1 ГК РФ). Закреплённое в этой же статье правило, позволяющее лицу, правомерно использующему обнародованную базу данных, извлекать из неё материалы в любом объёме в целях, для которых база данных была предоставлена, потенциально применимо и к скрейпингу в коммерческих целях. Поскольку правомерность использования базы данных зависит от условий лицензионного договора, при этом там же определяются цели предоставления, а сама норма является диспозитивной, то допустимость скрейпинга в данном случае определяется преимущественно условиями пользовательского соглашения сайта.

При скрейпинге может собираться информация, относящаяся к определённым физическим лицам. Вопрос в том, относятся ли собираемые данные к персональным и правомерна ли их обработка. Неопределённость понятия «персональные данные» и широкий подход к его пониманию в России позволяют ответить на первый вопрос утвердительно почти во всех случаях. При ответе на второй вопрос возникает спор вокруг понятия «общедоступный источник персональных данных». Обработка персональных данных, сделанных общедоступными самим субъектом этих данных или с его согласия, возможна в силу закона (п. 10 ч. 1 ст. 6 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных»). Однако российские суды и Роскомнадзор считают, что страницы в социальных сетях не являются общедоступными источниками персональных данных, поэтому сбор информации с таких страниц без согласия субъектов персональных данных недопустим44. В целом этот вопрос довольно сложный. Нужно учитывать, что путём анализа данных о человеке, которые размещены им в Интернете, можно сделать выводы и принять решения, которые нежелательны для человека и не соответствуют целям публикации этих данных. Стремление рассматривать социальные сети как общедоступный источник персональных данных понятно, и позиция судов и Роскомнадзора представляется спорной, однако это не отменяет того, что человек должен быть защищён от негативных последствий, связанных с использованием опубликованной им информации о себе. Представляется, что при решении этой проблемы акцент должен делаться не на согласиях, довольно формальных и в Интернете далёких от идеала информированности и добровольности, а на последствиях обработки персональных данных.

Проявления системных правовых проблем Интернета при скрейпинге

При скрейпинге проявляются только общие системные правовые проблемы Интернета. Частные правовые проблемы связаны с играми, криптовалютами, торрентами, поэтому они не затрагивают скрейпинг. Проблема автоматизированных действий могла бы касаться скрейпинга, если бы программы, осуществляющие сбор данных, были достаточно автономными. Однако они обращаются к веб-сайтам по алгоритму без применения технологий искусственного интеллекта, поэтому проблема автоматизированных действий, совершаемых «умными» роботами, в данном случае не проявляется. Системные правовые проблемы Интернета при скрейпинге уже затрагивались, поэтому здесь представлено обобщение ранее сказанного и сделаны дополнения.

С технической точки зрения коммуникация в Интернете происходит между компьютерами, поэтому нет прямого способа достоверно определить, кто обращается к сайту: человек или робот. Таким образом, системная проблема идентификации пользователей в контексте скрейпинга связана с возможностью такого способа получения данных из Интернета: если бы владелец сайта мог достоверно отличить человека от программы, то он запрещал бы или разрешал скрейпинг по своему усмотрению. Невозможность отличить человека от робота приводит к тому, что реализация правомочий владельца сайта как обладателя информации оказывается ограниченной: он может по своему усмотрению разрешать или ограничивать доступ к информации (будет ли она доступна в Интернете хоть кому-то), но фактически не может определять одно из условий доступа (будет ли информация доступна только для обычных пользователей-людей). Помимо этого фундаментального проявления проблемы идентификации пользователей есть более конкретное последствие: сложность идентификации затрудняет привлечение к ответственности. Для определения виновных лиц необходимо использовать методы, по сути являющиеся криминалистическими.

При скрейпинге возникают трудности в определении подсудности и применимого права, а также в исполнении решения. Скрейпинг приводит к причинению вреда на физическом уровне или в виде нарушения интеллектуальных прав, при этом действия лица, собирающего данные, могут совершаться в другой стране. Использование привязки «место наступления вреда» (ст. 1219 ГК РФ, п. 4 ч. 1 ст. 247 АПК РФ) затруднено тем, что этим местом фактически является место нахождения сервера, на котором размещён сайт, а это место необязательно совпадает с местом жительства или нахождения владельца сайта. Кроме того, в российском гражданском процессе привязка «место наступления вреда» отсутствует — она предусмотрена только АПК РФ. Критерий «направленности деятельности», который используется, в частности, в сфере защиты персональных данных, не всегда позволяет распространить юрисдикцию государства на лицо, осуществляющее скрейпинг из-за рубежа, поскольку такое лицо может ограничиваться сбором данных и не вести больше никакой деятельности, связанной с данным государством. По этой же причине сложно использовать «тест минимума контактов»: вряд ли можно утверждать, что один лишь сбор данных свидетельствует о наличии достаточной связи спорного правоотношения с территорией государства. Исполнение решения затруднено из-за того, что у ответчика может не быть ни представительства, ни имущества на территории государства. Блокировка доступа к ресурсу, с интернет-адреса которого осуществляется скрейпинг, представляется нецелесообразной и даже абсурдной, потому что обычно адрес, с которого осуществляется скрейпинг, выбирается произвольно, время от времени меняется и не используется для ведения иной деятельности помимо сбора данных. Таким образом, можно обеспечить привязку споров о нарушении интеллектуальных прав при скрейпинге к государству правообладателя, ведущего предпринимательскую деятельность, однако в случае с персональными данными распространить юрисдикцию на лицо, осуществляющее скрейпинг, затруднительно. Сложности с исполнением решения возникают независимо от предмета спора.

Проблема ответственности информационных посредников при скрейпинге проявляется в двух случаях. Первый — скрейпинг был совершён с помощью устройств третьего лица. Программу для скрейпинга можно разместить на облачной платформе наподобие Google Cloud. Тогда скрейпинг будет осуществляться с компьютеров облачного сервиса и может возникнуть вопрос о его ответственности. Строго говоря, владельца платформы в данном случае вряд ли можно отнести к информационным посредникам в смысле ст. 1253.1 ГК РФ, поскольку она ориентирована на случаи передачи и размещения материалов, а не программ. Тем не менее, в широком смысле слова он является информационным посредником. Можно применить в данном случае существующий подход к ответственности провайдеров хостинга: если владелец облачной платформы, на которой запущена программа для скрейпинга, не знает о неправомерности скрейпинга и незамедлительно заблокировал её работу при получении уведомления, то он не несёт ответственность. В то же время остаётся открытым вопрос каким должно быть данное уведомление: определить правомерность скрейпинга сложно, поэтому есть риск злоупотребления правом и необоснованной блокировки. Следовательно, заявления владельца сайта о нарушении его прав недостаточно — более удачным вариантом является решение суда о применении обеспечительных мер.

Второй случай — это ответственность информационных посредников при сборе информации, права на которую принадлежат третьим лицам: персональных данных, материалов, охраняемых авторским правом. Отношения пользователей с платформами, дающими возможность публикации пользовательского контента, обычно регулируются пользовательским соглашением, однако понятно, что условия таких договоров благоприятны для платформы, поэтому можно взглянуть на ситуацию более абстрактно. С одной стороны, пользователи обычно не передают платформе права на контент, поэтому их требования о защите нарушенных прав и привлечении к ответственности могут быть адресованы не только лицу, осуществившему скрейпинг, но и посреднику, который не препятствовал этому. С другой стороны, пользователи, размещающие свой контент в Интернете, обычно знают, что любая информация с веб-сайта может быть скопирована. Следовательно, информационный посредник должен отвечать только в том случае, если он не принял минимальных необходимых мер для защиты от скрейпинга, хотя был обязан это сделать исходя из условий пользовательского соглашения.

Подведем некоторые итоги.

Регулирование скрейпинга является комплексным и многоуровневым. Комплексность проявляется в узком и широком смысле. Узкий смысл означает, что к скрейпингу применяются нормы разных отраслей частного и публичного права: гражданского, информационного, уголовного, административного — объединённые предметом регулирования и общими системными правовыми проблемами Интернета. Широкий смысл подразумевает, что помимо права существуют другие модальности регулирования скрейпинга: иные социальные нормы, они же нормы сообщества в терминологии Л. Лессига; рынок; особенности интернет-архитектуры. Многоуровневый характер выражается в том, что воздействие на общественные отношения, складывающиеся при скрейпинге, осуществляется не только на уровне контента, но и на уровнях приложений и аппаратного обеспечения.

При регулировании скрейпинга большое значение имеет код и рынок: массовое поведение людей определяется не столько нормами права, сколько соотношением сил в технологической «битве снаряда и брони» и балансом выгод и издержек от блокировки скрейпинга и обхода блокировки. Лишь тогда, когда технические меры не помогают, а цена вопроса высока, происходит переход к правовым инструментам.

Спорное утверждение, что скрейпинг существует в правовом вакууме — напротив, разные его аспекты регулируются нормами иных отраслей права, и количество норм, потенциально применимых к скрейпингу, велико. Трудности возникают не из-за отсутствия норм, а из-за нетипичной ситуации, в которой они применяются. Опыт рассмотрения дел, касающихся скрейпинга, пока не накоплен — во всяком случае, в России. Правоприменители не всегда разбираются в технических деталях скрейпинга, в особенностях интернет-архитектуры; в моделях коммерциализации, используемых в Интернете, из-за чего правовые нормы применяются излишне прямолинейно там, где необходима гибкость. При скрейпинге затрагиваются правовые вопросы, на которые в законодательстве, практике и доктрине нет ясного ответа, например: правовой статус веб-сайта, понятие персональных данных, заключённость browse-wrap-соглашений, уголовно-правовое понятие несанкционированного доступа, соотношение права интеллектуальной собственности и конкурентного права, правомерность сбора персональных данных из открытых источников, ответственность информационных посредников, база данных как побочный продукт. Можно сказать, что в правовом регулировании скрейпинга есть относительно стабильные, унифицированные, императивные и однозначно толкуемые нормы, и есть меняющиеся, различные в разных странах, диспозитивные нормы, вызывающие споры среди учёных и практиков.

Закона о скрейпинге не существует. Неясно, какие нормы включить в этот закон: у скрейпинга наблюдается некоторая юридическая специфика и он вызывает ряд серьёзных вопросов, но специфику сложно отделить от других правовых проблем Интернета и на вопросы пока нет ответов. Нужно заметить, что в США, несмотря на 20-летний опыт рассмотрения судебных дел, закона о скрейпинге тоже нет.

Правовые аспекты скрейпинга следует рассматривать как часть проблемы правового регулирования больших данных. Следовательно, обсуждение проблем, связанных со скрейпингом, необходимо включить в программу научной деятельности и практической работы над законодательством в сфере больших данных.

Общая рекомендация по законодательному регулированию скрейпинга и практике решения спорных вопросов такая: воздействие должно быть сосредоточено на уровне контента. Это прямое следствие принципа учёта уровней интернет-архитектуры при правовом регулировании. Способы защиты прав при скрейпинге можно разделить на обыкновенные и исключительные. Первые реализуются на уровне контента и связаны, например, с персональными данными и информацией, содержащей охраняемые результаты интеллектуальной деятельности. Вторые реализуются на нижестоящих уровнях интернет-архитектуры и включают, в частности, уголовную ответственность за создание и использование вредоносного программного обеспечения и возмещение вреда, причинённого компьютерам как имуществу. Использование исключительных способов защиты должно быть ограничено. Сложно представить такое ограничение на законодательном уровне: не стоит отмечать в нормах Гражданского и Уголовного кодексов России исключения, написанные специально для скрейпинга. Следовательно, ограничение должно возникнуть на уровне судебной практики.

Можно сформулировать несколько частных предложений о законодательных изменениях, касающихся скрейпинга. Во-первых, следует добавить определение признака «несанкционированный» в ст. 273 УК РФ, из которого бы прямо следовало, что обработка общедоступной информации в Интернете не попадает под этот признак. Во-вторых, желательно изменить нормы о свободном использовании произведений и объектов смежных прав так, что скрейпинг в научных, образовательных, информационных целях станет однозначно правомерным. В-третьих, нужна норма об ограничении ответственности провайдеров облачных платформ в случае, когда с помощью их сервисов осуществляется скрейпинг. Такой информационный посредник не несёт ответственности, если он не знал и не должен был знать о неправомерности сбора данных и принял меры по прекращению скрейпинга незамедлительно после получения судебного акта о применении мер обеспечения иска по делу о защите прав, нарушенных при сборе данных.

При рассмотрении дел, касающихся скрейпинга, в судах и иных юрисдикционных органах необходимо обратить внимание на следующие обстоятельства:

1) статус собираемой информации: общедоступная информация без квалифицирующих признаков, персональные данные и иная конфиденциальная информация, информация, содержащая объекты интеллектуальных прав;

2) статус сайта как результата интеллектуальной деятельности;

3) возможность свободного использования охраняемых результатов интеллектуальной деятельности;

4) заключённость пользовательского соглашения и его условия;

5) наличие технических средств защиты на сайте и их отнесение к средствам защиты авторских и смежных прав либо к средствам снижения нагрузки на сайт;

6) наличие robots.txt и его соотношение с условиями пользовательского соглашения;

7) соблюдение антимонопольного законодательства;

8) характер экономических отношений участников спора: конкуренты или потенциальные партнёры;

9) реалистичность исполнения решения по делу.

В сложных и сомнительных ситуациях оптимальным решением могут бы стать примирительные процедуры и мировое соглашение.

1Krotov V., Silva L. Legality and Ethics of Web Scraping // Proceedings of Twenty-fourth Americas Conference on Information Systems. New Orlean, 2018. P. 1. URL: https://www.researchgate.net/publication/324907302 (дата обращения: 20 ноября 2019 г.).

2Mitchell R. Web Scraping with Python. Sebastopol: O’Reilly Media, 2015. P. 8.

3Ibid.

4Ibid.

5Геокодер — HTTP-запрос на геокодирование // Технологии Яндекса. URL: https://tech.yandex.ru/ (дата обращения: 21 ноября 2019 г.).

6URL: https://tech.yandex.ru/ (дата обращения: 30 ноября 2019 г.).

7Krotov V., Silva L. Op. cit. P. 2.

8Ibid.

9Веб скраппинг, парсинг на Python? // Хабр Q&A. URL: https://qna.habr.com/q/538509 (дата обращения: 21 ноября 2019 г.).

10Архипов В.В. Интернет-право : учебник и практикум для бакалавриата и магистратуры. М.: Изд-во Юрайт, 2019. С. 26.

11Азизов Р.Ф. Правовое регулирование в сети Интернет: сравнительно- и историко-правовое исследование : дис. … д-ра юрид. наук. СПб., 2016. С. 99.

12Архипов В.В. Указ. соч. С. 33.

13Азизов Р.Ф. Указ. соч. С. 67.

14Lessig L. The Law of the Horse: What Cyberlaw Might Teach // Research Publication No. 1999-05. Cambridge : Berkman Center for Internet & Society at Harvard Law School, 1999. P. 501–546.

3Правила составления и подачи заявки на выдачу патента на изобретение (утв. Роспатентом 29 декабря 1992 г.); Правила составления, подачи и рассмотрения Заявки на выдачу патента на изобретение (утв. Роспатентом 20 сентября 1993 г.); Приказ Роспатента от 06 июня 2003 г. № 82 «О Правилах составления, подачи и рассмотрения заявки на выдачу патента на изобретение»; Приказ Минобрнауки РФ от 29 октября 2008 г. № 327 «Об утверждении Административного регламента исполнения Федеральной службой по интеллектуальной собственности, патентам и товарным знакам государственной функции по организации приема заявок на изобретение и их рассмотрения, экспертизы и выдачи в установленном порядке патентов Российской Федерации на изобретение».

15Азизов Р.Ф. Указ. соч. С. 91, 94.

16Lessig L. Op. cit. P. 507.

17Ibid. P. 510.

18Технология передачи данных по электрической сети называется Power-line communication.

19Заключение коллегии Палаты по патентным спорам от 23 декабря 2014 г. (Приложение к решению Федеральной службы по интеллектуальной собственности от 19 июня 2015 г. по заявке № 2012106044/12).

20Ibid. P. 817.

21Азизов Р.Ф. Указ. соч. С. 75–81.

22Архипов В.В. Указ. соч. С. 35–38.

23Krotov V., Silva L. Op. cit. P. 2.

24См., например, интервью с Р. Столлманом: Шенгелия В. Я разозлился и решил построить мир свободы: интервью с Р. Столлманом // Вокруг света. 2012. № 4. URL: http://www.vokrugsveta.ru/vs/article/7675/ (дата обращения: 24 ноября 2019 г.).

25Krotov V., Silva L. Op. cit. P. 3–4.

26Tiell S. C., Metcalf J. Universal principles of data ethics: 12 guidelines for developing ethics code // Accenture Labs. 2016. 12 p. URL: https://www.accenture.com/DataEthics (дата обращения: 30 ноября 2019 г.); Кошкаров А.В. Ethical issues related to scraping personal data: recommendations for business leaders // Вектор экономики. 2018. № 3. 6 с.

27Mitchell R. Op. cit. P. 223.

28Completely Automated Public Turing test to tell Computers and Humans Apart, который обычно выглядит как картинка со словом или цифрами или как галочка «Я не робот».

29Голицына А. Испания вводит «налог на Google» // Ведомости. 30 октября 2014 г.. URL: https://www.vedomosti.ru/ (дата обращения: 24.11.2019).

30AFP: французская пресса подаст жалобу на Google из-за нового формата цитирования // TACC. 24.10.2019. URL: https://tass.ru/ (дата обращения: 24 ноября 2019 г.).

31Ingram M. External traffic to Spanish news sites plummets after Google move // GigaOm. 16.12.2014. URL: https://gigaom.com/ (дата обращения: 24 ноября 2019 г.).

32Hirschey J. K. Symbiotic Relationships: Pragmatic Acceptance of Data Scraping // Berkeley Technology Law Journal. 2014. Vol. 29. P. 897–928.

33Kuizinas G. Do not protect your website from scraping (part 1, technology barriers) // Personal blog on Medium.com. 09.04.2018. URL: https://medium.com/ (дата обращения: 24 ноября 2019 г.).

34Dreyer A.J., Stockton J. Internet «Data Scraping»: A Primer for Counseling Clients // New Youk Law Journal. 15 июля 2013 г.. URL: https://www.law.com/ (дата обращения: 25 ноября 2019 г.); Snell J., Menaldo N. Web Scraping in an Era of Big Data 2.0 // Bloomberg BNA. 2016. URL: https://perma.cc/5EMV-UD8U/ (дата обращения: 25 ноября 2019 г.).

35Mitchell R. Op. cit. P. 226–227.

36Snell J., Menaldo N. Op. cit.

37См.: hiQ Labs, Inc. v. LinkedIn Corp., No. 17-16783 (9th Cir. 2019).

38Ibid. P. 24–25.

39Sellars A. Twenty Years of Web Scraping and the Computer Fraud and Abuse Act // Boston University Journal of Science & Technology Law. 2018. Vol. 24. P. 394–410. URL: https://ssrn.com/abstract=3221625 (дата обращения: 25 ноября 2019 г.).

40hiQ Labs, Inc. v. LinkedIn Corp. P. 27.

41Савельев А.И. Электронная коммерция в России и за рубежом: правовое регулирование. М: Статут, 2016. 640 с.

42Орешин Е. Дело ВКонтакте VS Дабл об использовании общедоступных данных пользователей: позиция Дабл в Суде по интеллектуальным правам // Zakon.ru. 15 июня 2018 г. URL: https://zakon.ru/ (дата обращения: 04 мая 2020 г.); Постановление Суда по интеллектуальным правам от 24 июля 2018 г. : дело № А40-18827/2017: истец ООО «В Контакте», ответчики ООО «Дабл» и АО «Национальное бюро кредитных историй» // Картотека арбитражных дел. URL: http://kad.arbitr.ru/ (дата обращения: 01 декабря 2019 г.).

43Nettleton E., Obhi H. ECJ rules on protection afforded by database right // Journal of Database Marketing & Customer Strategy Management. 2007. Vol. 12, iss. 3. P. 266–271. URL: https://doi.org/ (дата обращения: 25 ноября 2019 г.).

44См. дело А40-5250/2017, в котором Национальное бюро кредитных историй не смогло оспорить предписание Роскомнадзора. URL: http://kad.arbitr.ru/ (дата обращения: 25 ноября 2019 г.).

Цифровая среда