Text and Data Mining – контекстът

4.1

В следващите няколко публикации ще разгледаме първите изключения в новата Директива 2019/790 относно авторското право и сродните му права в цифровия единен пазар (ДАПЦЕП). Какво означава изключение от авторското право може да прочетете тук.

Текстовете на Член 3 и Член 4 от Директивата уреждат две отделни изключения за извличане на информация от текст и данни (на англ. text and data miningTDM). Двете разпоредби предвиждат различен кръг субекти, които могат да се възползват от съответното изключение, и различни условия за прилагане на изключението. Член 3 касае задължително изключение за тази дейност в полза на научноизследователските организации. Член 4 ползва, макар и в много по-ограничен обхват, всички останали участници на пазара.

В тази първа публикация по темата ще изясним какво налага въвеждането на изключение за text and data mining на европейско ниво и каква е заварената правна уредба по въпроса. В следващ пост ще обсъдим какво предвиждат новите изключения, заедно с препоръките на ЦИФРОВА РЕПУБЛИКА относно транспонирането им в България.

Серията ще включва също интервюта с представители на научно-изследователските организации и бизнеса, ангажирани в тази сфера в България, които ще споделят практическите предизвикателства, с които се сблъскват по повод анализа на данни, и препоръките им за по-добра и устойчива правна уредба на дейността.

Какво е TDM?

  1. Значение

През последните години се наблюдава експоненциален растеж на обема на цифрови данни, достъпни за всички обществени нива. В епохата на Големите данни (Big Data), достъпното цифрово или цифровизирано съдържание се очаква да става все по-разнообразно. Тенденцията се засилва от това че:

  • разходите за съхранение на данни и за използване на облачни изчислителни системи продължават да намаляват, докато изчислителната мощност се увеличава;
  • цифровизацията е преминала от специфични процеси, като напр. архивиране и оптимизиране на производствени процеси, към почти всички ежедневни аспекти на обществените дейности;
  • наблюдава се т.нар. датафикация на информацията, т.е. създаването на нова информация и знания, потенциално с нова стойност, въз основа на машинно четимо съдържание.

Обществото, напълно основателно, очаква прилагането на умни методи за обработване на Големите данни да доведе до подобрен достъп до информация, по-бързо откриване на знания, по-висока производителност и конкурентоспособност. TDM е общият термин, покриващ технологиите, които позволяват постигането тази цел.[1]

Според Окончателния доклад на Изследването на европейския пазар на данни, публикувано от Европейската комисия през 2017 г., стойността на икономиката на данни в ЕС се оценява на 300 милиарда евро през 2016 г. и се очаква да нарасне значително – над двойно – до 2020 г. (близо 740 милиарда евро). Използването на иновации, базирани на данни е мощен генератор на стойност и според самата Комисия представлява реална полза за европейската икономика като цяло. Затова и Европейският законодател признава, че “докато технологиите за извличане на информация от текст и данни преобладават в цифровата икономика, широко разпространено е схващането, че извличането на информация от текст и данни може да бъде от особено голяма полза за научноизследователската общност и по такъв начин да подкрепи иновациите.” (Съображение 8 от ДАПЦЕП).

  • Технология

„Извличане на информация от текст и данни“ според ДАПЦЕП означава автоматизиран аналитичен способ, чиято цел е да анализира текст и данни в цифрова форма, за да се създаде информация, включваща, но без да се ограничава до това – модели, тенденции и взаимовръзки (чл.2, ал.2). TDM позволява обработването на големи обеми информация с оглед придобиване на нови знания и разкриване на нови тенденции (Съображение 8).

TDM е в основата на машинното самообучение (machine learning) и Изкуствения интелект (AI).

На практика има разлика между извличане на информация от данни (Data Mining), което е изчислителният процес на откриване и извличане на знания от структурирани данни, и извличане на информация от текст (Text Mining), което представлява изчислителният процес на откриване и извличане на знания от неструктурирани данни. Във втория случай обикновено се има предвид иформация, създадена от човек на естествен език, която представлява неструктурирани данни в машинно нечетим формат. Текстови данни могат да бъдат създавани и генерирани и от софтуерни програми.[2]

  • Приложение

Важно е да се знае, че тези абстрактно звучащи технологични решения всъщност се използват в дейността на огромен кръг бизнеси. Всички приложения за карти, листинги на ресторанти, всички елекронни магазини, които ползват ретаргетинг, използват TDM. Научно-изследователските организации и (понякога в още по-голяма степен) научно-изследователските отдели на търговските субекти в най-различни сфери активно използват machine learning в дейността си. Може би няма да е преувеличено да се каже, че във всеки стартъп проект в момента се използва под някаква форма машинно самообучение.

Само един от примерите, които можем да дадем, е огромното приложение на TDM в областта на особенно актуалната напоследък сфера на здравеопазването:

Разглеждайки резултатите от изследвания в здравеопазването, различните проучвания често достигат до противоречиви заключения. Това може да е резултат от разлики или несъвършенства в проучванията, както и от случайни фактори (вариации в избора на данни). Когато съществуват такива различия, не винаги е ясно кои резултати са най-надеждни и следва да се използват като основа за практически и политически решения. Използването на систематични прегледи дава възможност за решаване на тези проблеми чрез идентифициране, критична оценка и интегриране на резултатите от всички съответни висококачествени индивидуални проучвания, които обхващат един или повече изследователски въпроси.

Чудесен пример в тази насока са биомедицинските стартъпи (само в България има поне няколко), които използват машинно самообучение за диагностика, стратификация на пациентите, избор на подходящо лечение, идентифициране на подходящи медикаменти (drug discovery), персонализирана медицина и т.н. Всички тези инициативи имат нужда от достъп до колкото може по-широк кръг данни (бази данни и материали), за най-добър резултат.

Какво налага изключение за TDM

Повечето хора биха се зачудили какво общо има машинното самообучение (machine learning) с авторското право. Обичайната житейска нагласа е, че след като имаме достъп до определено съдържание и можем да го прочетем физически, то би следвало да имаме право и да го прочетем машинно.

Проблемът е, че определени действия, включени в процеса по извличане на информация, биха могли формално да представляват действия на разпореждане с авторски правомощия върху чужди произведения или други обекти (напр. неоригинални бази данни), които са обект на авторско или сродно право. Съответно, формално, за всички тези действия е необходимо разрешението на автора/правоносителя, и ако такова не е налице, е възможно да има правонарушение.

TDM се отнася до изследователска техника за събиране на информация от големи количества цифрови данни чрез автоматизирани софтуерни инструменти. То работи чрез (1) идентифициране на входни материали, които трябва да бъдат анализирани, напр. произведения или данни, индивидуално събрани или организирани в съществуваща база данни; (2) копиране на значителни количества материали – което включва (а) предварителна обработка на материалите чрез превръщането им в машино-четим формат, съвместим с технологията за внедряване за TDM, така че структурираните данни да бъдат извлечени и (б) евентуално, но не задължително, качване на предварително обработените материали на платформа, в зависимост от техниката на TDM, която ще се използва; (3) извличане на данните; и (4) рекомбинирането на данните за идентифициране на модели в крайния резултат.[3]

Дали при TDM рискуваме потенциално авторскоправно нарушение зависи от конкретния метод и използваните инструменти.

·      Кога няма потенциално нарушение на чужди авторски и сродни права

Очевидно, когато TDM се извършва по отношение на обикновени факти или данни, които не са обект на авторско право, то нямаме автор и няма нужда от разрешение.  Също така, когато TDM използва инструменти, предвиждащи минимално копиране на няколко думи или crawling на данни и обработка на отделни “парчета”, нямаме използване по смисъла на авторското право.

·      Кога може да има потенциално нарушение

Основните правомощия на правоносителя в сферата на авторското право могат да се групират в 3 условни категории. Той/тя има право да разрешава, съответно забранява, 1) възпроизвеждане (копиране); 2) комуникация (излъчване, публично изпълнение, предоставяне на достъп онлайн и т.н.) и 3) преработка на съответния обект на правата.

Затова в процеса на TDM може да има нарушение на авторски и сродни права, когато имаме възпроизвеждане, което води до създаването на копие на защитено произведение в хода на последователността от обработки. Такива действия могат да бъдат предварителна обработка за хомогенизиране на данните в машинен формат; качване на предварително обработените данни на платформа и т.н.

TDM може да включва възпроизвеждане, преработка, адаптация, подреждане и други промени на база данни, обект на авторско право (оригинална селекция и подреждане на съдържанието на базата данни), като напр. предварителната обработка за извличане на данни може да включва премахване на данни, които не са релевантни за анализа и в този смисъл да наруши и правото на възпроизвеждане, и правото за създаване на адаптации и преработки.

Не на последно място, съвременните изследователски практики се стремят към възпроизводимост на резултатите от изследванията, което изисква изследователите да съхраняват изходните материали за TDM и да ги предават на своите колеги/рецензенти. В редица специализирани онлайн хранилища за големи масиви от данни се публикуват изходни данни, достъпни за всички, за потвърждение на получените резултати и за преизползване за нови анализи и публикации. В този смисъл бихме имали и съобщаване на публиката.

Отделно, определени етапи в процеса по TDM биха могли да включват действия от Sui generis правомощията на правоносителя върху бази данни. Такива са извличане (постоянното или временното пренасяне на цялата или на съществена – в количествено или качествено отношение – част от съдържанието на база данни върху друг носител по какъвто и да е начин и в каквато и да е форма) от бази данни; и повторно използване на база данни (каквато и да е форма на публично представяне на цялата или на съществена част от съдържанието на база данни чрез разпространение на копия, чрез on line или други форми на предаване).

Разбира се, всички тези съображения произлизат от едно изключително формалистично тълкуване на авторските и сродни права, което много изследователи отхвърлят. TDM реално представлява “четене” на текст и данни, но не от човек, а по машинен път – нещо, което прави целия изследователски процес несравнимо по-бърз и ефективен. Алгоритъмът “чете” съответните материали и “се учи”, като извлича зависимости от тях. На практика TDM не уврежда класическите правомощия на авторите. Затова и в САЩ тази дейност се причислява безапелационно към свободната употреба под fair use. Съответно в Европа слоганът на инициативата, бореща се за свободно TDM беше “правото да четем е правото да извличаме” – The right to read is the right to mine.

Заварени правни механизми, позволяващи свободно TDM в Европа

Както стана дума, в САЩ, благодарение на гъвкавото понятие за fair use, TDM се извършва в рамките на т.нар. онтологично или на т.нар. функционално обществено достояние.

В Европа до скоро уредбата беше недостатъчна и силно фрагментирана. В правната доктрина някои от съществуващите изключения по InfoSoc директивата (2001 г.) са спрягани като да вършат (известна) работа за свободно използване при TDM. Такива са:

  1. Задължително изключение за временните действия на възпроизвеждане (Temporary Acts of Reproduction)

Съгласно член 5, параграф 1 от Директива 2001/29, действие на възпроизвеждане е освободено от правото на възпроизвеждане, доколкото отговаря на пет (кумулативни!) условия когато (1) е временно, (2) има преходен или инцидентен характер, (3) представлява неразделна и съществена част от технологичния процес, (3) има за единствена цел да позволи предаването в мрежа между трети лица чрез посредник или законно използване на произведение или закрилян обект, и (3) няма самостоятелно стопанско значение. Съдът на ЕС се е произнесъл по въпроса кога се смята, че действия по временно възпроизвеждане имат самостоятелно стопанско значение – когато ползвателят може да реализира печалби поради икономическата експлоатация на самите временни копия от дадено защитено произведение (дело Infopaq International A/S срещу Danske Dagblades Forening – C‑302/10)

Гореописаното изключение е единственото задължително изключение по InfoSoc директивата от 2001 и целта му е да освободи действията като браузване, кеширане и т.н. от евентуални претенции за нарушение на авторски права. В някои случаи то може да покрие TDM. Има технологии като т.нар. bag of words, които броят появата на определени думи в даден текст, за да дадат представа за темата на текста. Ако резултатите от този процес са интегрална част от технологията, копията са с преходен или инцидентен характер и данните нямат самостоятелно стопанско значение, това изключение може да се приложи. Невроните в изкуствените невронни мрежи, използвани в разработка на изкуствен интелект, също могат да попаднат под изключението за временни действия на възпроизвеждане.

Самата нова Директива, в своето Съображение 18 легитимира използването на това изключение от InfoSoc.

  •  Използване за научни цели

Често теорията предлага за TDM да се използва изключението от InfoSoc за свободно използване за научно-изследователски цели. Следва да се има предвид, че това изключение (член 5, параграф 3, буква “а”) предвижда използване с единствена цел за илюстриране при преподаване или научни изследвания, с уговорка да се посочи източникът, освен ако това не се окаже невъзможно, включително името на автора, доколкото е оправдано от преследваната нетърговска цел. Обръщаме внимание на обстоятелството, че научните изследвания си “споделят” изключението с преподавателската дейност и че в някои европейски държави при транспонирането те са изключени от обхвата му (т.е. изключението важи единствено за образователни, но не и за научни дейности, съответно не е възможно да се приложи към TDM).

Свободно, съгласно нашия ЗАПСП, е използването на части от публикувани произведения или на неголям брой произведения в други произведения в обем, необходим за анализ, коментар или друг вид научно изследване. Такова използване е допустимо само за научни и образователни цели при посочване на източника и името на автора, освен ако това е невъзможно (чл. 24, ал.1, т.3 ЗАПСП). Реално това изключение би могло да се ползва за комуникационната част на TDM – от гледна точка на възпроизводимост на резултати от изследвания и рецензии.

Следва да се има предвид, че цитираното изключение в ЗАПСП е транспонирано с някои допълнителни ограничения в сравнение с текста – модел, съдържащ се в InfoSoc директивата от 2001 г. Въпросът доколко това ограничава възможностите за text and data mining ще разгледаме по-нататък в препоръките.

Също така, по отношение на сродното право върху бази данни, свободно е извличането без търговска цел за илюстриране при обучение или при научни изследвания в обем, оправдан от целта, при посочване на източника (чл. 93ж, т.2 ЗАПСП)

  • Други изключения с частично покритие:

Други инструменти, спрягани за това дали могат да се приложат към TDM са: изключението за лично използване – чл.25, ал.1, т.2 от нашия закон (отнася се единствено за действия по възпроизвежданеот физическо лице с нетърговска цел); нормално използване на бази данни (от законни ползватели); извличане и повторно използване на несъществена част от база данни  (от законни ползватели, като следва да се направи преценка дали това използване ощетява собственика предвид инвестицията му).

Разбира се, използването на тези инструменти страда от два основни недостатъка. От една страна, те покриват само някои действия в рамките на TDM или само опрeделени субекти и само за определени цели. От друга страна, тъй като в случая се осланяме на набора от InfoSoc изключения, които (с изключение на първото, касаещо инцидентните временни копия, които е единственото задължително изключение по заварената уредба) са опционални за държавите-членки, то уредбата не е имплементирана навсякъде и ако е, това е направено по различен начин и в различен обем, т.е. уредбатав Европейския съюз е безкрайно фрагментирана.

  • Национални TDM изключения

В последните години някои европейски държави въведоха TDM изключения в националното си законодателство.Такива са Обединеното кралство – от 2014 г., Холандия, Германия, Франция и Естония. Националните изключения касаят предимно научна дейност и в повечето случаи са запазени за нетърговски цели.

Обзорът на основните проблеми, свързани с прилагането на изключението на национално ниво, води до извода, че те са главно свързани с преодоляването на т.нар. мерки за технически средства за защита (т.нар. Technological Protection Measures (TPM) или още Digital rights management). Т.е., законът позволява на изследователя да извлича, но техническа защита, като например CAPTCHA, sms автентификация и т.н., го спира.

Във Великобритания, през 2015 г. организацията Libraries Archives Copyright Alliance се позовава на официалната правна процедура, както е посочена в член 6 от InfoSoc Директивата, тъй като изследовател от Лондонския университет бива възпрепятстван да извършва извличане от технически средства за защита – в случая – от инструмента CAPTCHA.

Тези примери идват да илюстрира обстоятелството, че прилагането на техническите средства за защита е много сериозна практическа пречка пред TDM, независимо от въведеното изключение, и на баланса между двата механизма, който в момента е уреден в чл. 25а от българския ЗАПСП, трябва да се отдели особено внимание от българския законодател. По въпроса за ограничаването на действието на изключенията с технически средства предстои допълнителна информация в препоръките за транспозиция на чл.3 и 4 в следваща публикация по темата, като и ще публикуваме отделно становище в рамките на тази серия от препоръки.

HUBAVOE да улесним максимално TDM

Нито основанията, които InfoSoc директивата ни дава, за да оправдаем свободно TDM, нито националните TDM изключения, решават системно проблема и са унифицирани. Налице е правна несигурност в европейски мащаб. Самата ДАПЦЕП в Съображение 8 казва, че “в Съюза такива организации и институции се сблъскват с правна несигурност относно степента, до която могат да извличат съдържание при извличането на информация от текст и данни. () Когато не е предвидено приложимо изключение или ограничение, се изисква разрешение от правоносителите, за да се предприемат такива действия.”

Това налага въвеждането на задължителни TDM изключения в европейски мащаб. За съжаление намираме решението на ДАПЦЕП за недостатъчно категорично. Въпреки това е важно при имплементирането му на родна почва да се въздържим от допълнителни ограничения на тази дейност, отвъд тези, императивно наложени от самите норми на чл.3 и чл.4.

Този месец, паралелно с обявяването на извънредно положение, Министерство на културата публикува първия си консултационен документ за транспозицията на ДАПЦЕП и от него е видно, че процесът се насочва към обсъждане на потенциални допълнителни ограничения за TDM, за които Директивата дава на държавите-членки възможност, но не и задължение, да въведат. Бихме призовали при транспонирането на изключенията да се фокусираме по-скоро върху мерки за гарантиране на безпрепятствено функциониране на изключенията. В следващ пост ще аргументираме подробно вижданията на ЦИФРОВА РЕПУБЛИКА по въпроса, но и тук бихме искали да обърнем внимание, че от първостепенно значение за доброто и смислено прилагане и на двете изключения, е намирането на оптимален баланс между тях и 1) разпоредбите, касаещи техническите средства за защита (TPM) и 2) изискванията по отношение ограничаване на изключенията по договорен път, включително чрез Optout в случая на чл.4.

В научните среди е добре известно натрупваното с десетилетия напрежение между изследователите, които целят достъп до възможно най-голямо количество разнообразно съдържание за постигане на надеждни резултати от изследванията си, и издателите на научна литература, които използват плеяда от мерки, в това число правни – ограничителни лицензи, задължаване на учените да използват API на издателите, или технически – публикуване на научна литература в машинно нечетими формати, използване на технически средства за ограничаване на достъпа и т.н., за да ограничат машинния достъп до издаваното и хоствано от тях съдържание.

В тази връзка при транспонирането на текстовете на ДАПЦЕП на национално ниво, следва да се има предвид, освен огромното икономическо значение на тази дейност, и следните характеристики на TDM:

·     TDM създава много малко натоварване на сървърите

Извличането на информация от текст и данни в действителност не създава почти никакъв натиск и натоварване върху сървърите на правоносителите. Издателят Public Library of Science (PLOS) изчислява, че абсолютното пиково натоварване на техните сървъри е средно едва 10% от капацитета им.

·     TDM е фундаментална технология за Изкуствения интелект (AI) и Големите данни (Big Data)

Необходимо е да оценим и подкрепим местната технологична индустрия (стартъпи, малки и средни предприятия и т.н.), висшите учебни заведения и изследователските институти на БАН, които са движеща сила в сферата на иновациите и трансфера на знания.

Като цяло, намираме, че националният законодател следва да избягва всякакви правни механизми, които биха могли да фрагментират TDM в глобалната мрежа и по този начин ненужно да затруднят науката и бизнеса, базирани в Европа. Трябва да се има предвид, че нормативната уредба на TDM в Сингапур, САЩ и Япония е чувствително по-либерална от тази в ЕС и дори с новите изключения, европейските субекти са в сравнително по-неизгодна позиция от основните им конкуренти.


[1] Множество икономически и правни анализи (включително сравнително-правни) на тема TDM можете да намерите в рамките на проекта FutureTDM: https://www.futuretdm.eu

[2] https://libguides.cam.ac.uk/tdm/definitions

[3] Geiger, Christophe and Frosio, Giancarlo and Bulayenko, Oleksandr, Text and Data Mining: Articles 3 and 4 of the Directive 2019/790/EU (October 17, 2019). Available at SSRN: https://ssrn.com/abstract=3470653

Related Posts

Leave a comment