Последно в серията от публикации, посветени на предстоящата транспозиция на Директива 2019/790 относно авторското право и сродните му права в цифровия единен пазар (ДАПЦЕП), публикувахме интервю с Владимир Петков, представляващ българските компании A Data Pro и Identrics.
Повече за изключенията за text and data mining може да прочетете тук – относно контекста на въвеждането на изключение за text and data mining на европейско ниво, тук – за Член 3 и тук – за Член 4.
Днешното интервю е с Никола Тулечки, експерт по данни в българската компания Онтотекст, която е водещ разработчик в сферата на Семантичните технологии.
1. Моля да се представиш – себе си и компанията, за която работиш.
Онтотекст е водещ разработчик на системи за управление на семантични графова бази данни и извличане на информация от текст. Компанията е фокусирана и върху научноизследователска дейност, свързана със семантично представяне на знания (Knowledge Representation), компютърна лингвистика (Computational Linguistics /Natural Language Processing), хибридни модели за управление на знания (Knowledge Management), семантичен уеб (Web 3.0).
Технологиите, които разработваме, позволяват ефективно изграждане на решения за широк спектър приложения, свързани с извличане и управление на големи обеми информация. Типични области на приложение са интелигентно търсене в големи обеми документи, структуриране на организационното знание, управление на неструктурирано съдържание, интегриране на бази данни, и автоматично извличане на знания.
Компанията предлага иновативни решения в областта на семантичните технологии и подпомага клиентите си в процеса на анализ и обработка на масиви от данни, при които се изисква висока прецизност на идентификация на взаимовръзките между различните типове обекти в текст. Така компанията създава условия за подобряване организирането и структурирането на информацията и помага на потребителите да достигат по-лесно до качествена, достоверна и актуална информация.
Аз работя като експерт по данни в Онтотекст от 2017-та година. Преди това направих докторантура в Тулуза (Франция) върху приложенията на автоматичната обработка на естествения език върху доклади за инциденти в гражданската авиация. В Онтотекст, работя по разнообразни научно-изследователски проекти, където основно се занимаваме със семантично моделиране на данни. В по-общ план, са ми интересни свързаните отворени данни, както от структурна гледна точка но най-вече от гледна точка на тяхната обществена значимост. От 2019 водя курсове по Семантични технологии в СУ и в НБУ.
2. Какво е Machine Learning и Text and Data Mining:
Машинното самообучение е академична дисциплина на пресичането на компютърната наука и статистиката, която изучава алгоритми, които се подобряват с опита, така че колкото повече данни или примери обработят, толкова по-добри стават в задачата, която решават. Практичните приложения базирани върху тези технологии вече узряха, навсякъде са и имат изключително разнообразни приложения – от разпознаването на лица в снимка, превръщането на говор в текст, до избирането на следващия елемент, който Фейсбук ти показа така, че да продължиш да скролваш в апликацията. Наборът задачи, в решението на които влиза елемент на машинно самообучение, също е впечатляващ. Дори и бойлерът в кухнята ми има опция да се опита да научи какъв ми е дневният режим на ползване на вода, за да си оптимизира греенето и да пести ток.
Тext и data mining е един всеобхватен набор инструменти, които позволяват извличането на систематизирано знание от, съответно, големи количества текст или данни. Класическият пример за “текст майнинг” задача е обработката на журналистически текст и търсенето вътре на точно определени парчета информация, например назначения или уволнения на шефове на компании или корпоративни сливания. “Дейта майнинг” също е навсякъде, от оптимизация на инвентар, през метеорология, до засичане на данъчни измами.
3. Знам, че Онтотекст работи усилено в рамките на научноизследователски проекти, финансирани от програмата Хоризонт 2020. В какви научни проекти си ангажиран и каква е ролята на Онтотекст в тях?
Онтотекст участва в европейски научноизследователски проекти още от рамковата програма FP5 (2001г). Има над 30 завършили проекта, 6 или 7 текущи и още няколко, които скоро очакваме да бъдат одобрени. Темите им са разнообразни. Сега имаме проекти в земеделието, в медицината и фармацевтиката, нанотехнологии, културно наследство, транспорт и логистика, медии и дезинформация и т.н. Ролята на команията в тях, обаче, е винаги сходна и се върти около съхранението, организацията, достъпа и обработката на данни. Данните винаги се оказват ключов фактор в каквото и да е научно начинание и в повечето проекти партньорите разчитат на Онтотекст да им осигури среда, в която тези данни да са в подходящ формат, така че партньорите ни да могат да си провеждат експериментите или да си разработват иновативните приложения. С две думи, като парадигма Семантичните технологии са инструмент които позволяват да се мисли за данните като за един обект, независимо колко разнообразни са те. Това е интеграцията на данни. Няма значение дали е купчина екселски таблици, няколко разнородни бази данни, текстови документи, масиви отворени данни или (както е в повечето случаи) комбинация от гореспоменатите формати. Преди всичко целим да разберем каква е семантиката (смисъла) на информацията, която се съдържа в тях, и как да я представим в унифициран вид. Владеем процеса както и в концептуалната му фаза, така и от технологична гледна точка – трансформация на данни от всякакви формати, съхранението им в графова база данни (която е и основния продукт на Онтотекст) и ефикасната им експлоатация от базата директно със заявки към нея или с по-сложни програмни интерфейси.
Съответно конкретната тема на проектите е от малко значение. Всички произвеждат данни, всички искат да могат да правят чудеса с тях и всички се сблъскват с подобни проблеми, които ние знаем как да решим.
4. Какви проблеми срещаш по отношение на достъпа до данни, върху които да провеждаш TDM?
Като цяло е трудно да се работи с данни, като голяма част от проблемите са присъщи на самите технологии. Несъответствие на формати, разнородни модели, шум и грешки в самите данни. Сигурно сме виждали над хиляда начина, по които може да се запише дата и час. Справянето с тези проблеми, така че човек да може да ползва данните, за да се концентрира върху задачата, която иска да реши благодарение на данните, а не върху самите данни, е в голяма част целта на технологията, която Онтотекст разработва и на Семантичните технологии като цяло.
От гледна точка на самия достъп, често срещаме и нетехнологични сложности, като например в доста проекти се хаби изключително много ресурс, докато партниращи компании прегледат лицензионните си споразумения с трети страни, за да разберат дали могат да ни дадат някакво парче информация, което е нужно за проекта. Тези споразумения понякога са написани така, че да забраняват какъвто и да е достъп на 3-ти лица, и ни се отказва дори и да ни дадат няколко примерни реда с цел да се запознаем с конкретния масив и да си свършим да си свършим работата по изграждане на модела за организация на данните, което за мен граничи с комичността.
5. Новата Директива за авторското право в цифровия единен пазар, чието транспониране в България предстои, предвижда изискване при TDM за целите на научните изследвания, копията на входящите данни да се съхраняват при „подходящо ниво на сигурност“. Според теб необходимо и допустимо ли е конкретни условия за съхраняването на копията да се съдържат в закона? Какво мислиш за идеята доверен държавен орган да съхранява всички материали, агрегирани от научноизследователски организации, библиотеки, публично-частни партньорства и т.н. за целите на TDM?
Звучи ми абсурдно. Първо, намесването на държавен орган в и без това сложните взаимоотношения между партньорите в един типичен консорциум рискува да удави всичко в бюрокрация и да смъкне още повече потенциала за смислена и полезна работа.
Второ, ако някой е загрижен за сигурността на данните си, има си установени от десетилетия стандарти, като например серията ISO 27000, чието покриване може да се изисква по проект и да бъде гарантирано от одит. Говорейки за стандарти, конкретно в България нивото на сигурност е много ниско. Аз лично не бих се доверил на държавата да ми запази данните в тайна, най-малкото защото хранилищата на този хипотетичен орган ще агрегират голямо количество ценна информация и ще се превърнат в магнит за хакерски атаки. Не мисля че държавата има капацитета да ги защити.
Последно, чисто технически, не мога да си представя как такъв орган би оперирал. Тука не говорим за това да се заключи една флашка в сейф, а за среда за съхранение на потенциално огромни количества данни, осигуряването администрирането на достъп в реално време до тях и всичко това в динамична постоянно променяща се среда.
6. Съгласно Член 4 на ДАПЦЕП, възпроизведените и извличаните откъси за целите на извличането на информация от текст и данни могат да бъдат запазени, докогато това е необходимо за целите на извличането на информация от текст и данни. Според теб необходимо ли е по законодателен ред да се определи периодът, за който могат да бъдат съхранявани копията, създадени по силата на изключението?
Много би било трудно да се напише такова определение. ТДМ и МЛ задачите винаги са итеративни, така че е необходимо да имаш достъп до изходните си данни докато ти трае проектът. В проект с машинно самообучение винаги може да поискаш да смениш алгоритъма и да тренираш друг, по-адаптиран към задачата ти. В ТДМ задача е сходно – във всеки момент може да промениш някой параметър и да повториш обработката.
В научноизследователски контекст идва и проблемът с повтаряемостта на даден екперимент. Валидността на което и да е заключение виси върху възможността анализът да бъде повторен, което е невъзможно без да се пазят изходните данни. В този ред на мисли, ми се струва много трудно да се спори, че даден набор изходни данни вече не е необходим за даден проект.
От друга страна има резон в принципа, че не трябва чувствителни данни да се пазят, когато това вече не е нужно. Той е основен в информационната сигурност и гореспоменатите стандарти за сигурност изискват наличието на правила кога важни данни трябва да се трият. Течът от НАП е много хубав пример защо е хубаво да не се пазят изходни данни. Таблиците, които бяха публикувани, очевидно бяха изходни данни, които някой си е майнвал на компютъра ,не е изтрил, когато е трябвало, и са се натрупали няколко години.
Никола Тулечки е експерт по данни в българската компания Онтотекст, която е водещ разработчик в сферата на семантичните технологии. Преподавател по Семантични технологии в Софийски университет и в Нов български университет.
Снимка: Автор - Диляна Ангелова, предоставена от Никола Тулечки.
Чудесна статия.
Линкът „над 30 завършили проекта“ е счупен, правилният линк е https://www.ontotext.com/knowledge-hub/research-projects/