Владимир Петков: особености на TDM в отворения уеб

vladimir-petkov

В серия от публикации, посветени на предстоящата транспозиция на Директива 2019/790 относно авторското право и сродните му права в цифровия единен пазар (ДАПЦЕП),  писахме за контекста на въвеждането на изключение за text and data mining на европейско ниво, изяснихме какво представлява изключението за научноизследователска дейност съгласно Член 3 и общото изключение за TDM  по Член 4 от Директивата. 

Серията, посветена на TDM, приключва с интервюта с представители на научно-изследователските организации и бизнеса, ангажирани в тази сфера в България. Първи “пред микрофона” на ЦИФРОВА РЕПУБЛИКА бе така добър на застане Владимир Петков, представляващ българските компании A Data Pro и Identrics.

Моля да се представиш!

Казвам се Владимир Петков, работя по проекти свързани с интернет и уеб от 2001-ва година. Исторически съм специализирал в развитието на дигитални медии както и трансформацията на аналогови към дигитални. В момента работя като главен технически директор в компанията A Data Pro, където специализираме в автоматизирано агрегиране и съхранение на информация и знание от отворени източници на информация. Също така съм и управител на компанията Identrics – Айдентрикс АД, която специализира в автоматизации при извличането на знания от съдържание, като например текст, генериран от хора (естествен интелект), таблици, данни и т.н.

Какво е Machine Learning и Text and Data Mining?

Обучението на машини (Machine Learning) и Text and Data Mining са термини, които събират в себе си множество технологии и методи, за да може да се извлече знание от неструктуриран текст. Ние обучаваме машините, като им създаваме модели на знание, за да може да автоматизираме някаква задача, която иначе би могла да бъде свършена само от хора (които вече имат изграден модел на знание). Разликата спрямо хората е, че машините са много по-производителни – разбират и четат бързо, но за сметка на това грешат повече спрямо хората. 

Важно е да се уточни, че съществуват много стратегии за създаване на работни процеси, с които могат да се комбинират усилията на машини и хора. В популярните публикации наричаме това сътрудничество Human In The Loop. При тази стратегия машините се учат постоянно от хората, като ги отменят в еднотипни и повтаряеми задачи. Ролята на човека е да бъде учител и след това да контролира това, което машината произвежда, за да се гарантира качество на крайния продукт. 

По какви ТDM проекти работиш?

Основните проекти, по които работим, са свързани с автоматизираното осмисляне и извличане на знания от големи масиви неструктурирани данни – това са знания, които са съхранени като текст, който по подразбиране не е разбираем за машините. Човечеството на ежедневна база създава и публикува огромни количества знание, което обаче не се разпространява във формат, който машините да могат да разберат. Затова и това знание не е лесно за намиране, филтрация и на практика няма лесен начин да се обърнем към уеб и да получим отговор на въпрос, който търсим. За целта трябва да използваме търсещи машини, които работят на основата на ключови думи и логически оператори, но няма възможност за семантични търсения.

Айдентрикс, както и други иновативни компании в България, работим по това да помогнем на машините да разбират генерираните от човека текстове, за да може впоследствие машините да ни помогнат бързо да намираме знанията, които ни интересуват.  

Айдентрикс започна работа по научноизследователски проект в рамките на публично-частно партньорство. Разкажи ни за проекта, който сте спечелили? 

В края на 2019 г. Айдентрикс бе класиран на 17-то място при над 100 подадени проектни предложения по X-та сесия на Националния иновационен фонд.  Проектът се изпълнява в сътрудничество с Института по информационни и комуникационни технологии към БАН. Предвижда се разработката на система за автоматизирано резюмиране на текстове. Съществуващите технологии работят по няколко принципа, които като цяло се наричат „директно извличащи“ (extractive)  – т.е. употребяват се вече съществуващи изречения в оригиналния текст чрез използване на начални изречения на параграфите, чрез центроидно резюмиране или чрез определяне на значимостта на най-важните изречения за текста. А нашата цел е да проектираме система за смислово-наситено  резюмиране (abstractive summarization) – т.е. генерирането на нови текстове, пресъздаващи значението и фактите от основното съдържание. Предвиденото финансиране за проекта е около 200 хил.лв. за година и половина, като подготвителният етап вече приключи и сега предстои същинската развойна дейност. Амбицията ни е тази технология да стане ядрото на серия от бъдещи продукти и услуги – за автоматично създаване и проследяване на медийно съдържание на различни езици, за автоматично изготвяне на доклади и нюзлетъри и др. Tази технология би позволила да съхраняваме алтернативни форми на оригиналното съдържание, което за нас е и форма на превенция на регулаторния риск. 

Какви проблеми срещаш по отношение на достъпа до данни, върху които да провеждаш TDM?

Проблемите са много и те много често са от технически характер. Поради естеството на уеб и разнообразните технологии, с които е изграден – агрегирането на информация и данни от отворени източници на информация изисква всяка компания да притежава платформа за агрегиране на данни, огромни дискови масиви и изчислителна мощ. 

Следенето на стотици хиляди източници на информация е огромна инвестиция за всяка компания, защото всеки сайт изисква създаването на специфични правила за извличане само на необходимите данни. Обикновено тази инвестиция се извършва в рамките на години.

Друго предизвикателство е, че много отворени източници на информация имат всякакви технически ограничения и пречки, дори и когато е изцяло в техен интерес предоставяните от тях данни да бъдат агрегирани. Обикновено това са системи, които изискват от потребителя да доказва, че е човек – така наречената “кепча”, както и всякакви системи за защита за бройки четене, откъде могат да бъдат четени и прочее.

След добиването на данните следва изключително дълъг и скъп процес, в който хора обучават машини да решават конкретни задачи, на конкретни езици и в определени тематични области. Тези инвестиции се правят в продължение на години и изискват не само специалисти по обучение на машини или учени, които да работят с данни, но и специалисти по таксономии и онтологии, библиотекарство, специалисти с познания в определени индустрии и юрисдикции. 

Как влияе върху резултатите на машинното самообучение достъпът до ограничен набор от данни?

Липсата на данни изкривява извличането на знание от отворени източници на информация. Ако не може да четем публично достъпни източници, то няма как да произведем по ефективен начин анализ или да автоматизираме част от процеса по осмисляне на информация. 

Това означава, че цели сектори от информационната икономика биха били лишени от възможността да представят своите продукти по иновативен и икономически ефективен начин. Това, само по себе си, е огромен проблем. Предвид факта, че много често нашите конкуренти от други държави, например САЩ и Китай, нямат подобни ограничения, това често обрича европейските производители да изостават по отношение на конкурентоспособността на техните информационни продукти, да губят пазар и, следователно, да плащат по-малко данъци, лицензи и заплати. От това губят всички.

Съгласно Член 4 от новата Директива за авторското право в цифровия единен пазар, чието транспониране в България предстои, възпроизведените и извличаните откъси за целите на извличането на информация от текст и данни могат да бъдат запазени, докогато това е необходимо за целите на извличането на информация от текст и данни. Според теб необходимо ли е по законодателен ред да се определи периодът, за който могат да бъдат съхранявани копията, създадени по силата на изключението? 

Не, знанието има интересната характеристика, че не знаеш кога ще ти потрябва. За да работят технологиите за автоматизиране на извличането на знание, то документите, от които трябва знанието да бъде извлечено, трябва да са достъпни за четене от машината. В предишните отговори обясних, че за да се осмисли знанието, което се качва в уеб, то преди това трябва да бъде обработено и смляно до неузнаваемост, за да бъде подадено към машината за осмисляне.

Ако има период, в който могат да бъдат съхранени документи, от които ще се извлича знание, то това означава, че ние бихме могли да извлечем знание само спрямо въпросите, които ни интересуват в момента. А какво ще правим когато след няколко месеца имаме нов въпрос, но изходните документи вече не са достъпни? Бихме ги агрегирали отново, за да ги обработим и отговорим на новите въпроси. Това означава, че ще кипи излишен труд, който би направил предоставяните от нас продукти и услуги неефективни и неконкурентоспособни.


Владимир Петков е най-известен на българската публика като половинката от дуото водещи на популярния подкаст “Говори ѝнтернет”. В живия живот е IT специалист и в момента работи активно в сферата на извличането на информация от текст и данни (text and data mining) и машинното самообучение (machine learning).

Снимка: предоставена от Владимир Петков

Leave a comment