Formatul PDF este unul dintre cele mai răspândite tipuri de documente din lume, dar pentru sistemele de inteligență artificială rămâne surprinzător de dificil de analizat. Specialiștii spun că limitările tehnice ale acestui format ar putea duce, pe termen lung, chiar la înlocuirea lui cu alternative mai ușor de citit de către mașini, relatează Mediafax.
PDF-ul (Portable Document Format) a fost creat de compania Adobe în 1993 pentru a permite deschiderea documentelor pe orice computer fără a modifica aspectul acestora. De-a lungul anilor, formatul a devenit standard pentru documente oficiale, formulare administrative, lucrări academice sau documente de lucru, scrie Il Post.
Problema este că PDF-urile au fost concepute în primul rând pentru a fi citite de oameni, nu de programe informatice. Deși modelele moderne de inteligență artificială pot analiza texte complexe, ele întâmpină dificultăți atunci când încearcă să interpreteze structura unui document PDF. De exemplu, atunci când textul este organizat în coloane, include grafice sau tabele. Din aceste motive, programele pot interpreta greșit ordinea informațiilor, ceea ce duce la rezultate confuze.
De ce AI-ul citește greu documentele PDF
Din punct de vedere tehnic, un PDF funcționează mai degrabă ca o „fotografie” a unui document. Fișierul conține instrucțiuni pentru a reproduce exact aceeași pagină pe orice dispozitiv. Pentru a extrage textul, programele trebuie să folosească tehnologii de recunoaștere optică a caracterelor (OCR), care transformă imaginile în text digital. Aceste sisteme funcționează relativ bine în cazul documentelor simple. Ele întâmpină probleme majore atunci când fișierele conțin scanări, scris de mână sau structuri grafice complexe.
În schimb, alte formate precum HTML sunt mult mai ușor de analizat de către inteligența artificială. Explicația este că acestea includ etichete care indică structura documentului: titluri, subtitluri sau paragrafe.
O provocare pentru industria inteligenței artificiale
Limitările PDF-urilor reprezintă o problemă dublă pentru companiile din domeniul inteligenței artificiale. Pe de o parte, utilizatorii se confruntă frecvent cu dificultăți atunci când încearcă să ofere documente PDF pentru analiză sau rezumare. Pe de altă parte, aceste limitări împiedică accesul la un volum uriaș de conținut de calitate care ar putea fi folosit pentru antrenarea modelelor AI. Estimările arată că între 80% și 90% dintre datele existente în companii sunt stocate în formate „nestructurate”. Iar aici sunt incluse PDF-uri, înregistrări audio sau video, care sunt dificil de analizat automat.
Ar putea apărea un nou standard
În contextul creșterii rapide a industriei AI, mai multe companii încearcă să găsească soluții pentru această problemă. Startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou tip de format de document. El a fost conceput pentru a păstra avantajele PDF-ului, dar care să poată fi analizat mai ușor de sistemele de inteligență artificială.
În paralel, compania europeană Mistral a lansat un sistem OCR bazat pe AI pentru a îmbunătăți citirea documentelor PDF. Momentan, rezultatele nu sunt încă semnificativ mai bune decât cele ale tehnologiilor existente.
Pentru moment, PDF-ul rămâne standardul dominant pentru documente digitale. Totuși, pe măsură ce inteligența artificială devine tot mai importantă în analizarea datelor, presiunea pentru dezvoltarea unor formate mai prietenoase cu mașinile este tot mai mare.





























Comentează