Desde CEDRO:
“A experiencia e as análises efectuadas nos últimos anos veñen confirmar que os contidos editoriais protexidos polo Dereito de Autoría son utilizados para o desenvolvemento dos sistemas de intelixencia artificial xenerativa (IAX) e como, en distintos formatos e de diferentes formas, son reproducidos en todas as fases de desenvolvemento dese sistema.
Esta explotación das obras, de acordo coa normativa e xurisprudencia europea, exixe a autorización dos seus autores e editoras e unha remuneración xusta por estes usos, algo que parecen esquecer os desenvolvedores, privados e públicos, deste software de IA.
Como non podía ser doutro xeito, a formulación arriba exposta, en relación á utilización de obras protexidas, veu ser referendada por un representante do Barcelona Supercomputing Center (BSC) nun obradoiro sobre IA e dereitos de autoría, organizado pola Comisión de Asuntos Xurídicos do Parlamento Europeo, o pasado 4 de xuño.
O representante do BSC puxo de manifesto que no desenvolvemento da IAX «cada fase –inxestión, procesamento, aprendizaxe– necesariamente implica acceder e copiar contido protexido, non simplemente ideas».
E isto é así porque na contorna dixital, tradicionalmente as obras, por exemplo os libros, xornais, revistas e partituras, representáronse mediante un código binario –secuencias de ceros e uns–, que permite almacenar e procesar a información. Esta codificación almacenaba implicitamente tamén a información relativa á orde das palabras e a súa posición no texto. Trátase, pois, de estándares que permitían e permiten a reprodución dixital de obras, xerando unha especie de ciclo de tradución entre a linguaxe humana e a linguaxe das máquinas, permitindo que estas o entendan.
Algúns dos primeiros desenvolvementos modernos da IAX seguían a idea secuencial da era binaria. Pero non hai que deixarse enganar, esta tecnoloxía naceu co obxectivo de reducir o custo de almacenamento da información e aumentar a eficiencia na súa xestión. Con todo, agora, co desenvolvemento dos modelos baseados en Transformers, os procedementos de tradución da linguaxe humana á linguaxe das máquinas mudaron.
A tecnoloxía Transformers permite reproducir de xeito literal a información e a expresión orixinal da obra. De acordo coa RAG, literal significa: «Conforme ao sentido propio e exacto das palabras do texto.». A diferenza doutros sistemas que codifican as palabras en formato binario –ceros e uns–, os Transformers utilizan representacións vectoriais multidimensionais, mediante unha técnica coñecida como embedding.
Esta técnica de embedding codifica a seguinte información:
– Vector de tokens da palabra: reproduce a palabra.
– Vector de posición: reproduce a posición da palabra na frase, texto, etc. Sen a inclusión desta información de posición non se podería desenvolver a parte de valor semántico (significado) e de contexto do modelo.
– Vector de significado (semántica): reproduce o significado que o/a autor/a deu á palabra no texto.
– Vector de contexto: reproduce a relación da palabra co contexto.
Por tanto, e sen necesidade sequera de ser preguntado sobre o acceso lexítimo ás obras que son utilizadas para o desenvolvemento das aplicacións de IAX, o representante do BSC afirmou que, na fase de “inxestión” –preparación do repositorio inicial de obras, coñecido tecnicamente como “dataset”– é preciso acceder e reproducir obras protexidas. Isto implica que na primeira etapa no desenvolvemento da IAX se require a reprodución dixital de todas as obras incluídas no repositorio, para o que é necesaria a autorización dos seus titulares de dereitos. E este punto é chave antes de analizar se cabería a aplicación do límite de minaría de textos e datos previsto no artigo 4 da Directiva 2019/790, que permitiría o uso das obras sen autorización para algúns fins, xa que antes sería preciso contar con ese acceso lexítimo ás mencionadas publicacións para que fose legal.
Así mesmo, cando o representante do BSC recoñece que na fase de procesamento resulta imprescindíbel reproducir as obras para transformar cada palabra en tokens, unidades mínimas que o modelo utiliza para operar (polo referido custo de almacenamento e de cálculo), e demais vectores comentados.
Neles inclúense as características semánticas e contextuais do contido, quer dicir, a expresión orixinal das obras protexidas polos dereitos de autoría. Polo que tamén aquí sería preciso o permiso dos titulares. Múltiple é a xurisprudencia do TXUE que o confirma: «…a protección do dereito de autoría abrangue as expresións mais non as ideas, procedementos, métodos de operación ou conceptos matemáticos en si…». Véxase, neste sentido, a sentenza de 2 de maio de 2012, SAS Institute, C‑406/10. Cuestión tamén sinalada polo propio BSC na súa presentación.
De igual xeito, o representante do BSC explicou que durante a fase de adestramento dun modelo de IAX tamén é necesario acceder e reproducir contidos protexidos como parte do proceso técnico, mais neste caso en forma dos referidos vectores obtidos no paso anterior. Estes vectores, unha vez introducidos en forma de matrices na rede neuronal, permiten realizar cálculos matemáticos –como a obtención de derivadas– para reducir o erro entre o valor real e o que devolve o modelo. Por tanto, esta fase implica necesariamente outra reprodución máis, efectuada nun formato diferente da obra nacida directamente do/a autor/a.
O representante do BSC expuxo, ademais, que na fase de xeración do modelo –quer dicir, cando este é utilizado polos usuarios– non se produce acceso nin reprodución directa das obras ou de reproducións das obras orixinais do/a autor/a por parte do modelo de intelixencia artificial xenerativa.
Agora ben, aínda que o modelo non accede directamente ás obras ou ás expresións no devandito de xeración, os resultados que xera (comunmente denominados outputs) poden reproducir parcial ou totalmente contidos protexidos e, tamén, transformalos e comunicalos publicamente. A pesar diso, os desenvolvedores, ao meu xuízo, non implementan conscientemente medidas tecnolóxicas que bloqueen estes resultados que afectan directa e gravemente os dereitos de autoría, a normal explotación das obras e ao traballo realizado por autores/as e editores/as. Ademais, hai que ter en conta que os modelos desenvoltos polo BSC, como MarIA e ALIA, foron postos a disposición de usuarios empresariais con fins comerciais.
Por certo, o representante do BSC tamén advirte na súa intervención sobre a dificultade de garantir a rastrexabilidade do uso dos contidos protexidos nas respostas ou resultados (output) das aplicacións de IAX. Esta cuestión xa foi contemplada polo lexislador: tanto o artigo 17 da Directiva 2014/26/UE como o artigo 167 da Lei de Propiedade Intelectual estabelecen que a responsabilidade de informar sobre os usos das obras é unha obriga que recae no usuario do material protexido, unha cualificación que o propio BSC non cuestiona.
Por tanto, a existencia de dificultades técnicas para garantir a rastrexabilidade, a información sobre a orixe das obras utilizadas para obter eses resultados, non encaixan coa obriga legal de respecto aos dereitos dos titulares nin xustifica a falta de remuneración aos mesmos. Esta obriga é claramente do desenvolvedor e, en ningún caso, pode trasladarse aos titulares, quen deben dar a autorización e recibir a remuneración que lexitimamente lles corresponde.
É importante sinalar a necesidade de estabelecer medidas de seguridade eficientes sobre as bases de datos vectoriais que moitos dos desenvolvedores utilizan para almacenar os embeddings –é dicir, as representacións vectoriais de obras protexidas–, pois non está claro que sexan irreversíbeis e que permita reconstruír as obras, en todo ou en parte, o que incrementa o risco de infraccións contra os dereitos de autoría.
Como resumo, un novo cambio de tecnoloxía para reproducir obras ou a súa expresión orixinal, quer dicir, de codificación binaria a embedding, propiciou un debate que non é real e que foi motivado por intereses que ameazan con desartellar aínda máis os principios fundamentais da nosa sociedade.
Habemos lembrar que, durante os últimos trinta anos desenvolvéronse políticas de rent seeking –segundo as denomina a teoría económica– sobre os dereitos de autores e editoras. Estas políticas, baseadas en conceptos legais como fair use ou límites ou excepcións ao dereito de autoría, potenciaron a medio e longo prazo os seguintes resultados:
– O desenvolvemento de barreiras de entrada que limitan a competencia no mercado de servizos dixitais, apoderando aquelas empresas que puideron desenvolver accións de venda cruzada de produto a prezo 0.
– O desenvolvemento de inestabilidade nas contornas sociais, ao primar nesas empresas unicamente obxectivos económicos, obviando a súa responsabilidade sobre cuestións sociais e medioambientais.
– A debilitación do impacto social dos valores do sector da cultura escrita e, por tanto, a do propio sector e a sociedade.
Por todo isto, e co obxectivo de acadar o pleno respecto aos dereitos de autoras e editores no escenario que presenta a IAX, é fundamental analizar axeitadamente os intereses que non se fan explícitos e que están detrás destes novos desenvolvementos tecnolóxicos. Sen esquecer, claro é, ir alén dunha simple análise de conflito de intereses, que en moitos casos é disfrazado de escasa capacidade orzamentaria a curto prazo.
E acabo cunha pregunta: así como no seu momento, co desenvolvemento da tecnoloxía dixital baseada en código binario, foi necesario un tempo para acordar un modelo de reprodución da obra –como o foi o código ASCII–, non estaremos, talvez, ante unha situación similar? Acaso non veremos, co tempo, a creación dun novo modelo para a reprodución da obra ou da expresión da obra no espazo multidimensional dos embeddings?”