“Intelixencia Artificial Xenerativa e dereitos de autoría: do mito da máquina que pensa á realidade da reprodución literal e do puro cálculo matemático”, artigo de Jorge Corrales, Director xeral de CEDRO

Desde CEDRO:
A experiencia e as análises efectuadas nos últimos anos veñen confirmar que os contidos editoriais protexidos polo Dereito de Autoría son utilizados para o desenvolvemento dos sistemas de intelixencia artificial xenerativa (IAX) e como, en distintos formatos e de diferentes formas, son reproducidos en todas as fases de desenvolvemento dese sistema.

Esta explotación das obras, de acordo coa normativa e xurisprudencia europea, exixe a autorización dos seus autores e editoras e unha remuneración xusta por estes usos, algo que parecen esquecer os desenvolvedores, privados e públicos, deste software de IA.

Como non podía ser doutro xeito, a formulación arriba exposta, en relación á utilización de obras protexidas, veu ser referendada por un representante do Barcelona Supercomputing Center (BSC) nun obradoiro sobre IA e dereitos de autoría, organizado pola Comisión de Asuntos Xurídicos do Parlamento Europeo, o pasado 4 de xuño.

O representante do BSC puxo de manifesto que no desenvolvemento da IAX «cada fase –inxestión, procesamento, aprendizaxe– necesariamente implica acceder e copiar contido protexido, non simplemente ideas».

E isto é así porque na contorna dixital, tradicionalmente as obras, por exemplo os libros, xornais, revistas e partituras, representáronse mediante un código binario –secuencias de ceros e uns–, que permite almacenar e procesar a información. Esta codificación almacenaba implicitamente tamén a información relativa á orde das palabras e a súa posición no texto. Trátase, pois, de estándares que permitían e permiten a reprodución dixital de obras, xerando unha especie de ciclo de tradución entre a linguaxe humana e a linguaxe das máquinas, permitindo que estas o entendan.

Algúns dos primeiros desenvolvementos modernos da IAX seguían a idea secuencial da era binaria. Pero non hai que deixarse enganar, esta tecnoloxía naceu co obxectivo de reducir o custo de almacenamento da información e aumentar a eficiencia na súa xestión. Con todo, agora, co desenvolvemento dos modelos baseados en Transformers, os procedementos de tradución da linguaxe humana á linguaxe das máquinas mudaron.

A tecnoloxía Transformers permite reproducir de xeito literal a información e a expresión orixinal da obra. De acordo coa RAG, literal significa: «Conforme ao sentido propio e exacto das palabras do texto.». A diferenza doutros sistemas que codifican as palabras en formato binario –ceros e uns–, os Transformers utilizan representacións vectoriais multidimensionais, mediante unha técnica coñecida como embedding.

Esta técnica de embedding codifica a seguinte información:

– Vector de tokens da palabra: reproduce a palabra.
– Vector de posición: reproduce a posición da palabra na frase, texto, etc. Sen a inclusión desta información de posición non se podería desenvolver a parte de valor semántico (significado) e de contexto do modelo.
– Vector de significado (semántica): reproduce o significado que o/a autor/a deu á palabra no texto.
– Vector de contexto: reproduce a relación da palabra co contexto.

Por tanto, e sen necesidade sequera de ser preguntado sobre o acceso lexítimo ás obras que son utilizadas para o desenvolvemento das aplicacións de IAX, o representante do BSC afirmou que, na fase de “inxestión” –preparación do repositorio inicial de obras, coñecido tecnicamente como “dataset”– é preciso acceder e reproducir obras protexidas. Isto implica que na primeira etapa no desenvolvemento da IAX se require a reprodución dixital de todas as obras incluídas no repositorio, para o que é necesaria a autorización dos seus titulares de dereitos. E este punto é chave antes de analizar se cabería a aplicación do límite de minaría de textos e datos previsto no artigo 4 da Directiva 2019/790, que permitiría o uso das obras sen autorización para algúns fins, xa que antes sería preciso contar con ese acceso lexítimo ás mencionadas publicacións para que fose legal.

Así mesmo, cando o representante do BSC recoñece que na fase de procesamento resulta imprescindíbel reproducir as obras para transformar cada palabra en tokens, unidades mínimas que o modelo utiliza para operar (polo referido custo de almacenamento e de cálculo), e demais vectores comentados.

Neles inclúense as características semánticas e contextuais do contido, quer dicir, a expresión orixinal das obras protexidas polos dereitos de autoría. Polo que tamén aquí sería preciso o permiso dos titulares. Múltiple é a xurisprudencia do TXUE que o confirma: «…a protección do dereito de autoría abrangue as expresións mais non as ideas, procedementos, métodos de operación ou conceptos matemáticos en si…». Véxase, neste sentido, a sentenza de 2 de maio de 2012, SAS Institute, C‑406/10. Cuestión tamén sinalada polo propio BSC na súa presentación.

De igual xeito, o representante do BSC explicou que durante a fase de adestramento dun modelo de IAX tamén é necesario acceder e reproducir contidos protexidos como parte do proceso técnico, mais neste caso en forma dos referidos vectores obtidos no paso anterior. Estes vectores, unha vez introducidos en forma de matrices na rede neuronal, permiten realizar cálculos matemáticos –como a obtención de derivadas– para reducir o erro entre o valor real e o que devolve o modelo.  Por tanto, esta fase implica necesariamente outra reprodución máis, efectuada nun formato diferente da obra nacida directamente do/a autor/a.

O representante do BSC expuxo, ademais, que na fase de xeración do modelo –quer dicir, cando este é utilizado polos usuarios– non se produce acceso nin reprodución directa das obras ou de reproducións das obras orixinais do/a autor/a por parte do modelo de intelixencia artificial xenerativa.

Agora ben, aínda que o modelo non accede directamente ás obras ou ás expresións no devandito de xeración, os resultados que xera (comunmente denominados outputs) poden reproducir parcial ou totalmente contidos protexidos e, tamén, transformalos e comunicalos publicamente. A pesar diso, os desenvolvedores, ao meu xuízo, non implementan conscientemente medidas tecnolóxicas que bloqueen estes resultados que afectan directa e gravemente os dereitos de autoría, a normal explotación das obras e ao traballo realizado por autores/as e editores/as. Ademais, hai que ter en conta que os modelos desenvoltos polo BSC, como MarIA e ALIA, foron postos a disposición de usuarios empresariais con fins comerciais.

Por certo, o representante do BSC tamén advirte na súa intervención sobre a dificultade de garantir a rastrexabilidade do uso dos contidos protexidos nas respostas ou resultados (output) das aplicacións de IAX. Esta cuestión xa foi contemplada polo lexislador: tanto o artigo 17 da Directiva 2014/26/UE como o artigo 167 da Lei de Propiedade Intelectual estabelecen que a responsabilidade de informar sobre os usos das obras é unha obriga que recae no usuario do material protexido, unha cualificación que o propio BSC non cuestiona.

Por tanto, a existencia de dificultades técnicas para garantir a rastrexabilidade, a información sobre a orixe das obras utilizadas para obter eses resultados, non encaixan coa obriga legal de respecto aos dereitos dos titulares nin xustifica a falta de remuneración aos mesmos. Esta obriga é claramente do desenvolvedor e, en ningún caso, pode trasladarse aos titulares, quen deben dar a autorización e recibir a remuneración que lexitimamente lles corresponde.

É importante sinalar a necesidade de estabelecer medidas de seguridade eficientes sobre as bases de datos vectoriais que moitos dos desenvolvedores utilizan para almacenar os embeddings –é dicir, as representacións vectoriais de obras protexidas–, pois non está claro que sexan irreversíbeis e que permita reconstruír as obras, en todo ou en parte, o que incrementa o risco de infraccións contra os dereitos de autoría.

Como resumo, un novo cambio de tecnoloxía para reproducir obras ou a súa expresión orixinal, quer dicir, de codificación binaria a embedding, propiciou un debate que non é real e que foi motivado por intereses que ameazan con desartellar aínda máis os principios fundamentais da nosa sociedade.

Habemos lembrar que, durante os últimos trinta anos desenvolvéronse políticas de rent seeking –segundo as denomina a teoría económica– sobre os dereitos de autores e editoras. Estas políticas, baseadas en conceptos legais como fair use ou límites ou excepcións ao dereito de autoría, potenciaron a medio e longo prazo os seguintes resultados:

– O desenvolvemento de barreiras de entrada que limitan a competencia no mercado de servizos dixitais, apoderando aquelas empresas que puideron desenvolver accións de venda cruzada de produto a prezo 0.
– O desenvolvemento de inestabilidade nas contornas sociais, ao primar nesas empresas unicamente obxectivos económicos, obviando a súa responsabilidade sobre cuestións sociais e medioambientais.
– A debilitación do impacto social dos valores do sector da cultura escrita e, por tanto, a do propio sector e a sociedade.

Por todo isto, e co obxectivo de acadar o pleno respecto aos dereitos de autoras e editores no escenario que presenta a IAX, é fundamental analizar axeitadamente os intereses que non se fan explícitos e que están detrás destes novos desenvolvementos tecnolóxicos. Sen esquecer, claro é, ir alén dunha simple análise de conflito de intereses, que en moitos casos é disfrazado de escasa capacidade orzamentaria a curto prazo.

E acabo cunha pregunta: así como no seu momento, co desenvolvemento da tecnoloxía dixital baseada en código binario, foi necesario un tempo para acordar un modelo de reprodución da obra –como o foi o código ASCII–, non estaremos, talvez, ante unha situación similar? Acaso non veremos, co tempo, a creación dun novo modelo para a reprodución da obra ou da expresión da obra no espazo multidimensional dos embeddings?”

O 96,5% das autoras e autores exixe autorización para o uso das súas obras en intelixencia artificial xenerativa (IAX)

Unha enquisa realizada no colectivo autorial (escritoras/es, tradutoras/es e autoras/es dramáticas/os) no Estado español revela que a inmensa maioría de profesionais considera imprescindíbel contar coa súa autorización antes de que as súas obras sexan utilizadas para adestrar modelos de intelixencia artificial xenerativa (IAX).

O estudo, promovido durante a segunda quincena de novembro, foi coordinado por entidades autorais como a Asociación de Escritoras e Escritores en Lingua Galega (AELG), a Asociación Colegial de Escritores de España (ACE), a Associació de Escriptors en Llengua Catalana (AELC), a Associació Col-legial d’Escriptors de Catalunya (ACEC) e a Asociación de Autores Científico-Técnicos y Académicos (ACTA). A elas sumáronse unha ducia de asociacións de distintas comunidades autónomas, integradas na Conferencia de Asociacións de Escritoras e Escritores, que se relacionan no final desta información.

En total, a consulta, que se levou a cabo durante a segunda quincena de novembro, dirixiuse a case 9.000 escritores/as e tradutores/as do conxunto do Estado, co obxectivo de coñecer a súa postura sobre os posíbeis usos de obras literarias, científicas e outros contidos protexidos por dereitos de autoría para adestrar modelos de IA en galego, castelán e no resto de linguas oficiais.

A sondaxe, na que participaron máis de 800 escritores/as e tradutores/as, amosa un apoio contundente á necesidade dunha autorización previa para o uso de contidos protexidos. Segundo os datos, o 96,5% das persoas enquisadas cre que ningún modelo de IA debería adestrarse con obras literarias, científicas ou de tradución sen o consentimento explícito das/os autoras/es. Ademais, o 49,9% rexeita completamente autorizar este tipo de usos, mentres que o 50,1% estaría disposta/o a consideralo, mais unicamente en troco dunha remuneración acaída.

Entre quen se opón a autorizar o uso das súas obras, máis da metade (52,2%) argumenta que a aplicación de modelos de IAX socava o valor do traballo creativo. Outros motivos inclúen o impacto directo na actividade profesional (13,7%) e a falta de transparencia no uso das obras (12%). Esa falta de transparencia no uso das obras é, de feito, un dos grandes puntos de conflito. Para o 56,2% das/os participantes, garantir claridade en como e para que se usan os seus contidos sería clave para considerar unha autorización. Por contra, só o 18,5% considera que o impacto nas vendas dos seus libros é unha barreira importante.

Cando se presenta a posibilidade de compensar economicamente as/os autoras/es, as cifras propostas por algunhas grandes compañías, como 10 dólares por libro ou 0,001 dólares por palabra, foron rexeitadas de maneira case unánime. Un 65% das persoas enquisadas cre que 10 dólares por libro é unha remuneración inaceptábel, mentres que o 68% opina o mesmo sobre os pagamentos de 0,001 dólares por palabra. En termos xerais, as/os enquisadas/os prefiren sistemas de remuneración baseados no número de palabras (58%) frente aos baseados en libros completos (31,4%).

Desde a AELG e as demais entidades promotoras, deféndese o principio de Autorización, Remuneración e Transparencia (ART), adoptado polo European Writers’ Council, como marco esencial para calquera uso de obras protexidas. As organizacións lembran que as obras literarias e científicas están amparadas pola Lei de Propiedade Intelectual e as normativas europeas, e calquera uso, mesmo no ámbito tecnolóxico, debe respectar plenamente os dereitos das/os creadoras/es.

A enquisa, desenvolta por Qbo. Investigación y Estrategia co apoio de CEDRO, puxo de manifesto a postura do colectivo ante un desafío que combina innovación tecnolóxica coa necesidade de protexer o valor do traballo literario e de tradución.

Para coñecer os detalles completos da enquisa, pode consultarse o informe completo, gráficos incluídos, aquí.

Entidades que participaron no desenvolvemento da enquisa xunto ás promotoras: Asociación de Escritores de Euskadi – Euskadiko Idazleen Elkartea (AEE-EIE), Asociación Valenciana de Escritores y Críticos Literarios (CLAVE), Asociación de Escritores y Escritoras de Extremadura (AEEX), Asociación Aragonesa de Escritores (AAE),  Asociación de Escritores de Castilla La Mancha (AECLM), Asociación Navarra de Escritores/as – Nafar Idazleen Elkartea (ANE-NIE), Sociedad Cántabra de Escritores (SCE), Nueva Asociación Canaria de Escritores (NACE), Asociación de Escritores y Escritoras de Asturias (AEA), Asociación Riojana de Escritores (ARE).

Declaración da Conferencia de Asociacións de Escritoras e Escritores sobre a Intelixencia Artificial Xenerativa (IAX)

“A plataforma de asociacións de autoras/es, constituída a inicios de ano e que representa case 10.000 autoras/es en asturiano, éuscaro, catalán, castelán e galego, entre os que se atopa a Asociación de Escritoras e Escritores en Lingua Galega, aprobou unha declaración pública sobre a Intelixencia Artificial Xenerativa (IAX). O texto esixe que os usos dos libros e outras publicacións con dereitos de autoría e protexidas pola Lei de Propiedade Intelectual, tanto se son para probas como para a explotación comercial da IAX, se rexan polos principios de autorización, remuneración e transparencia.

A Conferencia de Asociacións de Escritoras e Escritores, en defensa dos dereitos de autoría, da remuneración polo uso das nosas obras e da transparencia perante a implantación da Intelixencia Artificial Xenerativa (IAX) por parte de empresas e Gobernos.
A Conferencia de Asociacións de Escritoras e Escritores, que integran 15 organizacións autorais e case 10.000 creadoras/es literarias/os (escritoras/es e tradutoras/es), quere trasladar á opinión pública, aos partidos políticos e aos gobernos locais, autonómicos e estatal, a profunda preocupación do colectivo pola alarmante falta de recoñecemento do valor esencial (moral e xurídico) dos dereitos de autoría e dunha remuneración acaída pola utilización das nosas obras nos máis diversos ámbitos da sociedade, de xeito moi especial nun mundo dixital altamente globalizado e cunha moi precaria lexislación na materia.
A experiencia histórica demóstranos que a dixitalización incontrolada baseada no uso non autorizado nin comunicado das nosas obras causou un grave prexuízo á creación e á innovación, acentuando deste xeito a desvantaxe competitiva que padecemos con respecto ás nosas e nosos colegas da maioría dos países europeos.
Hai que salientar que as obras de escritoras/es e tradutoras/es non son simples datos susceptíbeis de se converteren en algoritmos, son a base da nosa democracia, da nosa cultura, do noso coñecemento e ciencia, e deben ser tratados, valorados e remunerados como tales. Un/ha escritor/a ou tradutor/a inviste anos estudando, analizando e consultando centos de fontes para poder escribir ou traducir unha obra, un labor que hoxe en día non é recoñecido nin é remunerado.
A modo de exemplo, o último informe da Organización Mundial da Propiedade Intelectual (OMPI) sobre a remuneración polo préstamo dos nosos libros nas bibliotecas destaca que o Estado español é, xunto con Xeorxia, onde menos se remuneran escritoras/es e tradutoras/es por este uso das nosas obras.
A esta situación temos que engadir unha realidade omnipresente: a implantación da Intelixencia Artificial Xenerativa (IAX) e a necesidade, por parte das grandes plataformas e desenvolvedores, de usar unha ilimitada cantidade de obras, como os libros, os artigos publicados en diferentes medios e, en xeral, todos os materiais derivados da actividade profesional das/os creadoras/es literarias/os, foren escritoras/es, tradutoras/es ou dramaturgas/os.
O Goberno de España, tal e como declarou no seu momento o seu presidente, traballa nun modelo estatal de linguaxe de Intelixencia Artificial testado nas linguas oficiais do Estado. É unha iniciativa de carácter público que utilizará obras literarias e xornalísticas e, por tanto, estará suxeita ás obrigas derivadas da Lei de Propiedade Intelectual e de toda a lexislación relacionada de ámbito europeo, así como doutros marcos legais aplicábeis.
Nos últimos anos, o desenvolvemento do IAX está a sentar as bases dunha nova forma de explotación das nosas creacións que afecta ao contrato social do conxunto da cidadanía, utilizando métodos e prácticas non suxeitas a ningún principio salvo o beneficio económico, nalgúns casos próximas ao saqueo masivo de contidos suxeitos á lexislación antes mencionada, cuxo uso e efectos no futuro non só ignoramos as/os autoras/es, senón todos nós.
Por iso, exiximos que todos os sectores asuman a necesidade imprescindíbel dun firme compromiso de salvagardar os nosos intereses como creadoras/es e respectar o produto do noso traballo, base fundamental do tecido cultural e da industria que o sustenta e da Lei de IA da Unión Europea, primeira normativa supraestatal que, aínda que xeito insuficiente por agora, comezou a contemplalo.
Esta esixencia non só vai dirixida ao sector privado e aos grandes operadores e desenvolvedores que actúan no espazo global de internet, mais tamén, e dun xeito moi especial, ao sector público, para asegurar que o uso de obras literarias e xornalísticas, tanto para as probas da IAX como para a explotación posterior, se basee nas recomendacións feitas públicas polo Consello Europeo de Escritoras/es (EWC) o pasado 27 de xullo, entre as que destacamos as esenciais: AUTORIZACIÓN polas/os autoras/es destes usos, REMUNERACIÓN xusta e non simbólica e TRANSPARENCIA do proceso.
Unha sociedade crítica e democrática non avala a expropiación dos dereitos do colectivo a favor de grandes multinacionais que non tributan no Estado, nin o estabelecemento de sistemas opacos que non informan sobre os usos das obras ás persoas titulares e impiden calquera tipo de negociación de boa fe. E, evidentemente, recoñece o valor das súas creadoras e creadores, proporciónalles os recursos necesarios para se desenvolveren e protexe os seus dereitos. É por iso que solicitamos ás empresas, institucións e ao Goberno que:

1. Respecten, protexan e valoren os dereitos de autoría de escritoras/es e tradutoras/es como resultado do heroico traballo de escribir hoxe en día.
2. Recoñezan dunha vez unha remuneración acaída polos nosos dereitos de acordo co seu valor e o esforzo que investimos en xeralos.
3. Teñan en consideración as dez recomendacións que, en relación cos usos das obras literarias pola IAX, o Consello Europeo de Escritoras/es aprobou e trasladou ao Parlamento Europeo.

Aprobado o 30 de setembro de 2024.

Quen fai parte da Conferencia?
Asociación Aragonesa de Escritores (AAE), Asociación Colegial de Escritores de España (ACE), Associació Col·legial d’Escriptors de Catalunya (ACEC), Asociación de Escritores y Escritoras de Asturias (AEA), Asociación de Escritores de Castilla La Mancha (AECLM), Asociación de Escritores de Euskadi – Euskadiko Idazleen Elkartea (AEE-EIE), Asociación de Escritores y Escritoras de Extremadura (AEEX), Associació d’Escriptors en Llengua Catalana (AELC), Asociación de Escritoras e Escritores en Lingua Galega (AELG), Asociación Navarra de Escritores/as – Nafar Idazleen Elkartea (ANE-NIE), Asociación Riojana de Escritores (ARE), Asociación Valenciana de Escritores y Críticos Literarios (CLAVE), Euskal Idazleen Elkartea (EIE), Nueva Asociación Canaria de Escritores (NACE) e Sociedad Cántabra de Escritores (SCE).”