miércoles, 16 de agosto de 2023

¿Debemos seguir enseñando gratis a ChatGPT?

Roberto Corella 10:00 CentralQ, chatbot, chatGPT

El otro día leí un artículo sobre como se entrena el modelo de chatGPT y otros. Al final, se alimenta de todo el contenido libre que hay en internet, usando un bot llamado GPTbot. Según la propia web de chatGPT, se utiliza para rastrear los sitios.

Os dejo la reflexión de Gergely Orosz

https://www.linkedin.com/posts/duilio-tacconi-4042999a_i-updated-my-blogs-robotstxt-to-opt-out-activity-7096826964157591552-4PQj?utm_source=share&utm_medium=member_desktop

Otras herramientas

Alguien podría decir que es igual un buscador como Google o Bing pero, la diferencia es que estos buscadores, te llevan a tu web, promocionándola. En cambio chatGPT te da la respuesta, sin indicar ninguna referencia al sitio web o documento desde donde ha obtenido la información, con lo que el único beneficiado es OpenAI.

Como bien indica Gergely Orosz en el post, si chatGPT fuese una entidad sin ánimo de lucro, sería un acto altruista por parte de los autores, pero no. OpenAI es una empresa que cobra a sus usuarios y por tanto, con un fin lucrativo.

Siguiendo con la lógica, los usuarios preguntarán más a chatGPT para que les de una respuesta (incluso resumida, ya que cada día queremos las cosas rápido), sin importar de donde proviene lo que hará que cada vez sea menos interesante visitar la web original del autor, cada vez más desconocido.

Si esto ocurre, para el autor cada vez será menos atractivo publicar artículos y finalmente, dejará de hacerlo. Como consecuencia, el entrenamiento de chatGPT cada vez tendrá artículos más desactualizados y por consiguiente, ¿cada vez será peor?

Al final, el objetivo de internet de democratizar los conocimientos, se irá diluyendo. Los conocimientos se mantendrán aislados y por tanto, a todos nos costará más encontrar información.

Acceso a GPTBot

Según la web del fabricante, se puede bloquear el acceso al bot, con las instrucciones siguientes dentro de robots.txt:

User-agent: GPTBot

Disallow: /

Ahora bien, la pregunta sería ¿queremos impedir que chatGPT visite nuestra web? ¿Cuantos rastreadores más se están utilizando para entrenar modelos de IA?

Web con la información de GPTBot: https://platform.openai.com/docs/gptbot