Cómo Funciona Realmente ChatGPT (y Por Qué Ha Sido Tan Revolucionario)

Profundizamos en el funcionamiento interno del popular chatbot de IA, ChatGPT. Si quieres saber cómo funciona su magia generativa de IA, sigue leyendo.

ZDNET prueba e investiga productos de forma independiente para ofrecerte nuestras mejores recomendaciones y consejos. Al comprar a través de nuestros enlaces, podemos ganar una comisión

En aquellos tiempos (y con “en aquellos tiempos”, me refiero a finales de 2022, antes de la irrupción de los chatbots de IA), herramientas como Google y Wolfram Alpha interactuaban con los usuarios mediante un campo de entrada de texto de una sola línea y proporcionaban resultados de texto. Google devolvía los resultados de búsqueda: una lista de páginas web y artículos que (con suerte) proporcionaban información relacionada con las consultas de búsqueda. Wolfram Alpha generalmente proporcionaba respuestas matemáticas y de análisis de datos.

ChatGPT , en cambio, proporciona una respuesta basada en el contexto y la intención de la pregunta del usuario. Google, por supuesto, ha cambiado su modo de respuesta. Ahora proporciona respuestas basadas en IA antes de los resultados de búsqueda, y es probable que siga haciéndolo. Wolfram Alpha, por otro lado, utiliza IA en segundo plano para facilitar sus cálculos, pero no proporciona respuestas basadas en IA.

También: Cómo usar ChatGPT: una guía para principiantes sobre el chatbot de IA más popular

Fundamentalmente, la potencia de búsqueda de Google reside en su capacidad para realizar búsquedas masivas en bases de datos y proporcionar una serie de coincidencias. La potencia de Wolfram Alpha reside en su capacidad para analizar preguntas relacionadas con los datos y realizar cálculos.

La potencia de ChatGPT (y la de casi cualquier otro chatbot de IA, como Claude , Copilot , Perplexity y Google Gemini ) reside en su capacidad de analizar consultas y generar respuestas y resultados completos basados en la mayor parte de la información textual accesible digitalmente del mundo. Algunos chatbots tienen restricciones según cuándo dejaron de escanear información, pero la mayoría ahora puede acceder a internet en tiempo real para incorporar datos actualizados en sus respuestas.

En este artículo, veremos cómo ChatGPT puede generar respuestas completas mediante una tecnología llamada inteligencia artificial generativa. Comenzaremos analizando las fases principales del funcionamiento de ChatGPT y luego abordaremos algunos componentes clave de la arquitectura de IA que lo hacen funcionar.

Las dos fases principales del funcionamiento de ChatGPT

Usemos de nuevo la Búsqueda de Google (a diferencia de Google Gemini AI) como analogía. Cuando le pides a la Búsqueda de Google que busque algo, probablemente sepas que, en el momento de la solicitud, no busca respuestas en toda la web. En cambio, Google busca en su base de datos las páginas que coinciden con esa solicitud. La Búsqueda de Google tiene dos fases principales: la fase de rastreo y recopilación de datos, y la fase de interacción/búsqueda del usuario.

Además: Los mejores chatbots de IA: ChatGPT y otras alternativas divertidas para probar

En términos generales, ChatGPT y los demás chatbots de IA funcionan de la misma manera. La fase de recopilación de datos se denomina preentrenamiento, mientras que la fase de respuesta del usuario se conoce como inferencia. La magia detrás de la IA generativa y la razón de su auge radica en que el preentrenamiento ha demostrado ser enormemente escalable. Esta escalabilidad ha sido posible gracias a las recientes innovaciones en tecnología de hardware asequible y la computación en la nube.

Cómo funciona el preentrenamiento de la IA

En general (ya que entrar en detalles requeriría mucho tiempo), las IA se preentrenan utilizando dos enfoques principales: supervisado y no supervisado. La mayoría de los proyectos de IA, hasta la generación actual de sistemas de IA generativa como ChatGPT, utilizaban el enfoque supervisado.

También: Cómo hacer que ChatGPT proporcione fuentes y citas

El preentrenamiento supervisado es un proceso en el que se entrena un modelo en un conjunto de datos etiquetado, donde cada entrada está asociada con una salida correspondiente.

Por ejemplo, una IA podría entrenarse con un conjunto de datos de conversaciones de atención al cliente, donde las preguntas y quejas del usuario se etiquetan con las respuestas correspondientes del representante. Para entrenar la IA, se proporcionarían preguntas como “¿Cómo puedo restablecer mi contraseña?” como entrada del usuario, y respuestas como “Puede restablecer su contraseña visitando la página de configuración de la cuenta en nuestro sitio web y siguiendo las instrucciones”, como salida.

En un enfoque de entrenamiento supervisado, el modelo general se entrena para aprender una función de mapeo que permite mapear las entradas con las salidas con precisión. Este proceso se utiliza a menudo en tareas de aprendizaje supervisado, como la clasificación, la regresión y el etiquetado de secuencias.

Como se puede imaginar, existen límites a la escalabilidad de este proceso. Los capacitadores humanos tendrían que anticipar considerablemente todas las entradas y salidas. La capacitación podría ser muy larga y tener conocimientos limitados en la materia.

Además: Mis dos funciones favoritas de ChatGPT Plus y las cosas increíbles que puedo hacer con ellas

Pero como hemos descubierto, ChatGPT tiene muy pocos límites en cuanto a su experiencia en la materia. Puedes pedirle que escriba un currículum para el personaje del Jefe Miles O’Brien de Star Trek, que explique física cuántica, que escriba un fragmento de código , que produzca una obra de ficción corta y que compare los estilos de gobierno de expresidentes de Estados Unidos.

Sería imposible anticipar todas las preguntas que se formularían, por lo que ChatGPT no podría haberse entrenado con un modelo supervisado. En cambio, ChatGPT utiliza un preentrenamiento no supervisado, y esto es lo que lo ha revolucionado.

El preentrenamiento no supervisado es el proceso mediante el cual un modelo se entrena con datos sin una salida específica asociada a cada entrada. En su lugar, el modelo se entrena para aprender la estructura y los patrones subyacentes de los datos de entrada sin ninguna tarea en mente. Este proceso se utiliza a menudo en tareas de aprendizaje no supervisado, como la agrupación en clústeres, la detección de anomalías y la reducción de dimensionalidad. En el modelado de lenguajes, el preentrenamiento no supervisado permite entrenar a un modelo para que comprenda la sintaxis y la semántica del lenguaje natural, de modo que pueda generar texto coherente y significativo en un contexto conversacional.

Además: ¿ChatGPT Plus realmente vale 20 dólares cuando la versión gratuita ofrece tantas funciones premium?

Es aquí donde el conocimiento aparentemente ilimitado de ChatGPT se hace posible. Dado que los desarrolladores no necesitan conocer las salidas que provienen de las entradas, solo tienen que volcar cada vez más información en el mecanismo de preentrenamiento de ChatGPT, denominado modelado de lenguaje basado en transformadores.

Además: Cómo las empresas de IA recopilan en secreto datos de entrenamiento de la web (y por qué es importante)

Es también aquí, al volcar datos en la IA, donde los creadores de chatbots modernos han empezado a tener problemas. Las empresas de IA han estado entrenando sus IA con información protegida por derechos de autor de otras empresas sin permiso. De hecho, algunas editoriales, como Ziff Davis (la empresa matriz de ZDNET) y el New York Times, están demandando a OpenAI por infracción de derechos de autor. Probablemente haya visto el descargo de responsabilidad en ZDNET que dice: “Divulgación: Ziff Davis, la empresa matriz de ZDNET, presentó una demanda en abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA”.

Este enfoque de entrenamiento universal aumenta la capacidad de los chatbots. Sin embargo, el efecto secundario es que les quitan tráfico a las empresas y autores del contenido original. Es de esperar que este aspecto de la IA generativa se dispute en los tribunales durante años.

Pero este artículo trata sobre tecnología, así que pasemos a una tecnología clave que hace posible la IA generativa…

Arquitectura del transformador

La arquitectura de transformadores es un tipo de red neuronal que se utiliza para procesar datos en lenguaje natural. Una red neuronal simula el funcionamiento del cerebro humano al procesar información a través de capas de nodos interconectados. Podemos imaginar una red neuronal como un equipo de hockey. Cada jugador tiene un rol, pero se pasan el disco entre jugadores con posiciones específicas, trabajando juntos para marcar el gol.

La arquitectura del transformador procesa secuencias de palabras mediante la autoatención para sopesar la importancia de las diferentes palabras de una secuencia al realizar predicciones. La autoatención es similar a cómo un lector podría repasar una oración o un párrafo anterior buscando el contexto necesario para comprender una nueva palabra en un libro. El transformador examina todas las palabras de una secuencia para comprender el contexto y las relaciones entre ellas.

También: Cómo usé ChatGPT para reparar rápidamente un complemento crítico, sin tocar una línea de código

El transformador se compone de varias capas , cada una con múltiples subcapas. Las dos subcapas principales son la capa de autoatención y la capa de avance. La capa de autoatención calcula la importancia de cada palabra en la secuencia, mientras que la capa de avance aplica transformaciones no lineales a los datos de entrada. Estas capas ayudan al transformador a aprender y comprender las relaciones entre las palabras de una secuencia.

Durante el entrenamiento, el transformador recibe datos de entrada, como una oración, y se le pide que realice una predicción basada en ellos. El modelo se actualiza según la precisión con la que su predicción coincide con el resultado real. Mediante este proceso, el transformador aprende a comprender el contexto y las relaciones entre las palabras de una secuencia, lo que lo convierte en una herramienta potente para tareas de procesamiento del lenguaje natural, como la traducción y la generación de textos.

Es importante recordar que existen problemas en torno a la posibilidad de que estos modelos generen contenido dañino o sesgado, ya que pueden aprender patrones y sesgos presentes en los datos de entrenamiento. Las empresas que implementan estos modelos intentan proporcionar “barreras de seguridad”, pero estas mismas barreras pueden causar problemas. Estas preocupaciones se deben a que cada persona tiene perspectivas diferentes. Un intento de prevenir el sesgo basado en una escuela de pensamiento puede ser considerado sesgo por otra. Esta situación dificulta el diseño de un chatbot universal debido a la complejidad de la sociedad.

Además: 7 consejos avanzados para escribir indicaciones en ChatGPT que debes conocer

Analicemos primero los datos que se introducen en ChatGPT y luego la fase de interacción del usuario de ChatGPT y el lenguaje natural.

Conjuntos de datos de entrenamiento de ChatGPT

El conjunto de datos utilizado para entrenar ChatGPT es enorme. ChatGPT se basa en un modelo de lenguaje extenso (LLM). Analicemos brevemente la diferencia entre chatbot y LLM. Un chatbot es, en esencia, una aplicación con una interfaz de usuario. Recibe preguntas o indicaciones, las envía a un LLM y, a continuación, recupera las respuestas, las formatea y las presenta al usuario. En esencia, un chatbot es una interfaz de usuario. Es el LLM el que proporciona la capacidad de IA.

Los LLM vienen en una amplia variedad de nombres y versiones. Actualmente, el principal LLM de ChatGPT es GPT-4o. Cuando ChatGPT irrumpió en escena a principios de 2023, el LLM era GPT-3. Algunos LLM, como el o3 de OpenAI, dedican más tiempo al razonamiento, mientras que otros interactúan mejor con los estilos de comunicación humanos. Con el tiempo, los LLM mejoran y, como resultado, los chatbots también adquieren más capacidades.

GPT es un acrónimo que cubre tres áreas: es generativo (G), lo que significa que genera resultados; está pre-entrenado (P), lo que significa que se basa en todos los datos que ingiere; y utiliza la arquitectura del transformador (T), que pondera las entradas de texto para comprender el contexto.

GPT-3 se entrenó con un conjunto de datos llamado WebText2 , una biblioteca de más de 45 terabytes de datos de texto. Si bien se puede comprar un disco duro de 16 terabytes por menos de $300 , un corpus de 45 terabytes puede no parecer tan grande. Sin embargo, el texto ocupa mucho menos espacio de almacenamiento que las imágenes o los videos.

También: Cómo suscribirse a ChatGPT Plus (y 7 razones por las que debería hacerlo)

Esta enorme cantidad de datos permitió a ChatGPT aprender patrones y relaciones entre palabras y frases en lenguaje natural a una escala sin precedentes, lo que es una de las razones por las que es tan eficaz para generar respuestas coherentes y contextualmente relevantes a las consultas de los usuarios.

Si bien ChatGPT se basa en la arquitectura GPT, se ha optimizado para múltiples conjuntos de datos y casos de uso conversacionales. Este proceso permite ofrecer una experiencia más personalizada y atractiva a los usuarios que interactúan con la tecnología a través de una interfaz de chat.

Por ejemplo, OpenAI (desarrolladores de ChatGPT) ha publicado un conjunto de datos llamado Persona-Chat , diseñado específicamente para entrenar modelos de IA conversacional como ChatGPT. Este conjunto de datos consta de más de 160.000 diálogos entre dos participantes humanos, a cada uno de los cuales se le asigna un personaje único que describe sus antecedentes, intereses y personalidad. Este proceso permite a ChatGPT aprender a generar respuestas personalizadas según el contexto específico de la conversación.

Corpus de Diálogos Cinematográficos de Cornell : Un conjunto de datos que contiene conversaciones entre personajes de guiones cinematográficos. Incluye más de 200.000 intercambios conversacionales entre más de 10.000 parejas de personajes cinematográficos, abarcando diversos temas y géneros.
Corpus de Diálogos de Ubuntu : Una colección de diálogos multi-turno entre usuarios que buscan soporte técnico y el equipo de soporte de la comunidad de Ubuntu. Contiene más de un millón de diálogos, lo que lo convierte en uno de los mayores conjuntos de datos disponibles públicamente para la investigación sobre sistemas de diálogo.
DailyDialog : Una colección de diálogos entre personas sobre diversos temas, desde conversaciones cotidianas hasta debates sobre temas sociales. Cada diálogo del conjunto de datos consta de varios turnos y está etiquetado con información sobre emociones, sentimientos y temas.

Además de estos conjuntos de datos, ChatGPT se entrenó con una gran cantidad de datos no estructurados disponibles en internet, incluyendo sitios web, libros y otras fuentes de texto. Esto le permitió a ChatGPT comprender la estructura y los patrones del lenguaje en un sentido más general, lo cual pudo ajustarse para aplicaciones específicas como la gestión de diálogos o el análisis de sentimientos.

ChatGPT es un modelo distinto entrenado utilizando un enfoque similar a la serie GPT pero con algunas diferencias en la arquitectura y los datos de entrenamiento.

Además: Los mejores generadores de imágenes de IA de 2025: Gemini, ChatGPT, Midjourney y más

En general, los datos de entrenamiento utilizados para ajustar ChatGPT suelen ser conversacionales y están seleccionados específicamente para incluir diálogos entre humanos, lo que permite que ChatGPT aprenda a generar respuestas naturales y atractivas en un formato conversacional.

Así es como se puede pensar en el entrenamiento no supervisado de ChatGPT: se le alimentó con una gran cantidad de datos y se le dejó a su suerte para que encontrara patrones y los interpretara. Este mecanismo permitió que los nuevos sistemas de IA generativa escalaran con gran rapidez.

Si bien el proceso de preentrenamiento realiza la mayor parte del trabajo para la IA generativa de ChatGPT, la tecnología también debe comprender las preguntas y construir respuestas a partir de los datos. Esta parte se realiza en la fase de inferencia, que consiste en el procesamiento del lenguaje natural y la gestión del diálogo.