Alguna vez se han preguntado ¿Cuál es la estructura detrás de lo que conocemos hoy en día como “Inteligencia Artificial”? ¿Cómo funcionan los modelos de lenguaje como Chat GPT, Gemini, Cloud o Deep Seek? ¿Qué sucede cada vez que recibe un prompt? ¿Bajo qué protocolos de seguridad operan? ¿Qué aplicaciones existen a nuestro alrededor? ¿Cómo obtener el mayor aprovechamiento? ¿Qué es AI Safety y por qué es tan importante?[1]
Una IA no es solo una aplicación responde a preguntas de los usuarios, ni se trata únicamente de un cúmulo de información recopilada históricamente. Sino, de toda una estructura que opera con base en protocolos de seguridad y estructuras minuciosamente creadas con el objetivo de convertir palabras a un lenguaje matemático (espacio vectorial) que el modelo pueda computar.
Como estudiantes de Ingeniería en datos en Mérida, Yucatán, México, a causa de nuestras prácticas universitarias, decidimos trabajar con el material de ARENA 3.0.
Sin embargo, el nacimiento de este post resulta de algunas preguntas incómodas como grupo: ¿Cómo podemos adentrarnos a este mundo siendo aún estudiantes o principiantes? ¿Por dónde podemos empezar? ¿Qué conocimientos previos sientan las bases para mejorar la comprensión? [2]
Todas estás preguntas solo fueron el inicio de todo lo que se nos venía, y así como muchos, nosotros nos sentimos abrumados al comenzar este curso y ver tantos conceptos que desconocíamos o ignorábamos
Para resolver estas interrogantes, nos centramos específicamente en el capitulo “1.1 Transformers from scratch” cuya intención es comprender cómo funciona internamente gpt2 desde cero utilizando pytorch y enlazar conocimiento técnico con temas sobre seguridad y alignment de modelos de IA.
La IA trasciende todo lo que creíamos posible, con una adopción sorprendente y un gran potencial de aprovechamiento.
Por dicho motivo nuestro enfoque va dirigido a todos aquellos interesados en adentrarse a este mundo pero que aún no sepan por dónde comenzar.
Pero la pregunta del millón sería: ¿Cómo podemos opinar sobre IA sin comprender la base de su funcionamiento estructural (transformers)?
AI Safety es un campo enfocado en buscar la seguridad de los sistemas de Inteligencia Artificial, y al mismo tiempo que estos estén alineados a valores humanos actuando de manera beneficiosa y evitando causar daños accidentales o imprevistos.
Al mismo tiempo la AI Safety se compone por 4 aspectos clave, los cuales son muy indispensables cuando uno se adentra a la estructura como tal, los pilares son:
- Alignment: Se refiere a que los objetivos de la IA coincida con los valores y propósitos humanos.
- Robustness: Hace referencia a que la IA funcione correctamente incluso cuando se presentan situaciones nuevas o extrañas.
- Interpretability: Es aquel proceso en el cual el humano analiza la causa de una decisión tomada por la IA.
- Monitoring & Control: Se refiere a los mecanismos de seguridad que supervisan el comportamiento de la IA en tiempo real para intervenir si es necesario.
Al iniciar en el tema de la IA hay tener presente que pueden haber ciertas confusiones entre conceptos, y es por eso que hay que dejar clara la diferencia entre el AI Safety y la AI Ethics, la primera se enfoca más en evitar cualquier tipo de incidente que pueda resultar catastrófico, mientras que la segunda su enfoque es establecer principios, valores y normas morales para el diseño, desarrollo y despliegue de la IA.
Ahora bien, empezando a responder todas las preguntas, ¿Qué sucede cuando nosotros le damos un prompt a la IA? Para responder a esta primera pregunta hay que tener en cuenta que una IA actualmente no piensa por sí sola, si no que procesa cada palabra que le das. Esto es muy importante, pues aquí se comienza a desglosar el cómo funciona su estructura y arquitectura.
Tokenización: Es el proceso de descomposición del texto, el cual asigna un valor matemático (token) a cada subunidad (no necesariamente en palabras completas o letras individuales), y estos van acompañados de otro valor que funciona como identificador, esto ayuda a obtener predicciones y respuestas con mayor acertación. Pues debemos recordar que la IA no procesa palabras, sino números exclusivamente, es por esto que las palabras se convierten en tokens.
ejemplo: “tokenizar” —> “token-izar”
- Transformer: Todos los modelos de IA tienen esta arquitectura en común. La arquitectura Transformer se encarga de procesar en paralelo un input proporcionado y predecir cuál podría ser el siguiente token, es decir, el Transformer procesa todos los tokens del texto al mismo tiempo, de tal forma que nada se pierda y por consecuencia se obtenga una respuesta clara, precisa y certera.
- Self-Attention: Una parte muy importante dentro del Transformer es el mecanismo Self-Attention, el cual se encarga de pesar la importancia de diversas subunidades de la secuencia del input al procesar un elemento del mismo. Esto nos ayuda a mejorar el contexto del input y permite que el modelo procese cada token relacionando cada subunidad con el conjunto anterior o posterior, entendiendo así el contexto global en lugar de solo el local. (no confundir con causal attention, la diferencia entre estas dos radica en la restricción del acceso a la memoria, mientras que el self attention puede “ver” cualquier token, el causal attention solo puede acceder a los anteriores. Todo causal-attention es una forma de self-attention pero no todo self-attention es causal-attention)
- Network: Las redes neuronales son modelos de aprendizaje automático basados en el cerebro humano, y que son utilizados para reconocer patrones complejos. Al mismo tiempo tiene componentes muy importantes cuando de IA se trata, algunos de sus componentes y funcionamientos son:
- Layers: Existe dentro del proceso diferentes tipos de Layers, claro que cada una con su propio funcionamiento que es indispensable para el proceso. Las principales layers dentro de la arquitectura de la IA son: Input Layer, Hidden Layer, Output Layer. Pero en general estos se encargan de recibir, analizar la información y entregar la predicción final, respectivamente.
- Neurons: Las neuronas tienen como funcionamiento el procesar la información que se recibe de la capa anterior, la procesa y pondera para resaltar patrones.
- Weights: Los pesos son aquellos parámetros encargados de determinar la importancia de la conexión de dos neuronas, en otras palabras, analiza qué tan importante es la información dada.
- Output: Para la salida del resultado es importante tener en cuenta que la IA no conoce la respuesta como un ser humano, pues no “piensa” por sí sola, sino que calcula la respuesta basándose en probabilidades y predicciones matemáticas de la información que se le ha dado, y a partir de ella llega a una connclusión.
- Safety Layer: Esta es la última etapa de todo el proceso. Antes que el output de una respuesta final, esta misma pasa por esta última capa la cual se encarga de analizar dicha respuesta y verificar si cumple con los protocolos de seguridad asignados o no, actuando como un mecanismo de control dentro del modelo matemático.
Es posible que a este punto ya estén abrumados por la cantidad de información descrita, justo nosotros como estudiantes nos pasó en un principio, sobretodo cuando a simple vista no pareciese que fuese tanto tomando en cuenta que solo es un resumen de lo que compone la arquitectura y funcionamiento de la IA y IA Safety. No obstante, es de vital importancia considerar todos estos pequeños conceptos y explicaciones, pues consideramos que son los fundamentos para poder comprender el campo y tener un estudio ameno y enriquecedor y evitar la bruma o estrés por la cantidad de información que se comienza a desplegar.
Después de haber dejado en claro todo lo que conlleva el proceso que tiene una IA y sus componentes, podemos responder a la pregunta “¿Qué aplicaciones existen a nuestro alrededor?”.
Esta pregunta fue muy interesante, ya que a pesar de que probablemente eran ejemplos a simple vista, para nosotros eran cuestionamientos a los que nunca les habíamos prestado la debida atención, de los cuales comenzamos a tener una visión más clara mientras estudiabamos.
Algunas aplicaciones de IA, más allá de Chat GPT, Gemini, etc; son los algoritmos en diferentes plataformas como Tik Tok. El modelo de esta plataforma calcula qué video nos podría gustar basado en videos previos vistos, likeados o con mayor visualización por parte del usuario. Otro ejemplo es el buscador de Google para autocompletar una posible búsqueda basado en otras búsquedas previas del usuario o el teclado predictivo de un teléfono. Y un último ejemplo basado en nuestra ciudad, el transporte público contiene un sistema de IA el cual está programado y entrenado para anunciar las paradas próximas alrededor de la ciudad dependiendo la ruta que tomes, y al mismo tiempo está ligado a un sistema de GPS para mayor precisión.
Para este punto comenzamos a discernir elementos pequeños de la vida cotidiana que pasan por desapercibidos pero pueden estar vinculadas a una IA.
Sin embargo, suponiendo que ya tenemos el conocimiento básico con los conceptos explicados anteriormente, ahora podemos responder a la pregunta “¿Cómo obtener el mayor aprovechamiento? ”. Una forma para obtener buenos resultados al usar IA es mejorando los prompts que le damos, pues, aprovechando que ya entendemos cómo funciona el Self-Attention, podremos darle más detalles para mejorar el contexto, logrando así obtener respuestas más precisas, correctas y con una probabilidad baja de alucinaciones. Pero no debemos olvidar que la IA calcula probabilidades por lo que puede cometer errores, por ello es importante en todo momento leer y verificar las respuestas dadas sin importar que tan bueno sea tu prompt.
Como estudiantes de Ingeniería en Datos, nuestra mayor duda fue cómo y en dónde iniciar. Por ello, podemos decirles a todos aquellos interesados en incursionar a este nuevo campo que el mejor consejo es no obligarse a saber cada fórmula matemática desde el inicio, puesto que eso solo generará un cuello de botella de entrada de información. Nosotros entendimos que lo mejor es entender primero la teoría y lógica de los datos, los procesos y el AI Safety, así como conceptos clave que aligerarán mucho la carga sin quitarle importancia a su propósito.
Al final de todo este camino recorrido podemos decir que AI Safety es de suma importancia porque es el puente y la seguridad que hay entre tecnología que sigue avanzando y tecnología humana. Sin los elementos clave de la AI Safety alineación, robustez e interpretabilidad que al mismo tiempo forman parte de la estructura de la IA, quizás tendríamos una Inteligencia Artificial muy capaz de “resolver” cualquier problema pero sin un límite con el cual medir lo correcto e incorrecto, convirtiéndose en un potencial peligro. Como principiantes para principiantes, nuestro mayor consejo es “No le tengas miedo a la IA, sino busca la compresión de su estructura.” El futuro de los datos no solo es crearlos, es cuidarlos y entenderlos.
- ^
Este post fue escrito por miembros del grupo AI Safety UPY
- ^
Muchas gracias a Rous Polanco y Saralet Chan por la redacción!
