UPNA Logo ARIN Logo

Generación de Imágenes y Vídeos con IA

Taller Semana de la IA 2025

Iris Domínguez Catena

iris.dominguez@unavarra.es

1

¿Qué vamos a ver hoy?

2

¿Por qué este taller?

La generación de imágenes es cada vez más simple, gracias a los modelos multimodales.

Vamos a ver algunos extras:
  • ¿Cómo conseguir exactamente lo que quieres?
  • Trucos para mejores resultados
  • Implicaciones éticas y legales
  • Generación de vídeo

Objetivo: Que salgas creando contenido visual de calidad, sabiendo qué estás haciendo.

3

¿Qué es la IA Generativa?

La Inteligencia Artificial intenta imitar capacidades humanas. Hay varios tipos:

La IA generativa ha explotado gracias a:

Evolución de la IA
4

¿Cómo aprende la IA a crear imágenes?

Proceso de entrenamiento:

Ejemplo: Imagenet, el conjunto de datos con el que empezó todo.

5

Stable Diffusion: Cómo Aprende

Stable Diffusion es un modelo popular para crear imágenes. Durante el entrenamiento, el modelo aprende solo a eliminar ruido de imágenes. Eventualmente, parte de imágenes de estática pura para generar contenido plausible.

La magia reside en los controles: texto, otras imágenes...

Paso 0: Imagen clara Paso 1 Paso 2 Paso 3 Paso 4 Paso 5: Ruido puro
6

Stable Diffusion: Cómo Crea

Cuando le pedimos a Stable Diffusion que cree una imagen, aplica el proceso aprendido en orden inverso: empieza con ruido aleatorio y lo va transformando progresivamente hasta obtener una imagen coherente.

  1. Lee nuestra descripción de la imagen (el "prompt")
  2. Empieza con una imagen de ruido aleatorio
  3. Poco a poco, va quitando el ruido guiado por el prompt
  4. Refina la imagen hasta que se parece a lo que pedimos
Paso 0: Ruido Paso 1 Paso 2 Paso 3 Paso 4 Paso 5: Resultado

El prompt es crucial: cuanto mejor lo escribamos, mejor será la imagen.

7

Modelos de IA Personalizados

Los modelos de IA pueden "personalizarse" para tareas específicas:

Perro con LoRA

Con LoRA de estilo A

Perro con otro LoRA

Con LoRA de estilo B

Explora diferentes estilos:

FLUX LoRa Explorer

8

Inglés vs Español: ¿Importa?

Sí, aunque cada vez menos. La mayoría de modelos de IA se entrenan principalmente con datos en inglés.

Recomendación: Escribe tus prompts en inglés para mejores resultados.

Gato generado en español

🇪🇸 "Un gato jugando al ajedrez bajo la luz de la luna"

Gato generado en inglés

🇬🇧 "A cat playing chess under moonlight"

Herramientas de traducción:

9

Herramienta: Google Gemini

Hoy usaremos Google Gemini para generar imágenes.

Ventajas:

Cómo usarlo:

  1. Ve a gemini.google.com
  2. Escribe: "Generate an image of..." o "Genera una imagen de..."
  3. Describe lo que quieres ver
  4. Espera unos segundos y... ¡listo!
Interfaz de generación de imágenes
10

Ejemplos de Prompts

❌ Prompt vago:

"un paisaje bonito"

✅ Prompt detallado:

"mountain landscape, golden hour, misty valleys, pine trees, dramatic clouds, mirrorless camera, wide angle, vibrant colors, photorealistic, 4k"

Recursos:

11

Consejos para Prompts Efectivos

Estilo "escopeta": En lugar de escribir frases completas como si hablaras con una persona, escribe palabras clave separadas por comas. Ejemplo: "sunset, ocean, palm trees, warm colors" en vez de "I want to see a beautiful sunset over the ocean with palm trees".

Sé específico con los detalles: Cuanta más información des sobre iluminación, colores, estilo artístico y perspectiva, mejor será el resultado. Por ejemplo, especifica "golden hour lighting, vibrant colors, wide angle shot" en lugar de solo "buena iluminación".

Menciona el tipo de cámara: Esto ayuda a definir el realismo de la imagen. Usa "mirrorless camera" o "DSLR" para resultados fotorrealistas profesionales, o "phone camera" para un aspecto más casual y amateur.

Referencias artísticas: Puedes nombrar artistas específicos, fotógrafos famosos o movimientos artísticos para lograr un estilo particular. Ejemplos: "Ghibli style", "in the style of Ansel Adams", "impressionist painting". Menciona más de un estilo para guiar al modelo sin robar descaradamente.

Añade atmósfera y sensaciones: Adjetivos que describan el ambiente emocional ayudan mucho: "melancholic", "energetic", "mysterious", "serene", "dramatic".

Importante: Más detalles generalmente significa mejor resultado, pero la IA no reflejará todos los detalles que incluyas. Algunos inevitablemente se perderán o interpretarán de forma diferente.

Limitación común: La IA todavía tiene dificultades posicionando objetos correctamente y estableciendo relaciones espaciales entre ellos.

Planos según escala:

Planos según ángulo:

12

¡Práctica 1!

Generando imágenes con Gemini

Tiempo: 30 minutos

13

Ejercicio 1: Comparar prompts (10 min)

Genera dos imágenes de "un gato en la luna":

Primera versión: Prompt simple, directo.

Segunda versión: Prompt detallado (añade detalles de estilo, iluminación, atmósfera...)

Compara: ¿Qué diferencias notas? ¿Cuál prefieres y por qué?

Intenta pedirle que edite la primera imagen con la información extra de la segunda, en varios pasos. ¿Se logra una imagen igual que cuando damos toda la información desde el primer prompt?

14

Ejercicio 2: Temas aleatorios (10 min)

Genera 2-3 imágenes usando el generador aleatorio:

Ejemplo acuarela

Ejemplo: acuarela

Ejemplo fondo abstracto

Ejemplo: fondo abstracto

Tip: ¿Cómo puedes hacer que estas imágenes destaquen?

Cada vez somos más difíciles de impresionar, así que tendrás que jugar con elementos extra para lograr resultados interesantes.

15

Inpainting: Editar con IA

¿Qué es el inpainting? Modificar partes específicas de una imagen usando IA.

Antes: Teníamos que elaborar una máscara, dibujar en la imagen qué áreas se podían cambiar.

Hoy en día: Es un proceso iterativo. Podemos pedirle al modelo que altere directamente una imagen.

Consejo clave: Muchas veces es más fácil partir de una imagen real y modificarla, que generar una desde cero.

Ejemplo de uso:

  • Generas una imagen base
  • Le pides que cambie el fondo, el color de la ropa, añada objetos...
  • Iteras hasta conseguir el resultado deseado

Es un equilibrio entre calidad (todo en un solo prompt) y control (prompts iterativos centrados en cada elemento).

16

Ejercicio 3: Composición creativa (10 min)

Vamos a crear una composición compleja combinando elementos:

El reto: Pedirle a la IA que genere una imagen que combine:

  1. Una persona específica (describe su apariencia o usa una foto de referencia)
  2. Un objeto en particular que esté sujetando
  3. Un entorno o escenario específico

Ejemplo de prompt:

"A elderly woman with grey hair and glasses, holding a vintage camera, standing in a library filled with old books, warm lighting, photorealistic, detailed"

Desafío adicional: ¿Consigues que la IA represente correctamente las tres cosas a la vez? Esta es una de las limitaciones actuales de la IA.

17

Generación de Vídeo con IA

Del texto y las imágenes al movimiento

18

IA para Vídeo: Estado actual

¿Qué pueden hacer las herramientas actuales?

Ejemplo de tecnología punta: Sora de OpenAI

Limitaciones:

  • Los vídeos son muy cortos
  • Calidad variable, especialmente en movimientos complejos
  • Cuesta mantener consistencia en personajes
  • Los modelos son lentos y costosos (económicamente y en energía)
19

Herramientas para Vídeo IA

Hoy usaremos una de estas dos:

Hedra (hedra.com)

  • Especializado en avatares que hablan, peor para vídeos complejos
  • Sube una foto (frame de control) y crea un vídeo con lip-sync
  • Ideal para presentadores, personajes que narran
  • Multimodelo: Incluye también los modelos de Kling

Kling (klingai.com)

  • Generación de vídeo más general
  • Puede partir de texto o múltiples imágenes
  • Buenos resultados en movimientos y transiciones

Elige la que más te interese y crea una cuenta.

20

Vídeos desde Cero vs Vídeos Mixtos

✨ Vídeos generados desde cero (text-to-video):

  • Escribes un prompt describiendo la escena
  • La IA genera todo el vídeo
  • Mayor libertad creativa, pero menos control
  • Resultados más impredecibles

En general, merece la pena al menos usar primero text-to-image para generar un frame de control

🎬 Vídeos mixtos (con fragmentos generados por IA):

  • Combinas vídeo real con segmentos generados por IA
  • Usas frames de control para combinarlos de forma transparente
  • Resultado más coherente y profesional
  • Ideal para efectos especiales, transiciones creativas

Hoy haremos: Un proyecto de vídeo mixto, combinando contenido real con un final generado por IA.

Ejemplo de vídeo mixto creativo:

21

Proyecto: Vídeo con Final Alternativo

Vamos a hacer algo creativo con los recursos disponibles:

La idea: Tomar un vídeo real y darle un final completamente diferente usando IA.

Ejemplo:

22

Paso a Paso: Vídeo Alternativo

  1. Encuentra o graba un vídeo corto (tuyo o de internet)
  2. Extrae un frame del final con frame-extractor.com
  3. Sube ese frame a Kling o Hedra como "imagen inicial"
  4. Escribe un prompt describiendo qué quieres que pase después
  5. Genera el vídeo (5 segundos)
  6. Descarga ambos vídeos (original + generado)
  7. Únelos con online-video-cutter.com

Tiempo estimado: Este proceso puede tardar 15-20 minutos (incluyendo esperas de generación).

23

¡Práctica 2!

Crea tu vídeo con final alternativo

Tiempo: 25 minutos

24

Uso Responsable y Ético

Lo que debemos considerar

25

Detección de Contenido IA

Cada vez es más difícil distinguir contenido real de generado por IA.

Realidad actual: Hoy en día, la detección es virtualmente imposible en muchos casos.

En imágenes:

En vídeos:

26

Sesgos en la IA

Ejercicio revelador: Genera imágenes de "nurse" y "doctor" en inglés.

¿Qué género predomina en cada profesión?

¿Por qué pasa esto?

La IA aprende de internet, que refleja sesgos sociales existentes. Compara los resultados de búsqueda en:

Si la mayoría de imágenes de "enfermera" muestran mujeres, la IA aprende ese patrón. Lo mismo ocurre con razas, edades, contextos culturales... Explora este artículo de Bloomberg.

Importante: Sé consciente de estos sesgos. Puedes contrarrestarlos siendo específico en tus prompts ("male nurse", "female CEO", etc.).

27

Deepfakes: Casos Reales Alarmantes

¿Qué es un deepfake? Vídeo o audio falso creado con IA que parece real.

Casos destacados:

  • Explosión falsa del Pentágono (2023): Imagen IA causó caída temporal del S&P 500
  • Zelenskyy rendirse (2022): Vídeo deepfake durante invasión rusa de Ucrania
  • Robocall de Biden (2024): Audio falso diciéndole a votantes que se quedaran en casa
  • CEO Fraud (2023): $35 millones robados usando deepfake de voz en videollamada
  • Rashmika Mandanna (2023): Actriz india víctima de deepfake sexual viral
  • Taylor Swift (2024): Imágenes explícitas generadas por IA, millones de vistas
  • Estafas con Elon Musk: Deepfakes promocionando inversiones falsas en cripto
  • El Rey promocionando criptomonedas: Felipe VI promocionando cripto
28

Deepfakes: Implicaciones

¿Qué podemos hacer?

Áreas de riesgo:

  • Desinformación política durante campañas electorales
  • Pornografía no consentida
  • Fraude financiero y suplantación de identidad
  • Difamación y daño reputacional
29

Derechos de Autor

Situación legal actual (2025):

Advertencia importante:

  • Compañías como Disney siguen demandando por infringir derechos de autor y propiedad intelectual
  • Usar sus personajes o estilos puede resultar en acciones legales
  • Las plataformas y redes sociales a menudo te cerrarán la cuenta antes que tener problemas

¿Quién es dueño de una imagen generada por IA?

Steamboat Willie

Buenas noticias: Steamboat Willie (1928) ya es de dominio público desde 2024

30

Recursos para Seguir Aprendiendo

Herramientas gratuitas:

Aprendizaje y ejemplos:

Utilidades:

31

Conceptos Clave para Recordar

32

¡Gracias!

¿Preguntas?

Recuerda: La IA es una herramienta.
Tú eres quien le da propósito y dirección.

33