Generación de Imágenes y Vídeos con IA

Taller Semana de la IA 2025

Iris Domínguez Catena

iris.dominguez@unavarra.es

1

¿Qué vamos a ver hoy?

Cómo funciona la IA generativa de imágenes
Generar imágenes con Gemini
Crear vídeos con IA
Uso responsable y ético

2

¿Por qué este taller?

La generación de imágenes es cada vez más simple, gracias a los modelos multimodales.

                Vamos a ver algunos extras:
                ¿Cómo conseguir exactamente lo que quieres?
Trucos para mejores resultados
Implicaciones éticas y legales
Generación de vídeo

            

Objetivo: Que salgas creando contenido visual de calidad, sabiendo qué estás haciendo.

3

¿Qué es la IA Generativa?

La Inteligencia Artificial intenta imitar capacidades humanas. Hay varios tipos:

IA Débil: Hace tareas específicas (reconocer caras, recomendar series)
IA Fuerte: Podría pensar como un humano (aún no existe realmente)
IA Generativa: Crea contenido nuevo (texto, imágenes, música, vídeo)

La IA generativa ha explotado gracias a:

Mayor potencia de cálculo
Modelos de aprendizaje más sofisticados
Enormes cantidades de datos de internet

4

¿Cómo aprende la IA a crear imágenes?

Proceso de entrenamiento:

Recopilación: Millones de imágenes de internet
Etiquetado: Descripción de cada imagen (automático y manual)
Procesamiento: Limpieza y organización de datos
Entrenamiento: El modelo aprende a relacionar palabras con elementos visuales

Ejemplo: Imagenet, el conjunto de datos con el que empezó todo.

5

Stable Diffusion: Cómo Aprende

Stable Diffusion es un modelo popular para crear imágenes. Durante el entrenamiento, el modelo aprende solo a eliminar ruido de imágenes. Eventualmente, parte de imágenes de estática pura para generar contenido plausible.

La magia reside en los controles: texto, otras imágenes...

6

Stable Diffusion: Cómo Crea

Cuando le pedimos a Stable Diffusion que cree una imagen, aplica el proceso aprendido en orden inverso: empieza con ruido aleatorio y lo va transformando progresivamente hasta obtener una imagen coherente.

Lee nuestra descripción de la imagen (el "prompt")
Empieza con una imagen de ruido aleatorio
Poco a poco, va quitando el ruido guiado por el prompt
Refina la imagen hasta que se parece a lo que pedimos

El prompt es crucial: cuanto mejor lo escribamos, mejor será la imagen.

7

Modelos de IA Personalizados

Los modelos de IA pueden "personalizarse" para tareas específicas:

Fine-tuning: Ajustar un modelo para un estilo o tarea concreta
LoRA: Una forma rápida y eficiente de adaptar modelos grandes

Con LoRA de estilo A

Con LoRA de estilo B

Explora diferentes estilos:

FLUX LoRa Explorer

8

Inglés vs Español: ¿Importa?

Sí, aunque cada vez menos. La mayoría de modelos de IA se entrenan principalmente con datos en inglés.

Recomendación: Escribe tus prompts en inglés para mejores resultados.

🇪🇸 "Un gato jugando al ajedrez bajo la luz de la luna"

🇬🇧 "A cat playing chess under moonlight"

Herramientas de traducción:

DeepL Translator
El propio Gemini o ChatGPT también hacen esta labor bien

9

Herramienta: Google Gemini

Hoy usaremos Google Gemini para generar imágenes.

Ventajas:

Fácil de usar - integrado en el chat
Acepta prompts en español (aunque funciona mejor en inglés)
Gratuito con cuenta de Google
Genera hasta 100 imágenes al día en su versión gratis (probablemente menos)
Actualmente emplea Nano Banana 🍌, probablemente el mejor modelo disponible para edición de imagen

Cómo usarlo:

Ve a gemini.google.com
Escribe: "Generate an image of..." o "Genera una imagen de..."
Describe lo que quieres ver
Espera unos segundos y... ¡listo!

10

Ejemplos de Prompts

❌ Prompt vago:

"un paisaje bonito"

✅ Prompt detallado:

"mountain landscape, golden hour, misty valleys, pine trees, dramatic clouds, mirrorless camera, wide angle, vibrant colors, photorealistic, 4k"

Recursos:

Galería de Civitai - Ejemplos con prompts
Promptomania - Generador de prompts

11

Consejos para Prompts Efectivos

Estilo "escopeta": En lugar de escribir frases completas como si hablaras con una persona, escribe palabras clave separadas por comas. Ejemplo: "sunset, ocean, palm trees, warm colors" en vez de "I want to see a beautiful sunset over the ocean with palm trees".

Sé específico con los detalles: Cuanta más información des sobre iluminación, colores, estilo artístico y perspectiva, mejor será el resultado. Por ejemplo, especifica "golden hour lighting, vibrant colors, wide angle shot" en lugar de solo "buena iluminación".

Menciona el tipo de cámara: Esto ayuda a definir el realismo de la imagen. Usa "mirrorless camera" o "DSLR" para resultados fotorrealistas profesionales, o "phone camera" para un aspecto más casual y amateur.

Referencias artísticas: Puedes nombrar artistas específicos, fotógrafos famosos o movimientos artísticos para lograr un estilo particular. Ejemplos: "Ghibli style", "in the style of Ansel Adams", "impressionist painting". Menciona más de un estilo para guiar al modelo sin robar descaradamente.

Añade atmósfera y sensaciones: Adjetivos que describan el ambiente emocional ayudan mucho: "melancholic", "energetic", "mysterious", "serene", "dramatic".

Importante: Más detalles generalmente significa mejor resultado, pero la IA no reflejará todos los detalles que incluyas. Algunos inevitablemente se perderán o interpretarán de forma diferente.

Limitación común: La IA todavía tiene dificultades posicionando objetos correctamente y estableciendo relaciones espaciales entre ellos.

Planos según escala:

Planos según ángulo:

12

¡Práctica 1!

Generando imágenes con Gemini

Tiempo: 30 minutos

13

Ejercicio 1: Comparar prompts (10 min)

Genera dos imágenes de "un gato en la luna":

Primera versión: Prompt simple, directo.

Segunda versión: Prompt detallado (añade detalles de estilo, iluminación, atmósfera...)

Compara: ¿Qué diferencias notas? ¿Cuál prefieres y por qué?

Intenta pedirle que edite la primera imagen con la información extra de la segunda, en varios pasos. ¿Se logra una imagen igual que cuando damos toda la información desde el primer prompt?

14

Ejercicio 2: Temas aleatorios (10 min)

Genera 2-3 imágenes usando el generador aleatorio:

Ejemplo: acuarela

Ejemplo: fondo abstracto

Tip: ¿Cómo puedes hacer que estas imágenes destaquen?

Cada vez somos más difíciles de impresionar, así que tendrás que jugar con elementos extra para lograr resultados interesantes.

15

Inpainting: Editar con IA

¿Qué es el inpainting? Modificar partes específicas de una imagen usando IA.

Antes: Teníamos que elaborar una máscara, dibujar en la imagen qué áreas se podían cambiar.

Hoy en día: Es un proceso iterativo. Podemos pedirle al modelo que altere directamente una imagen.

Consejo clave: Muchas veces es más fácil partir de una imagen real y modificarla, que generar una desde cero.

Ejemplo de uso:

Generas una imagen base
Le pides que cambie el fondo, el color de la ropa, añada objetos...
Iteras hasta conseguir el resultado deseado

Es un equilibrio entre calidad (todo en un solo prompt) y control (prompts iterativos centrados en cada elemento).

16

Ejercicio 3: Composición creativa (10 min)

Vamos a crear una composición compleja combinando elementos:

El reto: Pedirle a la IA que genere una imagen que combine:

Una persona específica (describe su apariencia o usa una foto de referencia)
Un objeto en particular que esté sujetando
Un entorno o escenario específico

Ejemplo de prompt:

"A elderly woman with grey hair and glasses, holding a vintage camera, standing in a library filled with old books, warm lighting, photorealistic, detailed"

Desafío adicional: ¿Consigues que la IA represente correctamente las tres cosas a la vez? Esta es una de las limitaciones actuales de la IA.

17

Generación de Vídeo con IA

Del texto y las imágenes al movimiento

18

IA para Vídeo: Estado actual

¿Qué pueden hacer las herramientas actuales?

Generar clips cortos (5-10 segundos) desde texto o imagen
Animar imágenes estáticas
Crear avatares que hablan (lip-sync)
Transformar un vídeo en otro estilo

Ejemplo de tecnología punta: Sora de OpenAI

Limitaciones:

Los vídeos son muy cortos
Calidad variable, especialmente en movimientos complejos
Cuesta mantener consistencia en personajes
Los modelos son lentos y costosos (económicamente y en energía)

19

Herramientas para Vídeo IA

Hoy usaremos una de estas dos:

Hedra (hedra.com)

Especializado en avatares que hablan, peor para vídeos complejos
Sube una foto (frame de control) y crea un vídeo con lip-sync
Ideal para presentadores, personajes que narran
Multimodelo: Incluye también los modelos de Kling

Kling (klingai.com)

Generación de vídeo más general
Puede partir de texto o múltiples imágenes
Buenos resultados en movimientos y transiciones

Elige la que más te interese y crea una cuenta.

20

Vídeos desde Cero vs Vídeos Mixtos

✨ Vídeos generados desde cero (text-to-video):

Escribes un prompt describiendo la escena
La IA genera todo el vídeo
Mayor libertad creativa, pero menos control
Resultados más impredecibles

En general, merece la pena al menos usar primero text-to-image para generar un frame de control

🎬 Vídeos mixtos (con fragmentos generados por IA):

Combinas vídeo real con segmentos generados por IA
Usas frames de control para combinarlos de forma transparente
Resultado más coherente y profesional
Ideal para efectos especiales, transiciones creativas

Hoy haremos: Un proyecto de vídeo mixto, combinando contenido real con un final generado por IA.

Ejemplo de vídeo mixto creativo:

21

Proyecto: Vídeo con Final Alternativo

Vamos a hacer algo creativo con los recursos disponibles:

La idea: Tomar un vídeo real y darle un final completamente diferente usando IA.

Ejemplo:

Vídeo original: alguien caminando por la calle
Extraemos el último frame
Generamos 5 segundos más donde de repente vuela, desaparece, se transforma...
Unimos ambos vídeos

22

Paso a Paso: Vídeo Alternativo

Encuentra o graba un vídeo corto (tuyo o de internet)
Extrae un frame del final con frame-extractor.com
Sube ese frame a Kling o Hedra como "imagen inicial"
Escribe un prompt describiendo qué quieres que pase después
Genera el vídeo (5 segundos)
Descarga ambos vídeos (original + generado)
Únelos con online-video-cutter.com

Tiempo estimado: Este proceso puede tardar 15-20 minutos (incluyendo esperas de generación).

23

¡Práctica 2!

Crea tu vídeo con final alternativo

Tiempo: 25 minutos

24

Uso Responsable y Ético

Lo que debemos considerar

25

Detección de Contenido IA

Cada vez es más difícil distinguir contenido real de generado por IA.

Realidad actual: Hoy en día, la detección es virtualmente imposible en muchos casos.

En imágenes:

Los fallos típicos (manos incorrectas, anatomía extraña, texto ilegible) ya solo aparecen en los fondos
La calidad general es casi indistinguible de fotos reales

En vídeos:

El movimiento es más fácil de detectar... por ahora
Pero la gente usa trucos: contenido falso con cámaras de baja calidad (como las de seguridad)
Conforme se genera más contenido y mejoran las técnicas, la detección se vuelve prácticamente imposible

26

Sesgos en la IA

Ejercicio revelador: Genera imágenes de "nurse" y "doctor" en inglés.

¿Qué género predomina en cada profesión?

¿Por qué pasa esto?

La IA aprende de internet, que refleja sesgos sociales existentes. Compara los resultados de búsqueda en:

Si la mayoría de imágenes de "enfermera" muestran mujeres, la IA aprende ese patrón. Lo mismo ocurre con razas, edades, contextos culturales... Explora este artículo de Bloomberg.

Importante: Sé consciente de estos sesgos. Puedes contrarrestarlos siendo específico en tus prompts ("male nurse", "female CEO", etc.).

27

Deepfakes: Casos Reales Alarmantes

¿Qué es un deepfake? Vídeo o audio falso creado con IA que parece real.

Casos destacados:

Explosión falsa del Pentágono (2023): Imagen IA causó caída temporal del S&P 500
Zelenskyy rendirse (2022): Vídeo deepfake durante invasión rusa de Ucrania
Robocall de Biden (2024): Audio falso diciéndole a votantes que se quedaran en casa
CEO Fraud (2023): $35 millones robados usando deepfake de voz en videollamada
Rashmika Mandanna (2023): Actriz india víctima de deepfake sexual viral
Taylor Swift (2024): Imágenes explícitas generadas por IA, millones de vistas
Estafas con Elon Musk: Deepfakes promocionando inversiones falsas en cripto
El Rey promocionando criptomonedas: Felipe VI promocionando cripto

28

Deepfakes: Implicaciones

¿Qué podemos hacer?

Verificar fuentes antes de compartir contenido
Buscar el vídeo/imagen original
Usar herramientas de verificación de hechos
No crear ni compartir deepfakes
Ser escépticos con contenido viral emocional

Áreas de riesgo:

Desinformación política durante campañas electorales
Pornografía no consentida
Fraude financiero y suplantación de identidad
Difamación y daño reputacional

29

Derechos de Autor

Situación legal actual (2025):

Demandas en curso contra Stability AI, Midjourney, etc.
Debate sobre si entrenar con obras protegidas es legal
La legislación varía por país y está en evolución

Advertencia importante:

Compañías como Disney siguen demandando por infringir derechos de autor y propiedad intelectual
Usar sus personajes o estilos puede resultar en acciones legales
Las plataformas y redes sociales a menudo te cerrarán la cuenta antes que tener problemas

¿Quién es dueño de una imagen generada por IA?

Generalmente, tú (quien escribe el prompt)
Pero depende de los términos de servicio de cada herramienta
Algunas prohíben uso comercial en planes gratuitos

Buenas noticias: Steamboat Willie (1928) ya es de dominio público desde 2024

30

Recursos para Seguir Aprendiendo

Herramientas gratuitas:

Google Gemini - Imágenes integradas en chat
Craiyon - Sin registro necesario
Leonardo AI - Super interesante su canvas "en tiempo real"
BlueWillow - Genérica de creación de imágenes
GetImg.ai - Generación y edición de imágenes
Kling AI - Generación de vídeo
Hedra - Avatares que hablan

Aprendizaje y ejemplos:

Civitai Gallery - Prompts de ejemplo
Promptomania - Generador de prompts
HuggingFace - Lo último de lo último en modelos

Utilidades:

DeepL - Traductor para prompts
Frame Extractor - Extraer frames de vídeo
Online Video Cutter - Edición simple de vídeo

31

Conceptos Clave para Recordar

Prompt: La descripción que le das a la IA para generar contenido
Iteración: Proceso de mejorar resultados paso a paso
Modelo: El "cerebro" de la IA (Stable Diffusion, DALL-E, etc.)
Deepfake: Contenido falso creado con IA que parece real
Inpainting: Editar partes específicas de una imagen con IA
Frame: Un solo fotograma de un vídeo
Lip-sync: Sincronización de labios con audio
LoRA: Adaptación eficiente de modelos para estilos específicos

32

¡Gracias!

¿Preguntas?

Recuerda: La IA es una herramienta.
Tú eres quien le da propósito y dirección.

33