Durante años, las empresas almacenaron miles de horas de grabaciones que prácticamente nadie volvía a mirar. Reuniones de Zoom, cámaras de seguridad, capacitaciones, entrevistas, transmisiones internas y material audiovisual corporativo fueron acumulándose como archivos muertos dentro de servidores y nubes empresariales.
Ahora, una startup creada por exdirectivos de Google Japón quiere transformar todo ese material en una nueva fuente de inteligencia empresarial.
La compañía se llama InfiniMind y acaba de captar la atención del ecosistema tecnológico global con una propuesta que mezcla inteligencia artificial multimodal, análisis semántico y automatización avanzada de video.
Según InfiniMind, gran parte del contenido audiovisual empresarial pertenece a una categoría conocida como dark data: información que existe, pero que nunca se analiza realmente. La startup sostiene que el 82% del tráfico mundial de internet ya corresponde a video, aunque la enorme mayoría permanece fuera de cualquier sistema inteligente de análisis.
La idea detrás del proyecto no consiste simplemente en reconocer imágenes o generar subtítulos automáticos. Lo que buscan es construir una infraestructura capaz de entender contexto, relaciones y eventos dentro de grabaciones extremadamente largas.
Su sistema principal, llamado DeepFrame, fue diseñado para procesar cientos de horas de contenido y detectar:
conversaciones relevantes
decisiones empresariales
patrones de comportamiento
incidentes de seguridad
interacciones específicas
momentos importantes dentro de archivos gigantescos
Todo mediante lenguaje natural.
Detrás de InfiniMind están Aza Kai y Hiraku Yanagita, exintegrantes de Google Japón que trabajaron durante años en soluciones de datos e inteligencia artificial. Según explicaron, comenzaron a detectar el problema mientras trabajaban dentro del ecosistema corporativo de Google: las empresas generan enormes cantidades de video, pero casi no poseen herramientas reales para comprenderlo.
La startup consiguió recientemente una inversión inicial de 5,8 millones de dólares liderada por UTEC, uno de los fondos deep-tech más importantes de Asia.
El movimiento no ocurre en un vacío. Forma parte de una carrera mucho más amplia donde la inteligencia artificial ya no se limita a escribir textos o generar imágenes, sino que intenta interpretar el comportamiento completo de empresas, consumidores y sistemas audiovisuales.
Lo que vuelve particularmente interesante a InfiniMind es que representa una transición tecnológica importante: el salto desde modelos especializados hacia inteligencias multimodales capaces de interpretar simultáneamente:
video
audio
lenguaje
contexto
acciones humanas
secuencias temporales
Es decir, sistemas que no solamente “ven”, sino que intentan comprender relaciones causa-efecto dentro de grandes volúmenes de información visual.
Esto podría cambiar múltiples sectores:
seguridad
retail
medios
marketing
monitoreo industrial
entrenamiento corporativo
análisis de clientes
y especialmente la automatización empresarial.
Sin embargo, el avance de este tipo de tecnologías también abre preguntas delicadas.
Si una IA puede analizar años enteros de reuniones, cámaras o comunicaciones internas, el límite entre productividad y vigilancia empieza a volverse difuso.
El problema ya no consiste solamente en almacenar datos, sino en la capacidad de interpretarlos automáticamente.
La posibilidad de que empresas o gobiernos utilicen IA para rastrear comportamientos, emociones, patrones laborales o dinámicas humanas en tiempo real genera preocupaciones crecientes sobre privacidad y control social.
InfiniMind asegura que prioriza la seguridad y la soberanía de datos mediante sistemas privados y opciones on-premise para grandes empresas.
Pero el debate de fondo permanece abierto.
La aparición de plataformas como InfiniMind muestra hacia dónde parece dirigirse la nueva etapa de internet:
un entorno donde prácticamente todo el contenido audiovisual podrá ser:
indexado
consultado
interpretado
resumido
automatizado
convertido en datos accionables
Ya no se trata solamente de producir videos.
Se trata de construir inteligencias capaces de entenderlos.
Y en un mundo saturado de cámaras, videollamadas y contenido audiovisual permanente, quien controle esa capacidad de interpretación podría controlar una de las formas más poderosas de información del futuro.