Consultoría tecnológica - Blockchain - Smart Cities

Cómo gestionar el enorme volumen de datos no estructurados que genera una ciudad inteligente

Los datos son el maná de una Smart City. Sin datos, no podemos monitorizarla ni gestionarla, sin datos, no tenemos información sobre el estado de sus servicios e infraestructuras, y, sin datos, no podemos llevar a cabo ninguna medida de mejora y optimización de los recursos de la urbe para hacerlas más sostenibles, eficientes y habitables.

En general, el problema de nuestras ciudades inteligentes no es la falta de datos, al menos no de forma generalizada, sino la manera en la que necesitamos gestionar el volumen ingente de estos que las redes de sensores IoT, los sistemas informáticos y las estructuras inteligentes de la urbe generan. Además, la mayoría de los datos que podemos recoger de las fuentes disponibles en la ciudad suelen ser datos no estructurados, haciendo que, cuando estos no se administran correctamente, su análisis pueda volverse abrumador. Según algunas estimaciones, entre el 80% y el 90% de los datos generados y recogidos por las organizaciones y servicios que forman parte de una ciudad son no estructurados, y sus volúmenes crecen rápidamente.

¿Qué son los datos no estructurados?

Los datos no estructurados son información que no está ordenada según un modelo o esquema de datos preestablecido y, por tanto, no puede almacenarse en una base de datos relacional tradicional. El formato texto y la información multimedia son dos tipos comunes de contenido no estructurado, así como muchos documentos que las empresas, negocios y usuarios de la ciudad generan, como los mensajes de correo electrónico, los vídeos, las fotos, las páginas web y los archivos de audio.

Los datos no estructurados han sido históricamente muy difíciles de analizar y es por eso que, con la ayuda de algoritmos de IA y el aprendizaje automático, están surgiendo nuevas herramientas de software que pueden buscar entre grandes cantidades de ellos para darle sentido a ingentes volúmenes de información de manera beneficiosa y procesable.

Datos no estructurados frente a datos estructurados

Hablemos primero de los datos estructurados. Normalmente se almacenan en una base de datos relacional o RDBMS, y a veces se denominan datos relacionales. Pueden asignarse fácilmente a campos designados por el usuario, por ejemplo, campos para códigos postales, números de teléfono y tarjetas de crédito. Los datos que se ajustan a la estructura RDBMS son fáciles de buscar, tanto con consultas definidas por el ser humano como con programas de software específicos para ello.

Los datos no estructurados, por el contrario, no encajan en este tipo de modelos de datos predefinidos. No pueden almacenarse en un RDBMS y como se presentan en tantos formatos, son un verdadero reto para el software convencional de cualquier sistema de análisis de lo servicios de la Smart City a la hora de ingerirlos, procesarlos y analizarlos. Con las herramientas adecuadas, se pueden realizar sencillas búsquedas de contenido en los datos textuales no estructurados, pero es difícil sacarles todo el potencial que poseen debido, precisamente, a su no-estructura. Como resultado, muchas ciudades, empresas e industrias han sido incapaces de aprovechar este tipo de datos que, por otro lado, son una fuente enorme de valor para comprender mejor las interacciones de los residentes y usuarios de los servicios de la ciudad, los clientes de sus infraestructuras, los medios de comunicación o las conversaciones en las redes sociales que pudieran servir para interactuar con el gobierno municipal de la urbe.

¿Cuáles son algunos ejemplos de datos no estructurados?

Los datos no estructurados pueden ser creados por personas o generados por máquinas. Por ejemplo:

  • El correo electrónico: Los campos de los mensajes de correo electrónico no están estructurados y no pueden ser analizados por las herramientas tradicionales de análisis. No obstante, los metadatos del correo electrónico le confieren cierta estructura y explican por qué el correo electrónico se considera a veces un dato semiestructurado. Todos los emails por ejemplo que se reciben en los servicios de gestión municipal de una Smart City podrían darnos mucha información sobre patrones y preocupaciones ciudadanas de poder analizarlos adecuadamente de forma automática.
  • Archivos de texto: Esta categoría incluye documentos de procesamiento de textos, hojas de cálculo, presentaciones, correo electrónico y archivos de registro. Por ejemplo, los registros de uso de muchos servicios “Smart” de la ciudad suelen estar almacenados de esta manera.
  • Redes sociales y sitios web: datos de redes sociales que los gestores municipales usen para interactuar con la ciudadanía, como Twitter, LinkedIn y Facebook, y sitios web como Instagram, sitios para compartir fotos y YouTube.
  • Datos de móviles y comunicaciones: Todos los mensajes de texto, grabaciones telefónicas, software de colaboración, chat y mensajería instantánea que las interfaces de comunicación que la urbe tenga con la ciudadanía.

He aquí algunos ejemplos de datos no estructurados generados por máquinas:

  • Datos técnicos: paquetes de datos enviados por la sensórica IoT de la ciudad, datos de los sistemas de exploración espacial, imágenes sísmicas, datos atmosféricos, etc.
  • Datos de monitorización y vigilancia de la ciudad: Esta categoría incluye datos como fotos y vídeos de reconocimiento generados por las cámaras de tráfico o las que están presentes en diferentes puntos de la ciudad.

 Extrayendo el valor de la gestión de datos no estructurados

Lo bueno del desarrollo tan rápido de muchas tecnologías que hoy en día podemos usar para mejorar los servicios y sistemas digitales de las ciudades, es que a medida que la gestión de datos madura, los datos no estructurados pasan de ser un coste por la necesidad de contar con centros de almacenamiento a situarse en el epicentro de la creación de valor para la optimización de las ciudades.

Los datos generados por todos los componentes de los ecosistemas empresariales, sociales y urbanos están creciendo, lo cual no es ninguna sorpresa. Es el ritmo actual de crecimiento de los datos lo que resulta verdaderamente asombroso. En 2010, la cantidad de datos creados, consumidos y almacenados era de dos zettabytes al año, según Statista. Firmas como IDC han estado prediciendo un crecimiento explosivo general de los datos en los próximos años: de 64,2 ZB de datos en 2020 a 175 ZB en 2025. Esto supone un crecimiento de casi tres veces en cinco años.

Según algunas estimaciones, menos del 5% de estos datos se utiliza con algún fin, y los equipos de TI de las Smart Cities tienen una visibilidad mínima de sus datos y su valor. Así que, en general, los almacenan para siempre porque es lo más seguro. El resultado final: un gasto excesivo en almacenamiento y la incapacidad de aprovechar los datos para nuevos casos de uso y valor.

Simplificar la gestión de las bases de datos

Para hacer uso de los datos no estructurados con el fin de obtener beneficios competitivos, es importante desarrollar una estrategia de gestión que satisfaga la doble necesidad de rentabilidad y monetización de toda la información. Una forma de hacerlo es dividir en etapas el trabajo con todo el volumen de datos recogidos, por ejemplo, de la siguiente manera:

  • Recolección de los datos no estructurados que no han sido gestionados. En esta etapa, los volúmenes de datos son grandes y están distribuidos normalmente en bases de datos locales y en la nube, lo que da lugar a una visibilidad mínima y a pocas perspectivas, si es que hay alguna, de aprovechar bien el contenido y valor que aportan a todo el ecosistema que los generó. En muchos casos, los datos se encuentran simplemente almacenados y no se gestionan adecuadamente para ahorrar dinero o satisfacer las necesidades de los distintos grupos de usuarios que podrían encontrarles valor. Sin la visibilidad adecuada de los activos que estos datos representan, es difícil para los responsables de TI y de gestión planificar y decidir como usarlos para optimizar los servicios a los que los datos hacen referencia.
  • Gestión de datos centrada en el almacenamiento. Esta fase se caracteriza por la centralización de toda la información para reducir y optimizar los costes de almacenamiento, usando las propias capacidades de gestión del proveedor que tengamos y la migración de datos no estructurados hacia sistemas en la nube que puedan ser accesibles por los responsables de los sistemas de la ciudad. Este paso consigue un cierto ahorro de costes, pero no disminuye aún la complejidad del contenido almacenado.
  • Aplicación de sistemas de análisis para datos no estructurados. Una vez los datos están almacenados y organizados de forma coherente, es importante para proceder a su análisis distinguir entre los patrones de generación de datos utilizados por los dispositivos que los han generado, mayormente sensores IoT y elementos de información de la ciudad.

Definir el patrón de generación de datos de cada dispositivo no es especialmente complejo, pues este viene definido principalmente por el servicio para el que está destinado. Básicamente, y dentro de la gama de sensores que nuestra Smart City podrá usar, es posible identificar dos patrones generales

  1. datos que provienen de la generación de observaciones periódicas;
  2. datos que provienen generación de la observación basada en eventos.

Diferenciando los datos no estructurados según el tipo de dispositivo IoT

Los dispositivos IoT programados con el patrón de generación de observaciones periódicas comunicarán una medida que contenga la información detectada con una frecuencia configurable por los técnicos de la ciudad o responsables del servicio. Para los dispositivos fijos e instalados de forma permanente en algún punto de la urbe esta frecuencia será normalmente fija, pero, para los dispositivos móviles, es posible configurarlos para que funcionen en un periodo de tiempo o de distancia específico (o una combinación de ellos).

Los dispositivos que utilizan este patrón se emplean por ejemplo para la monitorización del medio ambiente de la ciudad, para vigilar la intensidad del tráfico o para la gestión de los parques y jardines y sus sistemas de riego automático.

Para el otro tipo, por ejemplo, los dispositivos IoT usados en la gestión del aparcamiento inteligente funcionan enviando mediciones basadas en eventos, es decir, si un coche entra en la plaza monitorizada, se envía el paquete de información, si la plaza permanece vacía, no se envía nada, por lo tanto, los datos sólo se notifican cuando se detecta un cambio en el parámetro que están supervisando.

Datos para realizar pruebas antes de la puesta en marcha de nuevos servicios en la Smart City

Uno de los objetivos de las plataformas de gestión centrales de las Smart Cities es dar soporte a la experimentación avanzada del IoT y poder evaluar el funcionamiento de un nuevo servicio antes de que entre en funcionamiento. En este sentido, necesitamos muchos más datos en el periodo de pruebas y, dado que el periodo de notificación para aquellos dispositivos que implementan el patrón de generación de observaciones periódicas es configurable, se suele establecer una frecuencia elevada de envío de notificaciones para obtener tantos datos como sea posible de un determinado servicio o sistema.

En este aspecto, y teniendo en cuenta únicamente las necesidades del servicio, es posible que la frecuencia seleccionada nos lleve a una situación de sobre muestreo, y tengamos muchas más mediciones de las que realmente necesitamos para poder monitorizar si un servicio de la ciudad funciona adecuadamente. Sin embargo, esto permite una experimentación más amplia cuando estamos en los periodos de pruebas de algunos de los nuevos sistemas “Smart” que podamos implementar. Para los dispositivos y sensores que utilizan el patrón de generación de observaciones basado en eventos, el número de observaciones depende únicamente del uso real del servicio, ya que aquí no podemos configurar la velocidad de muestreo si no es haciendo un uso artificial y repetitivo del mismo simplemente como parte de las pruebas de funcionamiento.

Requisitos de gestión de datos de la infraestructura IoT a gran escala

Una vez hemos iniciado las pruebas sobre un nuevo servicio o infraestructura de la ciudad, hemos de asegurarnos que toda la red de sensores IoT, los dispositivos y elementos que lo hacen funcionar, los servidores y canales de comunicación, etc., cumple con una serie de características en cuanto al procesamiento de datos tales como:

  • Heterogeneidad: El soporte de una amplia gama de información implica un alto nivel de heterogeneidad tanto en lo que respecta a los datos gestionados como al uso de estos. Para que los datos sean útiles es necesario que estén bien descritos y sean coherentes. A menudo se invierte mucho de tiempo y esfuerzo en los sistemas analíticos para «limpiar y alinear» los datos para poder hacer que los paquetes de información de diferentes fuentes sean integrables y útiles. Por lo tanto, cualquier plataforma de gestión de datos de IoT debe homogeneizar esta información a medida que llega al sistema para servirla ya alineada a un modelo de datos consistente.
  • Realismo de la experimentación: Los bancos de pruebas en vivo de cualquier nuevo servicio proporcionan un grado de realismo que ni siquiera la simulación más detallada puede alcanzar, pero también es necesario aprovechar las enormes capacidades del software de simulación que nos ofrecen muchos sistemas para aprovechar las soluciones IoT antes de ponerlas en servicio. En este sentido, crear un constructo para gestionar volúmenes masivos de datos pierde su sentido si no está claro cómo una aplicación -o un usuario- accede a ellos, como esos datos reflejan realmente el entorno que se está analizando y si la información contenida en ellos es suficientemente válida para poder aceptar el resultado de lo que el análisis de datos arroje sobre el estado del servicio o sistema a poner en marcha.
  • Escalabilidad: La experimentación en el mundo real en un entorno limitado para comprobar que todo funciona correctamente requiere hacer pruebas a una escala adecuada. Mientras que bancos de pruebas a pequeña escala, con redes o sistemas solo de unas pocas decenas de dispositivos son suficientes para una mínima simulación de un nuevo servicio, habrá sistemas de una Smart City basados en IoT que exigen una escala de un orden de magnitud mayor para asegurar que los datos recogidos y enviados por estos reflejan verdaderamente la funcionalidad completa de aquello que se está probando. Para facilitar el acceso a la información generada por miles de nodos IoT, es necesario desplegar mecanismos adecuados que puedan escalar y asignar el acceso a infraestructuras que crezcan progresivamente.
  • Interoperabilidad: La modelización de la información no sólo es necesaria para manejar eficientemente los datos de la urbe, sino también para garantizar la extensibilidad de las plataformas de gestión de esta y la ampliación del sistema con nuevos dispositivos IoT o incluso con nuevos conjuntos de datos y flujos de datos heredados. En este sentido, es necesario establecer los medios por los posibles nuevos proveedores de las infraestructuras de la ciudad (cualquiera que incremente con su despliegue el número de sensores físicos o virtuales que generan datos a ser analizados por los sistemas de gestión) sean interoperables con los ya existentes y amplíen el catálogo de información captado por la sensórica de la ciudad.
  • Metadatos: Vincular la información generada por los dispositivos IoT con el proveedor de información y apoyar el concepto de metadatos es de suma importancia cuando se trata de obtener una visión completa y heterogénea del contenido de datos generado en la ciudad. Para para que la plataforma de gestión de datos sirva a la mayor variedad posible de usuarios, debe ser posible aplicar reglas sencillas y comunes a la información a partir de la ubicación y la marca de tiempo de un dispositivo, al tiempo que permite conexión con otros atributos de la información como la precisión del sensor, el alcance de estos, etc.
  • Seguridad: En todo despliegue de tecnología IoT, la criticidad y el valor de los datos recogidos son de suma importancia en las funciones de control, lo que significa que es esencial asegurar estos activos para para protegerlos de cualquier cosa, desde el robo de datos hasta la invasión de la privacidad. Otro reto es que la seguridad que debe aplicarse suele ser muy contextual, dependiendo de la identidad, la aplicación del dispositivo, su ubicación, tiempo de funcionamiento y potencialmente otros factores. Y lo que es más importante, cuando se recuperan datos de las redes IoT, el conjunto de datos devueltos se filtra de acuerdo con la política de seguridad correspondiente. Si alguien tiene permiso para ver las lecturas históricas de los sensores de temperatura de las zonas comunes de un edificio, pero no para los apartamentos de otros inquilinos, entonces una consulta para mostrar los valores históricos de todo el edificio ha de ser devuelta sólo con los datos relevantes.
  • Facilidad de desarrollo de aplicaciones: Las API abiertas, las interfaces REST conceptualmente sencillas y coherentes, y los datos alineados son factores que facilitan el desarrollo de aplicaciones y proporcionan a las plataforma de gestión de datos de IoT una herramienta rápida y eficaz para que los responsables informáticos de las Smart Cities integren los datos de todos los sistemas y eficaz para que los desarrolladores puedan trabajar en crear nuevas herramientas de análisis de estos.
  • Casi en tiempo real: Un requisito muy común en las aplicaciones de IoT en las ciudades inteligentes es «llevar los datos adecuados a las personas y al lugar adecuados en el momento adecuado». Este concepto es un paradigma bien conocido, y por ello es de suma importancia apoyar el filtrado de resultados a nivel del servidor y sistema de almacenamiento de la información. Además, esto debe haberse proporcionando un alto grado de simetría entre el acceso a los datos y el filtrado de las suscripciones, lo que resulta muy útil para ciertos patrones de uso con los datos de la urbe.

En resumen

El ámbito de la analítica de big data con datos no estructurados es un campo complejo y en expansión, con técnicas de análisis de la información que, teniendo como propósito general extraer todo el valor posible de los parámetros recogidos en la ciudad, también requiere que nos ofrezcan soluciones más centradas y especializadas que aborden los requisitos de servicios y estructuras concretas. Identificar patrones de datos significativos para operadores, usuarios, gestores y proveedores de la Smart City y permitir la optimización de los algoritmos y la prestación de servicios, es necesario, en primer lugar, proporcionar los medios para capturar adecuadamente los datos, almacenarlos de forma coherente y segura y, luego, poner a disposición de los responsables del análisis una forma eficiente de evaluar cantidades significativas de datos históricos de alta calidad que se generan continuamente en la ciudad.

Al final, como decíamos al principio, los datos son el maná de una Smart City, sin ella no puede funcionar el sistema de monitorización y gestión de esta, y el proceso de como tratamos estos datos es crucial para extraer todo el valor y contenido posible y adecuado para ello. Las soluciones de análisis que nos ayudan a realizar lo anterior siguen desarrollándose a velocidades enormes, y, cada vez más, tanto usuarios como gestores de nuestras urbes se dan cuenta que un buen análisis y tratamiento de los parámetros recogidos de la ciudad es lo que posibilita la implementación y mejoras de todo lo que en ella se encuentra desplegado y funcional.

Todos nuestros artículos, noticias y novedades en tu email y en twitter

Related Posts

Te has suscrito correctamente al boletín

Se produjo un error al intentar enviar tu solicitud. Inténtalo de nuevo.

Instituto IDHUS will use the information you provide on this form to be in touch with you and to provide updates and marketing.