Roger Agustín, Prenomics: «La pyme y la industria en general española están bastante verdes en lo que es explotación analítica»

17/06/2021

Roger Agustín es consultor de data science, licenciado en Matemáticas Aplicadas por la Universidad Politécnica de Cataluña (UPC), y Master of Science (MSc), Innovation and Entrepreneurship por ESADE. También cursó estudios en Strategic Management en la London School of Economics and Political Science.

¿Qué es Prenomics?

Es una empresa de data science que lo que hace es combinar la actividad de consultoría con el desarrollo de nuestra propia tecnología para ayudar a las organizaciones a aprovechar mejor sus datos de manera eficiente ya sea para tomar mejores decisiones, generar mejores productos o tener mejores procesos internos. Nacimos en 2018.

¿A qué nos dedicamos? Tenemos tres ramas de actividad. La primera sería la de consultoría de estrategia analítica, donde ayudamos a las organizaciones a entender qué es lo que tiene sentido que hagan con datos, que oportunidades de negocio realmente tienen en base a los datos y las tecnologías que disponen, donde les ayudamos a definir qué soluciones de datos tienen para conseguir esas oportunidades.

Después tenemos una segunda área de conocimiento que sería la del desarrollo de estas soluciones analíticas, donde desarrollamos algoritmos de Machine Learning, donde buscamos soluciones de Business Intelligence, montamos infraestructuras analíticas basadas en el cloud, donde hacemos procesos de curación de datos, lo que definimos que tiene sentido hacer desde el punto de vista del negocio en la primera parte, en la de estrategia analítica, y aquí lo que hacemos es desarrollar la solución de datos que da respuesta a esa problemática de negocio.

Y finalmente la tercera área de negocio es la de nuestra tecnología propia, que se llama INTELEK, que permite que las empresas puedan hacer una gestión integral de todo el flujo del dato que tiene una solución analítica de una manera muy ágil, sencilla y a un coste competitivo. Esta tecnología tiene un módulo de integración de datos de múltiples fuentes, ya sea de aplicaciones o servicios ya existentes, como pueden ser de Instagram, Jira, Zoho… También hacemos integración de datos vía scraping, lo que nos permite integrar cualquier tipo de datos, y los estructuramos dentro de lo que es el data warehouse del cliente.

Después tenemos un segundo módulo de esta tecnología de ejecución de procesos y algoritmos en la nube, tanto procesos de transformación del dato como ejecución periódica de algoritmos de Machine Learning y reentreno de los mismos y verificación de que están funcionando perfectamente.

Y el tercer gran módulo que tiene esta tecnología es el de poder consumir este dato, poder visualizar este dato, ver el catálogo de datos corporativo, montar aplicaciones que dan respuesta en base a datos de forma visual a usuarios de negocio, y que de alguna forma nos permite que cuando hemos definido un concepto de oportunidad que va de hacer, por ejemplo, garantizar el mínimo stock de todos los productos y lanzar automáticamente pues órdenes de compra a proveedores, pues hacemos la integración de datos de sistema para tener toda esta información, corremos el algoritmo que define ese stock mínimo y mostramos los resultados de lo que se ha pedido automáticamente de una forma visual y cómoda para el usuario.

En Prenomics intentamos conciliar la pata de negocios, la pata de datos y la pata de tecnología para dar soluciones que van de principio a fin en el ámbito del negocio basado en datos. Al final como damos esta cobertura integral haciendo la solución completa y de manera bastante ágil, pues conseguimos que empresas que no podían permitirse estas soluciones sofisticadas puedan acceder a ellas, tanto con empresas grandes, porque tenemos clientes muy relevantes como Caixa, pero también trabajamos con empresas de tamaños más pequeños para quienes somo rentables para pagar proyectos completos de flujo de datos gracias a traer la parte de estrategia, datos y tecnología bajo un mismo paraguas que nos permite, gracias a un modelo muy bien definido lleva estos procesos con éxito.

¿En qué sectores productivos se enfocan más? Ha hablado de banca… ¿Cuál es el perfil de sus clientes?

Nuestra materia prima, por decirlo de alguna manera, son los datos. Y en este sentido tanto podemos trabajar con seguros, bancos, industria, retail, servicios u hospitales. Lo que realmente necesitamos es existan datos, los tenga o no los tenga la empresa, que nos permitan explicarlos visualmente o modelizarlos al correr este tipo de algoritmos. La gran restricción que tenemos es la existencia del dato. Si existe, podemos trabajar. ¿Cuáles son los sectores principales con los que hemos trabajado hasta ahora? Bastante en seguros, bastante en industria, también en el sector público y también hemos hecho proyectos en servicios y retail.

Cuándo habla de industria, un sector muy transversal, ¿a qué se refiere?

Por ejemplo, un cliente con el que trabajamos mucho, desde hace años, es el Lontana Group, que es una empresa industrial de Euskadi que se dedica a comercializar metal en distintas formas de transformación.

Trabajando con programación, ¿qué diría a quienes consideran que a veces el algoritmo está sesgado, incluso con sesgo de género?

Es cierto que hubo un caso bastante sonado con Amazon si no recuerdo mal que en sus procesos de selección era bastante machista y tardaron un poco de tiempo en detectarlo. Yo lo que diría es que hay ahora toda una tendencia a conseguir hacer lo que se llama Explainable AI, que es Inteligencia Artificial explicable, que permita entender realmente cuáles son los parámetros que está considerando el algoritmo. Esto es super importante y es crítico que cuando nos ponemos a modelizar problemas, no cojamos simplemente un algoritmo que existe o una batería de algoritmos, que los probemos todos, y nos quedemos con el que da mejores resultados.

Tenemos que ser críticos y entender qué es lo que queremos que haga el algoritmo, cuál es el más adecuado para modelar bien el problema que le estoy pasando y entonces interpretar bien los resultados que me está dando y entonces entender cuáles son las variables que más está ponderando. Esto forma parte de la responsabilidad de quien está construyendo el algoritmo, y esto evidentemente lo tenemos en cuenta, entender lo que hace el algoritmo que estás haciendo. Y no simplemente conformarte con que el algoritmo tenga unos resultados correctos contra tu métrica objetivo. Por ejemplo, nosotros estamos haciendo un proyecto con una organización pública en la que estamos haciendo un tema de modelización de caudales de ríos y ahí, por ejemplo, estamos incorporando variables de datos, pero también estamos construyendo variables físicas que entendemos qué son y que el algoritmo las pueda capturar porque sabemos que es conocimiento que es útil.

Es importante darle al algoritmo todos los datos, dejar que el algoritmo encuentre, pero también es nuestra responsabilidad analizar qué es lo que está ponderando de cara a ver que no estamos haciendo nada que no sea ético.

Dicho esto, lo que diría es que, para el 90% de las organizaciones en España, lo que tienen que construir, lo que les puede añadir el 80% de valor con el 20% de esfuerzo no es un algoritmo de tipo caja negra que les solucione un problema concreto como a quién tengo que reclutar para conseguir mejores resultados sino que normalmente donde hay más valor para explotar es en problemas más sencillos. ¿Qué quiero decir con problemas más sencillos? Es típico encontrarnos con empresas que tienen a equipos comerciales consultando múltiples pantallas para consolidar los datos en un Excel y empezar a tomar decisiones. Pues allí, un nivel de proyecto mucho más básico que la Inteligencia Artificial, pero que aporta muchísimo valor, es automatizar la integración de todo este dato y darle ya cocinado el dato a la persona que tiene que tomar la decisión. Otra capa es la de poner proyecciones relativamente sencillas que te permiten medir cómo vas contra los objetivos que tienes a final de año; otra capa es poder lanzar simulaciones en el ámbito productivo de si me hago esta configuración de personas en estos canales de preparación de pedidos, cuánto trabajo consigo quitarme o qué centro es óptimo que asigne esta producción para conseguir balancear mi producción. Todo esto se hace con una naturaleza de algoritmos que tampoco entraña este riesgo de sesgo que comentaba. Hay mucho recorrido por realizar, utilizando incluso algoritmos que son más sencillos que estos que son de tipo caja negra que ya pueden aportar mucho valor y que probablemente sea el punto que tenga sentido recorrer de entrada por la mayoría de las organizaciones.

¿Está el sector lo suficientemente regulado?

Aquí haría un matiz que creo que es importante: si estamos hablando de una empresa industrial o de una empresa B2C, de las que se dirigen directamente al consumidor. Hay una diferencia, porque realmente hay una legislación que vino hace dos o tres años, la Ley de Protección de Datos, que regula el uso del dato personal que puedan hacer las organizaciones, y que no se puede utilizar un dato personal sin consentimiento. Esta es una ley que las empresas se están empezando a tomar en serio porque se está monitorizando, se está viendo el uso que hacen las empresas y están empezando a caer las primeras multas sobre usos incorrectos de la información o sobre tratos incorrectos a la información. Y eso es algo muy relevante. Creo que es una legislación que está bien. Dejaba algunas puertas abiertas, pero con jurisprudencia se está empezando a concretar. Esto es un primer gran paso porque el tema de poder proteger la utilización del dato que hacen las empresas y de tus datos personales es importante.

Hay un segundo nivel que es el sesgo que tienen los algoritmos. Esto no está todavía regulado porque es una rama donde aún se está estudiando cómo identificar todos estos sesgos y ver la forma de explicar bien lo que hacen determinados algoritmos del tipo de caja negra. Es algo en lo que la Comisión Europea está altamente interesada. Cada vez más, cuando entras en programas de subvención pública relacionados con IA y ahora habrá con los fondos Next Generation Europe, uno de los puntos que siempre ponen es siempre el ethical AI, y cómo consigues validar esto, con lo que se está trabajando en esta línea.

Dicho esto, creo que en el sector industrial esto tiene menor impacto. Al final estamos hablando de cómo optimizo un stock mínimo para garantizar que no rompo el stock, por poner el mismo ejemplo que antes. Es un dato muy impersonal, un dato que no plantea grandes problemas. Es un ámbito de aplicación en el que al no hablar de personas es menos compleja de gestionar. Si se trata de hacer ofertas potenciales que le puedes hacer a una persona, tienes que vigilar un poco más en el sentido de si la persona te ha autorizado a utilizar todas estas variables. Eso lo regula el Reglamento e Protección de Datos.

¿Por qué eligieron a Prenomics como una de las startups más disruptivas del ámbito industrial en el Startup Forum del congreso Advanced Factories celebrado en Barcelona del 8 al 10 de junio?

¿Por qué nos han elegido? Creo que la propuesta de valor que hacemos es que somos una consultoría eficientada por la tecnología. Conseguimos hacer proyectos que son muy ad hoc a las necesidades de cada empresa, pero de manera bastante eficiente, con un time to market bastante bajo, y esto permite que empresas que antes estaban invirtiendo mucho tiempo de sus personas en recolectar el dato, confeccionarlo, analizarlo y tomar la decisión puedan saltarse muchos de esos pasos y ponerse directamente en la capa de análisis y decidir , profundizando más y consiguiendo centrarse en aspectos de mayor valor añadido. ¿Existía esto antes? Pues sí, pero necesitábamos el proveedor de estrategia que te indicara qué es lo que tenía que hacer, el proveedor de consultoría de datos que te montara el algoritmo y la aplicación de business intelligence y el proveedor de tecnología que te daba el licenciamiento de las distintas tecnologías necesarias para hacerlo. Nosotros hemos conseguido estructurar este modelo de trabajo junto con esta tecnología lo que nos permite apalancar los proyectos, que nos permite estar lanzando muchos proyectos que antes tenían un coste elevado de desarrollo a un coste bastante competitivo. Ayudamos a la democratización del dato dentro de las organizaciones industriales.

¿Hacia dónde va el mercado de Big Data? ¿Cómo ves a la pyme dentro de ese mercado?

La pyme y la industria en general de nuestro país están bastante verdes en lo que es explotación analítica. Creo que hay un montón de oportunidad en dar al menos los primeros pasos que tienen más valor para poder tener un mejor dato de cara a tomar mejores decisiones, procesos y ofrecer mejores productos y servicios a clientes. Creo que la pyme española, incluso también la gran empresa, porque esto es un mal endémico, viene trabajando con la inercia de unos softwares que llevan la operativa del negocio, softwares más nuevos o más viejos, algunos tienen bastantes años, y están instauradas unas dinámicas de trabajo que le dan rentabilidad a la empresa, pero que se apalancan en unas tecnologías que tienen unos años.

Hay una gran oportunidad en ver cómo integrar el dato de todas estas tecnologías en un sitio que nos los estructure bien y a partir de aquí ir pudiendo construir proyectos analíticos donde cada proyecto ayude a la construcción del siguiente. El gran problema que ha habido tradicionalmente a la hora de hacer proyectos analíticos es el de abordar el proyecto como un ente individual. Si yo quiero hacer una herramienta de reporting comercial, me fijo solo en los datos comerciales y pinto solo los datos comerciales. El problema es que cuando quiera hacer un proyecto que me vaya a buscar cuál es el volumen de la carga de trabajo que tengo para producir a nivel de producción tendré entonces que hacer un proyecto totalmente desde cero para abordar esa respuesta. Si no lo has pensado con esta visión de crear un sistema informacional que te integra todos los datos y que los puedes utilizar para distintos propósitos, acabas siendo muy ineficiente a la hora de hacer varios proyectos. Si, en cambio, optas por un modelo, que es lo que están haciendo las grandes empresas digitales, de hacer bien estructurado este lago de datos, del que vas sacando todos tus análisis y modelos predictivos, lo que haces para una aplicación te sirve también para otra, lo que te permite ser más eficiente en el despliegue de nuevas tecnologías.

¿Hacia dónde tiene que ir la pyme en el análisis de datos? Empezar por el principio y no por el tejado, no haciendo un super algoritmo de Reinforcement Learning hiper sofisticado que lo decide todo y te da mucho dinero, porque la magia no existe. Se tiene que empezar por el principio y la recomendación es estructurar este sistema informacional que nos estructura bien, con tablas, lo que es nuestro negocio, con un propósito claro de qué es lo primero que quiero visualizar, pero yendo paso a paso y a partir de aquí ir enriqueciendo este modelo de datos corporativo y generando nuevos casos de uso, ya sean de visualización, automatización, modelos matemáticos que nos ayuden a prever cosas o a dar mejores recomendaciones a nuestros clientes. En este modelo iterativo construido desde un modelo que tiene una visión de escalar y poder ir acomodando varios desarrollos la pyme podrá sacar el potencial de los datos. Si no, siempre va a ser demasiado caro hacer un proyecto que sea rentable por sí mismo.

Ahora, ya que la mayoría de las tecnologías hablan bastante entre ellas, es decir, que tienen mayor facilidad para sacar el dato e integrar uno nuevo e interconectarse entre ellas, hay mucho potencial en la pyme para montar este sistema ya apalancado en la nube, que la hagan estar al nivel de grandes corporaciones con un esfuerzo mínimo en comparación con lo que les costó a estas hace tan solo cinco o diez años atrás.

¿Cómo ve el desarrollo de la IA aplicado a la robótica y los efectos que esto puede tener en la creación y destrucción del empleo?

Incluso nosotros los data scientists antes montábamos los modelos desde cero y ahora nos apalancamos en modelos que ya existen y lo que hacemos es que los calibramos. La tendencia es a tener más herramientas que te ayuden en esto, reduciendo el time to market. El rol de la persona en tendrá que ir siendo cada vez más el de coger el dato ya procesado, confeccionado y preanalizado, poniéndole el componente humano de mayor creatividad, mayor análisis y mayor valor añadido.

Creo que va a desaparecer la parte del empleo que estaba muy dedicada a hacer puras transformaciones del dato para generar un reporting. Como pasó en la Revolución Industrial cuando determinadas tareas humanas que eran más mecánicas se tuvieron que reinventar. La persona ha ido virando a un mundo de servicios en el que va haciendo tareas de valor añadido, creo que con el tema de la Inteligencia Artificial va a pasar una cosa similar. Creo que esto inevitablemente va a destruir más empleo que a crearlo y por ello es absolutamente urgente y totalmente necesario que veamos cómo reformular el sistema capitalista a nivel de mercado de empleo en un contexto en el que probablemente no haya empleo para todos. Es fundamental reflexionar sobre cómo debe ser la carga impositiva en empresas que se aprovechan del mercado, generando mucho valor con poco esfuerzo. Ahí hay un debate que debe abrirse y que evidentemente requerirá de cambios.

¿Cómo ha cambiado su negocio a consecuencia de la pandemia? ¿Hay más interés por el dato ahora que antes?

Notamos el gran parón, como todos, cuando se congelaron todas las inversiones. Ahora notamos que el mercado se ha reactivado. Lo que veo, sobre todo cuando hacemos formación de nuestra tecnología con nuevos usuarios, es que las personas han ganado en habilidad tecnológica en este último año. Antes la gente te hacía preguntas más obvias. Y esto nos genera menor barrera de entrada en la parte cultural, lo que es muy importante, porque la razón del fracaso de muchos proyectos acaba viniendo por el componente meramente cultural. Tampoco ha habido un cambio drástico por la pandemia en el interés por el dato. Es una tendencia que ya iba creciendo.

Pero se advierte un aumento de data centers en España…

Un data center es para analítica de datos, pero también para procesamiento de datos y para aplicaciones transaccionales. El data center que Amazon va a montar en Aragón es para cualquier tipo de tecnología que se apalanque en Amazon Web Services (AWS). Es más el tema de la digitalización que claramente con la pandemia ha explotado y nosotros estamos en esa cadena de la digitalización. Que se acelere nos ayudar a acelerar.