Análisis del componente principal para reducir datos de radiación solar, caso de estudio Monterrey, Nuevo León
JORGE LUIS TENA GARCÍA*, LUIS FABIÁN FUENTES CORTÉS*,
LUIS MIGUEL GARCÍA ALCALÁ*
CIENCIA UANL / AÑO 25, No.113, mayo-junio 2022
El estudio de variables meteorológicas conlleva el manejo de grandes cantidades de mediciones, lo que genera bases de datos densas con características estocásticas, es decir, con débil correlación entre los datos registrados (Kettaneh, Berglund y Wold, 2005). En general, es muy común utilizar la mayor cantidad de datos disponible para garantizar que se está estudiando adecuadamente cada variable implicada (Cadenas y Rivera, 2010). Particularmente la radiación solar (RS), que puede ser explotada para producir energía eléctrica y es muy susceptible a los cambios de las condiciones meteorológicas (Tiwari, Tiwari y Shyam, 2016). Esto implica que, a pesar de tener una noción certera de la energía solar disponible para cada hora de cada día del año para un cierto punto geográfico, existen variaciones que deben ser consideradas en los cálculos asociados al diseño y operación de sistemas que funcionan con energía solar, particularmente sistemas fotovoltaicos y plantas termosolares (Rangel et al., 2020).
En general, se recomienda contar con, por lo menos, un año completo de mediciones de las variables meteorológicas. Esto permite identificar el comportamiento de la variable durante diferentes periodos del año (Cadenas et al., 2019). Además, cada set de datos de cada variable de entrada de un sistema energético (SE) dependiente de parámetros meteorológicos como la RS, con frecuencia del registro de mediciones que varía desde tomas de datos cada hora hasta tomas de datos por fracciones de minuto, lo que produce bases de datos densas (Martínez-Álvarez et al., 2015).
Los modelos de optimización empleados para definir el dimensionamiento o los criterios de operación de un SE son susceptibles a la calidad de datos de entrada suministrados. Un modelo que haya sido validado con datos poco confiables no representará correctamente la realidad. Mientras que un modelo que haya sido validado con bases de datos reales muy densas provocará elevados costos computacionales. Por esto, existe esa búsqueda por encontrar el equilibrio en el que una base de datos sea suficientemente representativa para lograr un correcto desempeño del modelo y simultáneamente sea suficientemente pequeña para que no signifique un alto costo computacional. Por estas características, es un objetivo común en trabajos de investigación reducir el número de datos que se ingresan en modelos matemáticos o numéricos de optimización de los SE, buscando mantener suficiente información de los datos de entrada, de manera que sean representativos de la muestra real (Kettaneh, Berglund y Wold, 2005). Esto beneficia al operador de estos modelos, ya que simplifica y aligera el proceso de cálculo relacionado con los SE, conforme se reduce la información de entrada, favoreciendo un procesamiento más eficiente y con menor costo computacional (Rı, 2012).
En el caso que se revisa en este trabajo, se utiliza un algoritmo que permite la reducción de la información de una base de datos de radiación solar: el análisis de componente principal (ACP). Las mediciones corresponden a una estación meteorológica ubicada en Monterrey, Nuevo León. Las variables que se registran en la estación meteorológica son Temperatura ambiente, Radiación solar global, Velocidad de viento, entre otras. Las características del equipo que mide la radiación solar global empleada en este estudio pueden encontrarse en la ficha técnica del producto (Fluke Corporation, 2020). Para lograr la reducción deseada se aplicaron algunos criterios heurísticamente, logrando disminuir significativamente la densidad de los datos de entrada conservando mucha de la variabilidad de los datos originales.
GENERALIDADES DEL ANÁLISIS DE COMPONENTE PRINCIPAL (ACP)
El análisis de componente principal (PCA, por su acrónimo en inglés, Principal Component Analysis), aquí ACP, es una técnica estadística que permite identificar aquellos valores que representan mejor las características de una cierta base de datos analizada, debido a que se descomponen medidas reales en m componentes principales (CP), los cuales representan diferentes porcentajes de la varianza de los datos analizados (Wang y Xiao, 2004).
Inicialmente se tiene una matriz X con k filas o mediciones y n columnas o dimensiones. El objetivo de aplicar ACP a un conjunto de datos de n dimensiones es hacer una reducción del número de datos necesarios para modelar el comportamiento de una determinada variable utilizando menos dimensiones, pero manteniendo cierta representatividad de los datos originales (Islas Arizpe et al., 2007).
En ACP se busca una correlación lineal de las columnas de la matriz X con la máxima varianza, esta combinación lineal está dada por , donde a es un vector de constantes a uno con a1 ,a2 ,…,ap. La varianza de dicha combinación lineal está dada por var(Xa) = a‘Sa, donde S es la matriz de covarianzas (Jollife y Cadima, 2016).
Posteriormente se calcula la matriz de covarianzas (S): encontrando aquellos eigenvectores de la muestra que tengan los m eigenvalores mayores para colocarlos como las columnas de dicha matriz que se forma realizando las operaciones con la matriz de carga U (S= U⋀UT) también puede expresarse como: