| Title:* | ||||||||||||||||||||
| Colegio
de Ingenieros de Venezuela Sociedad
de Ingeniería de Tasación de Venezuela (SOITAVE) METODOS
ESTADISTICOS APLICADOS A LA VALUACION DE
BIENES INMUEBLES II PARTE:
Análisis de Variables Múltiples Ing. Roberto Piol
Puppio CIV 32.290 SOITAVE 260 I INTRODUCCION 1.0 En la práctica se observa que existe una relación entre dos o más variables, como por ejemplo la relación que existe entre el área de los terrenos y sus respectivos precios unitarios. 2.0 Lo ideal sería expresar esta relación mediante una expresión matemática, es decir hallar una ecuación que ligue las variables. Por lo tanto el problema reside en encontrar un modelo que se ajuste lo mejor posible a la muestra seleccionada. 3.0 Una vez encontrada la ecuación de la curva o modelo que más ajusta los datos obtenidos, se deberá calcular por algún modo una medida que indique la bondad del ajuste de la curva. 4.0 Sin embargo, la decisión del valor más representativo de una muestra de datos, está basada sobre la relación existente entre los valores que se conocen y los valores que se van a estimar, esto se conoce como “Estudio de Correlación”. 5.0 Se define como Regresión al estudio de la fuerza, consistencia o grado de asociación de la correlación de n variables independientes. El Análisis de Regresión determina la naturaleza de la correlación y permite realizar la correspondiente Predicción. II ANALISIS DE REGRESION SIMPLE 1.0 El problema de ajustar una curva a una serie de datos, consiste en primer término determinar la Familia de Curvas que mejor describe el fenómeno. Posteriormente realizada esta decisión se procederá a encontrar los parámetros de la curva correspondiente. 2.0 El Análisis de los Mínimos Cuadrados 2.1 En la siguiente gráfica se ha dibujado una curva (una línea recta en este caso) de una familia de curvas preseleccionadas y un grupo de datos. 2.2 Se han medido la diferencia entre la ordenada de cada punto y la función. 2.3 Una forma de seleccionar la curva que mejor representa el grupo de puntos, es elegir aquella que para la cuál sea menor el promedio de las diferencias de las ordenadas. Otra forma sería en hacer que tenga mínima la suma de las diferencias, tomadas en valor absoluto. 2.4 por lo tanto el Método de Ajuste de los Mínimos Cuadrados consiste en determinar los parámetros de una curva, de manera que la suma de los cuadrados de las diferencias mencionadas sea la menor posible.
3.0 LA RECTA DE REGRESION MINIMO CUADRATICA 3.1 El tipo mas sencillo de curva de aproximación en la línea recta cuya ecuación puede escribirse: Y = a + b*X 3.2 La recta de aproximación por mínimos cuadrados del conjunto de puntos (x1,y1), (x2,y2)...(xn,yn) tienen las ecuaciones normales siguientes:
3.3 Estas ecuaciones representan que la Suma del cuadrado de las desviaciones es mínima y se obtienen haciendo la primera derivada con respecto a A y la primera derivada con respecto a B igual a cero en la ecuación de la curva (recta) de mínimo cuadrado:
3.4 Resolviendo el sistema de ecuaciones anterior se despejan los parámetros A y B de donde se obtienen sus respectivos valores:
EJEMPLO: Se quieren actualizar una serie de valores (Precios Unitarios de Terrenos) en un período de tiempo de 18 meses a fin de calcular (predecir) cuál será el precio unitario (Bs/M2) en el futuro. Para eso se analizaron los libros de Registro del Municipio Autónomo correspondiente y se obtuvieron la siguiente serie de datos:
X: o sea la Variable Independiente, representa el tiempo transcurrido en meses desde la primera operación de compra venta hasta la más reciente (18 meses mas tarde). Y: o sea la Variable Dependiente, representa el precio unitario en Bs/M2 correspondiente a cada operación revisada.
N = 6 (222.50 * 685) - (53 * 2,577.50) a = ----------------------------------------------- = 12.15 (6 * 685) - (53)^2 (6 * 2,577.50) - (53 * 222.50) b = ------------------------------------------------ = 2.82 (6 * 685) - (53)^2 Por lo tanto la ecuación de Correlación de la línea mínimo cuadrática de mejor ajuste será: y = 12.17 + 2.82 * x Ahora se puede predecir cuál será el comportamiento de la Variable Dependiente y (Precio Unitario) en función de la variable independiente x (Tiempo). Si se desea saber cuál será el valor esperado a los 20 meses de haberse hecho la primera observación (o sea la fecha del avalúo), se obtendrá para X = 20 y = 12.17 + 2.82 (20) = 68.57 [Bs/M2] 4.0 LA CURVA DE REGRESION EXPONENCIAL a.1 La familia de rectas (y =a + b x) y las familias de curvas exponenciales (y = a * b^x), son las ecuaciones de correlación simple mas utilizadas en la práctica. 4.2 Sin embargo se verá más adelante, el estudio de los métodos computarizados para la obtención de la familia de curvas de mejor ajuste en otros familias modelos también aplicables. 4.3 En este caso para correlacionar la muestra de datos obtenidas se estudiará una Ecuación Exponencial cuya expresión es:
4.4 Resolviendo el sistema de sus ecuaciones normales se obtienen las siguientes expresiones para los coeficientes a y b:
EJEMPLO En un caso similar al ejemplo anterior; se han obtenido el registro de operaciones de compra-venta de terreno en los últimos 20 meses:
En este caso x (la Variable independiente) seguirá siendo el tiempo (MESES) ý y (la variable dependiente) el Precio Unitario (Bs/M2).
n = 8 (11.8205)*(1,334) - (90)*(148.4355) log A = -------------------------------------------------- = 0.9367 (8) *(1,334) - 90^2 (8)*(148.4355) - 90*(11.8205) log B =-------------------------------------------- = 0.0481 (8) *(1,334) - 90^2 PERO AUN FALTAN CALCULAR LOS ANTILOGARITMOS a = Antlg (0.9367) = 8.6437 b = Antlg (0.0481) = 1.1171 La ecuación de correlación será:
En este ejercicio no solo se podrá predecir el valor unitario del terreno a la fecha del avalúo, sino también se podrá interpolar para meses en que no han existido operaciones de compra-venta o cualquier mes seleccionado: Por ejemplo se podrá obtener el precio unitario para: a) Interpolar el valor unitario a los 12 meses después de la fecha de origen b) ídem para 17 meses c) Predecir el valor unitario a los 22 meses
5.0 EL COEFICIENTE DE DETERMINACION El Coeficiente de Determinación, mide la bondad del ajuste relativo de la curva de regresión. Indica la cantidad de variación en Y que se explica en la ecuación de regresión.
5.2 Desviación Total de Y Es la diferencia entre el valor observado (datos) y el promedio de los valores observados:
5.3 Desviación No Explicada Corresponde al Error o Residual y se define como la diferencia entre el valor observado y el valor calculado:
5.4 Desviación Explicada Corresponde a la diferencia entre el valor calculado y el valor promedio:
5.5 Relación entre los términos anteriores Se cumplirá que: Desviación Total = Desv. No Explicada + Desv. Explicada
5.6 Dentro de la Teoría de los Mínimos Cuadrados que estamos utilizando, considerando que se eleven al cuadrado cada una de las desviaciones y sumando todos los valores correspondientes a los N datos u observaciones, se obtienen los siguientes Estadísticos: a) SCT o Suma de Cuadrados Total
b) SCE o Suma del Cuadrado del Error
c) SCR o Suma del Cuadrado de la Regresión
5.7 De la misma manera anterior, se cumple la relación: SCT
= SCE + SCR 5.8 El Coeficiente de Determinación: Se define como coeficiente de determinación:
DESPEJANDO:
DONDE EL COEFICIENTE DE DETERMINACION TOMA VALORES COMPRENDIDOS EN EL INTERVALO: [0 , 1] 5.9 Interpretación del Coeficiente de Determinación: Un valor de R^2 = 0.75, debe interpretarse que el 75% de las variaciones de y (Muestra), son explicadas por las variables y número de datos utilizados para calcular el modelo. Se preferirá siempre el Modelo cuyo Coeficiente de Determinación sea lo más cercano a la unidad (1.00). 5.10 El Coeficiente de Correlación: Se define como Coeficiente de Correlación r como:
su interpretación es la misma que el Coeficiente de Determinación y sus valores estarán comprendidos en el intervalo: [ -1 , 1 ] EJEMPLO: Sean los siguientes datos correspondientes al ejemplo anterior:
ECUACION DE CORRELACION:
5.11 El Estadístico F (Test de Fischer) El estadístico F corresponde una prueba o hipótesis para rechazar o aceptar la predicción de la correlación y así como el Coeficiente de Determinación nos ayuda a decidir entre varias curvas de regresión, el estadístico F nos dirá si los datos y variables tomadas son significativas o no; y es la forma de validar la ecuación o modelo de correlación. Es precisamente el Estadístico F, quien indica la cantidad de datos o variables mínimas que se requieren para que la Regresión exista.
El Estadístico F, se compara con el valor de “F de prueba” (Fo), el cual se determina en la tabla que se anexa. El valor de F será grande, cuando la regresión es significativa y obligatoriamente deberá ser mayor que Fo para que el modelo sea válido. Si F es menor que Fo, deberán reestudiarse los datos ya que los datos y variables seleccionadas, no son suficientes o significativas para calcular un modelo de regresión que pueda predecir el comportamiento de la variable dependiente con relación a la independiente. Cálculo del Estadístico F:
DONDE: k = Nro. de variables independientes n = Nro. de observaciones EJEMPLO: En el ejemplo anterior, vamos a proceder a validar el modelo, el único dato faltante para calcula el Estadístico F, es SCE, sin embargo es fácilmente deducible partiendo de la relación: SCT = SCE + SCR SCT = 4,846.88 SCR = 4,226.52 SCE = SCT - SCR SCE = 620.36 k = 1 (NRO: DE VARIABLES INDEPENDIENTES) n = 8 (NRO: DE OBSERVACIONES)
EN LA TABLA ANEXA: k = 1 n - (k + 1) = 6 Fo = 5.99 (Para una Confianza del 95%) F > Fo POR LO TANTO SE VALIDA LA REGRESION PARA UNA CONFIANZA DEL 95% 6.0 MULTICOLINEALIDAD: La Matriz de Correlación El problema de Multicolinealidad se presenta cuando entre las Variables Independientes existen relaciones lineales entre algunas de ellas; es decir las Variables Independientes están relacionadas entre sí, unas dependen de las otras. Cuando se presenta el problema de multicolinealidad entre las variables independientes, el sistema de ecuaciones normales (que permitió obtener el valor de los coeficientes a, b, c..., n de la ecuación de regresión mínimo-cuadrática) no permite obtener una solución única para cada uno de los parámetros de la función de regresión. El problema de la multicolinealidad afecta a la descripción del modelo de regresión múltiple, ya que significa que todos los datos se encuentran sobre una misma línea recta y por lo tanto no existe un plano óptimo en el sentido mínimo cuadrático; sino los infinitos que pasan por dicha recta. La multicolinealidad en una serie de datos se mide a través de la Matriz de Correlación. La Matriz de correlación permite conocer la tendencia y magnitud de la relación lineal o asociación entre las variables independientes. El modelo de regresión se vuelve cada vez menos confiable a medida que aumenta la correlación entre dichas variables independientes. La Matriz de Correlación tiene las siguientes características físicas: a) Es una Matriz Unidad: La diagonal principal de la misma es la unidad (1.00). b) Es una Matriz Simétrica: Ambos lados de la diagonal principal son antimétricos, de tal manera que si la matriz se “doblara” por la diagonal principal coincidirán los coeficientes. Los Coeficientes de Correlación Los Coeficientes de Correlación indican el grado y tipo de asociación entre las variables. a) Si el coeficiente de correlación es positivo, indica que una de las variables esta directamente relacionada con la otra. b) Si el coeficiente de correlación es negativo, indica que una de las variables esta inversamente relacionada con la otra. c) La mantisa del coeficiente de correlación indica la magnitud de la relación entre las variables. En general se puede señalar que:
6.4 Se define que existe Multicolinealidad entre dos variables independientes cuando la correlación entre ambas es fuerte (r>0.75). Para solucionar el problema de multicolinealidad, se deberá eliminar de la regresión una de las dos variables independiente autocorrelacionadas, ya que al estar una en función de la otra no permitirá una solución aceptable de la regresión mínimo-cuadrática. El CRITERIO para el caso de un modelo de regresión múltiple donde dos (2) variables independientes estén altamente correlacionadas entre sí; es seleccionar cual de las dos Variable Independiente es la que tiene que salir del Modelo de Regresión. Para esto se utiliza el procedimiento estadístico denominado “ANÁLISIS FACTORIAL”; el cual trata de agrupar aquellas variables que se encuentren muy relacionadas entre sí (r>0.75) en un único factor, bajo el criterio de que las mismas a su vez estén poco correlacionadas (r<0.75) con el resto de las variables independientes que no estén incluidas en ese factor; de tal manera que se logre pasar de un modelo inicial de “n” variables independientes a otro modelo con “n-1” variables independientes, eliminando de esta manera una de las dos variables autocorrelacionadas. Para utilizar la Técnica Estadística “Análisis Factorial”, se utilizan paquetes estadísticos dedicados, como lo son el SPSS, Statgraphics, etc. El manejo de estos paquetes estadísticos, se sale del alcance de esta Monografía; ya que en la misma se utiliza como herramienta de desarrollo la Hoja de Cálculo Microsoft Excel (Versión 6.0 o superior). Sin embargo en el Apéndice 2; se presenta paso a paso un ejemplo del uso de esta técnica ante un juego de referenciales donde existe problema de Multicolinialidad entre dos variables independientes. Lo realmente importante, es que no pueden convivir (2) dos variables independientes autocorrelacionadas entre sí en un modelo de regresión; una de las dos debe salir. Ejemplo: La hoja de cálculo Excel, generó la siguiente matriz de correlación de una muestra de datos:
En la Matriz de Correlación se observa: La Diagonal Principal es la Unidad. El Software utilizado solo mostró la parte inferior de la matriz de correlación, ya que la parte superior es antimétrica a esta. Solamente existe una Correlación Fuerte e Inversa (Problema de Multicolinealidad) entre las variables independientes: FECHA y %COND. No se deberán tomar en cuenta los coeficientes de la primera columna CTE (Constante), ya que solo interesa conocer la correlación entre las Variables Independientes únicamente Para poder obtener una solución aceptable al modelo de correlación mínimo-cuadrática, se deberán eliminar de los datos una de las dos variables que presentan problemas de multicolinealidad. III USO DE LA HOJA DE CALCULO EXCEL EN LOS ANALISIS DE REGRESION SIMPLE 1.0 En esta Sección se orientará al uso de los microcomputadores para la solución de problemas de correlación simple aplicado a la materia de avalúos. En ningún momento pretende ser un curso de computación ya que únicamente se expondrán los métodos frecuentemente usados. El alumno deberá aplicar por su cuenta, en sus equipos y corriendo en su Hoja de Cálculo Excel, que forma parte del paquete “Microsoft Office” la metodología que aquí se explica. 2.0 —La Hoja de Cálculo Excel (Versión 6.0 o superior) Con los conocimientos aquí suministrados es posible calcular a través de las funciones de regresión de la hoja de cálculo Excel: a) Los coeficientes de correlación b) El Estadístico F c) El Coeficiente de Determinación (R²) d) SCR e) SCT f) Errores Estándar g) Otros factores Lo importante está en ser cuidadosos en la entrada de los datos y obtener una salida presentable que sirva como anexo al avalúo donde se aplique este procedimiento. EJEMPLO: Se desea obtener el valor de una vivienda rural de 80 M2 y 20 años de construida y se observa que se deberá corregir por edad una serie de datos correspondientes a viviendas rurales. En la correspondiente Oficina de Registro Subalterno se obtuvieron los siguientes grupos de datos:
Salta a la vista que debe existir una relación entre la Edad y el Precio unitario de la vivienda rural ya que todas son de idéntica área y están ubicadas en el mismo parcelamiento. Por lo tanto obligatoriamente se debe deducir la forma en que se correlacionan ambas variables. Se considerará como variable independiente X [años] y como variable dependiente Y [Bs/M2]. La salida de la Hoja de Cálculo Excel podrá ser parecida a la siguiente:
Viendo los resultados de la salida de la hoja de cálculo, el Modelo de Correlación Lineal será el siguiente: Y = 122,552,211.30 - 3,276.90418 * X Sustituyendo X=20 años (Edad del Inmueble) se obtiene: Y = 122,552,211.30 - 3,276.90418 * (20) [Bs/M2] Y = 57,014.13 [Bs/M2] y el Valor del inmueble será:
3.0 El uso de los Paquetes Estadísticos en los Informe de Avalúos La mayoría de los paquetes estadísticos son complejos, difíciles de usar, caros y la mayoría de los datos que nos suministran no nos interesa en absoluto al momento de hacer un avalúo. Sin embargo, su utilización cada día es mayor y su versatilidad nos permite llegar en forma extremadamente rápidas a resultados. Existen en el mercado una gran variedad de Paquetes Estadísticos mas o menos complejos para cada tipo de Sistema Operativo (DOS, Windows, McIntosh, Linux, Unix, OS2, etc.), Sin embargo, en los últimos años, los paquetes integrados como MS-Office (Excel), Lotus Smart Suite (Lotus 123) y Smart Office (Q-Pro), ha mejorado sus aplicaciones estadísticas, de tal forma que se han transformado en los preferidos de los usuario. En el ejemplo siguiente se utiliza el Paquete Estadístico STATGRAPHICS, que es quizás uno de los programas más conocidos y completos en su categoría. No se ensañará su uso, sino se analizarán las salidas a fin de comprender su significado e interpretación en los problemas valuatorios. EJEMPLO Se quiere estudiar el valor de una parcela de terreno de 300 M2. Se encontraron en la misma urbanización referenciales de parcelas de terreno vecinas y utilizando un paquete estadístico se procedió a obtener la ecuación de correlación que mejor explique el fenómeno.
SALIDAS DEL PAQUETE STATGRAPHICS:
ANALISIS DE LOS RESULTADOS:
Se concluye que le modelo que mejor explica el fenómeno del Valor de los Terrenos es el multiplicativo, ya que su Coeficiente de Determinación es el mayor.
Pero, el programador del paquete definió: LN a = 13.76, por lo tanto a será:
Quedando el modelo de la siguiente forma:
Sustituyendo para X = 300 M2:
y el Valor total de la parcela de terreno será: 300.00 M2 * 56,432.95 Bs/M2 =
16,929,886 Bs. IV REGRESION MULTIPLE 1.0 La mayoría de los casos en la vida real, para poder predecir la variación de una variable, no se hace en función de una sola variable independiente (Precio Unitario vs. Area, por ejemplo); sino mas bien son VARIAS las variables que son necesarias para predecir un comportamiento o fenómeno. 2.0 En este caso solamente se estudiará el caso de REGRESION LINEAL MULTIPLE[1], es decir una variable estará explicada en función de otras en forma lineal: Y = A + B X1 + C X2 + D X3 +...+ M Xn 3.0 Se puede tomar como ejemplo el caso del avalúo de un apartamento. Para esto se deberían considerar las siguientes variables:
y así sucesivamente se pueden estudiar las diferentes variables que ayudan a explicar el fenómeno, que en este caso sería LA VARIACION DEL PRECIO UNITARIO. 4.0 La metodología que se utiliza en la correlación lineal múltiple es similar o mas bien la misma que la que hemos estudiado en la correlación lineal simple. La dificultad está en obtener los parámetros de la ecuación, la cuál sin el microcomputador se hace muy engorroso o prácticamente imposible cuando superamos las tres variables, ya que habría que resolver el sistema de ecuaciones normales a través de matrices y determinantes. 5.0 Se explicará por la vía del ejemplo. Se utiliza en este caso la Hoja de Cálculo de Uso General: Microsoft Excel, que entre su funciones posee: Regresión Lineal Múltiple y Regresión Logarítmica Múltiple. EJEMPLO: I FACTORES DE LOCALIZACION DEL INMUEBLE 1.- Descripción General del Inmueble El inmueble objeto de este avalúo está representado por una casa quinta identificada como 6-3, Manzana 6, que forma parte del Sector identificado como “Aragua”, ubicado en el Conjunto Residencias Venezuela, Urbanización Coche, Caracas II CALCULOS Y MEDICIONES 1.- Area de Terreno y Construcción: Según el Documento de Propiedad: AREA APROXIMADA:
III FORMACION DEL VALOR 1.- Objetivo del Informe de Avalúo El objetivo de este Informe de Avalúo, es la determinación del valor del inmueble objeto de este estudio, de conformidad con las normas y procedimientos comúnmente aceptados por la Sociedad de Ingeniería de Tasación de Venezuela (SOITAVE).
4.0.-Implementación del Sistema de Correlación Múltiple como Método Valuatorio 4.1 Es común observar una relación entre dos o más variables cuando se analizan una serie de “Inmuebles Referenciales” para una zona o región determinada. Por ejemplo, los Precios Unitarios y las Areas de Terreno; en estas dos variables existe una relación inversa de proporcionalidad; a mayor área menor precio unitario. Lo ideal sería expresar estas relaciones mediante una expresión algebraica que sea capaz de interrelacionar las variables entre sí. Sin embargo, es casi imposible encontrar una función que se ajuste perfectamente a la serie de datos estudiados, por lo tanto se deberá buscar el “Modelo de Mejor Ajuste” que indique la tendencia de las diferentes variables consideradas en una Serie. Se deberá entonces acudir a Métodos Estadísticos complejos, a fin de poder determinar la Ecuación o Modelo que permitirá obtener “La Tendencia” en términos generales de una Serie de Datos, en virtud del incremento o disminución que tendrá una variable en función de la otra u otras. Estos Métodos Estadísticos son la Regresión Simple, cuando se trate de correlacionar dos (2) Variables (una Dependiente y una Independiente) y la Regresión Múltiple, cuando se trate de correlacionar Una (1) Variable Dependiente y “n” Variables Independientes. 4.2.- Reglas en el Empleo del Método de Correlación Múltiple en el Proceso Valuatorio 4.2.1.- Se considerará siempre como Variable Dependiente, el Precio Unitario (sin corregir) de una serie de referenciales, y deberá siempre estar expresada en Bs/M2 (Unidad Monetaria / Area). 4.2.2.- Las Variables Independientes numéricas, tales como el área del terreno, el área de construcción, la edad del inmueble etc., podrán ser enteradas libremente en las ecuaciones de correlación. 4.2.3.- Otras Variables, que no puedan ser expresadas algebraicamente tal como el tiempo transcurrido entre la protocolización y la fecha del avalúo, deberán ser transformada a una expresión numérica; una vez obtenida la expresión numérica podrán ser enteradas en las ecuaciones de correlación. 4.2.4.- Se presenta a veces el caso, de que no es posible obtener todas las variables de un referencial por diversas razones, siendo principalmente: La información incompleta del inmueble en el Documento Protocolizado en la Oficina de Registro Público. En estos casos, el Software Estadístico podrá generar automáticamente la predicción de la variable o variables faltantes, permitiendo continuar el proceso de correlación. 4.2.5.- Se utilizará para el cálculo de los coeficientes de correlación, los valores calculados y los coeficientes de determinación la hija de cálculo Excel. 5.0. Preparación de los datos a correlacionar Hay que tener especial cuidado en la trascripción de los datos dentro de la hoja de cálculo o Programa Estadístico. Se ha comprobado que la mayoría de las veces los errores ocurren por una o varias equivocaciones en la trascripción de la data. 6.0 Determinación del Modelo de Correlación Preparación de los Datos a Correlacionar:
Salida de la Función de Regresión Múltiple Lineal:
Interpretación de los Resultados:
Cálculo de la Matriz de Correlación:
Interpretación de la Matriz de Correlación: No existe problemas de MULTICOLINIALIDA entre las Variables Independientes: Area de Terreno (X1) y Area de Construcción (X2). Se VALIDA el Modelo de Regresión Lineal Múltiple:
Utilizando la tabla de Puntos de Porcentaje de la Distribución F para una confianza del 95%, que se anexa a este informe, obtenemos el valor de Fo = 9.5 Valor que satisface el CRITERIO: F >> Fo por lo tanto se concluye que existe una regresión conjunta entre las variables incluidas en el Modelo y por lo tanto se puede afirmar que: Modelo de Correlación Múltiple Lineal: y = 28,237.7054 - 6.29879967 * X1 + 165.372264 * X2 Sustituyendo:
7.0 Aplicación General de la Metodología de Correlación Múltiple 7.1 En el ejemplo anterior, se obtuvo un Coeficiente de Correlación Alto, permitiendo lograr la solución del Modelo de Correlación Múltiple Lineal. 7.2 Sin embargo, en el campo de la valuación de inmuebles, la realidad es otra; debido a la alta dispersión de los datos referenciales obtenidos y a la falta de sinceridad en la Protocolización de los Documentos de Compra-Venta, es poco probable obtener un Coeficiente de Correlación alto al aplicar esta Metodología. 7.3 Para tratar de solventar este problema, se ha establecido un procedimiento que permite determinar cual es el problema que impide que exista la cohesión entre los datos referenciales. Este procedimiento se puede enunciar de la siguiente manera: a) Determinar cual es el modelo de mejor ajuste b) Determinar la existencia de Multicolinealidad entre las Variables Independientes c) Determinar la existencia de Valores Atípicos d) Validar la Regresión 7.3.1 Determinación del Modelo de Mejor Ajuste. La mayoría de las Hojas de Cálculo, Paquetes Estadísticos y algunas calculadoras científicas tienen la opción de ofrecer varios modelos o familias de curvas; pero las mismas se limitan al caso de correlación simple únicamente. Para el caso de Correlación Múltiple, la situación es invertida: Casi ningún software permite el estudio de Correlación Múltiple No Lineal (de manera simple). Quizás la única Hoja de Cálculo que tiene un modelo de regresión múltiple logarítmica, además del modelo lineal, es el MS-EXCEL versión 6.0 o superior. Conocido lo anterior, es muy poco o nada lo que pueda hacerse sin contar con varios modelos de correlación múltiple en función de buscar el modelo de regresión que mejor se ajuste a los datos, o sea el que posea un coeficiente de determinación significativo. 7.3.2 Determinación de la existencia de Multicolinealidad entre las Variables Independientes. El caso de la Multicolinealidad, se estudió con detalle en las páginas anteriores. Para el caso de Correlación Múltiple, la aplicación de la Matriz de Correlación permite determinar la existencia de Variables Independientes que están en función de otras, obligando a la eliminación de una de las variables correlacionadas. Es importante de señalar, que la existencia de Multicolinealidad entre Variables Independientes, debe verificarse, aún si el Coeficiente de Determinación de la Regresión Múltiple sea cercano a 1.0, ya que este hecho no necesariamente implica la inexistencia de problemas de Multicolinealidad en la regresión. 7.3.3 Determinación de la existencia de Valores Atípicos. Se definen como “Valores Atípicos”, aquellos valores que no perteneciendo a la serie estudiada, forman parte de la muestra recolectada. En un sistema de registro público insincero, donde una gran cantidad de operaciones de compra-venta de inmuebles no están sujetas a la realidad, es muy común la presencia de “Valores Atípicos” en la Serie de datos referenciales estudiada. En la estadística de Regresión, se define como “Residuo” o “Residual”, a la diferencia entre los valores observados en la serie y los valores calculados o estimados de la regresión:
Gráficamente, para una Correlación Simple, se puede observar que existen valores Xi muy cercanos a la curva de regresión, mientras que otros están muy alejados.
En el caso de Correlación Múltiple, donde no se habla de curvas de regresión, sino mas bien de Planos de Regresión, si se correlacionan Tres variables; es muy difícil representar gráficamente los Valores Observados en relación con el plano de correlación para sistemas de Tres Variables:
Sin embargo, es imposible la representación gráfica cuando existen mas de tres variables, ya que estaríamos fuera del espacio; por eso se habla de Hiperplanos de Correlación, que aunque no pueden ser representados gráficamente (o físicamente), existen matemáticamente. La representación de los valores atípicos en planos o hiperplanos de correlación, es posible de visualizar mediante el siguiente procedimiento: a) Se define el Eje de las Ordenadas (Y) para representar los valores observados ( y ), (En el caso de avalúos: el Precio Unitario). b) Se
define el Eje de las Abscisas (X) para representar los valores calculados o
estimados c) Se
define una recta bisectriz d) Se
plotean los puntos
Los valores que mas alejados de la curva de regresión, son los que se definen como “Valores Atípicos”. Estos datos, que por definición no pertenecen a la Serie estudiada, deberán se eliminados a fin de obtener un mejor ajuste en la regresión (un R^2 mas alto). El problema se presenta en determinar cuantos valores atípicos hay que eliminar de la serie, y que a su vez no altere sustancialmente el fenómeno estudiado (comportamiento del mercado en nuestro caso); si se eliminaran todos los valores atípicos de la serie, mas bien estaríamos “forzando” a unos datos a que encajen en un modelo, y lo que realmente se busca: Es el modelo que “mejor se ajuste (explique)” los datos de la muestra seleccionada. 7.3.4.- Procedimiento Analítico para la detección de Valores Atípicos Analíticamente, se consideran Valores
Atípicos, aquellos datos cuyos residuos Para poder aplicar este procedimiento se deberá suponer que la muestra de los referenciales se distribuye de manera “Normal”[2]. Una vez acordado la hipótesis anterior,
se deberá calcular aquella desviación estándar que cumpla con la condición:
Todo dato ubicado fuera del rango Donde la probabilidad (p) se calcula:
Siendo “n” el número de datos de la serie de referenciales seleccionados.
Aquellos datos que se ubiquen debajo de las dos “colas”, se consideran atípicos. Para
conocer el inicio de cada una de las colas, debemos calcular en número de
desviaciones estándar La función que genera el coeficiente (k), se denomina: “Distribución Normal Estándar Inversa” (IDF) y se calcula por medio de una subrutina presente en la hoja de cálculo Excel dentro de las funciones estadísticas[3] Ahora bien, habiendo calculado los
residuos Se definirán como “Valores Atípicos”
todos aquellos datos que cumplan con la condición de que el Valor Absoluto de
su residuo, se aleje
Estos Valores Atípicos, serán eliminados de la serie de referenciales; y se volverá a correr la Regresión Múltiple con los datos remanentes. 7.3.5.- Método Empírico: La práctica aconseja que el máximo de datos o valores atípicos que pueden ser eliminados de una serie, sin que la misma se altere sustancialmente, es de un 20 a 25% de los valores. Adicionalmente se recomienda que la totalidad de los valores atípicos de una serie no deben se eliminados de una sola vez, sino por lo menos en dos corridas: Primero se elimina el 50% de los valores atípicos, se vuelve a correr el software de Regresión Múltiple, se chequea el R² y si no es satisfactorio se elimina el 50% restante y se vuelve a correr. 7.3.6.- Validación: de la Regresión Una vez eliminados los Valores Atípicos de la serie, se deberá comprobar si el Número de Datos y Variables Independientes que quedan en el modelo cumplen con el Test de Fisher (Estadístico F o Prueba F). Para esto se vuelve a correr la serie de datos remanentes. De la salida del software se ubicará en valor del Estadístico F y se comparará con el Fo (F de prueba); que deberán cumplir con el criterio que F >>Fo para poder validar la regresión. 7.3.7.- Alcance del Método: Por supuesto, todas las recomendaciones vistas en el Apartado 7.3, no garantizan la seguridad de poder determinar y validar la regresión múltiple. Para el caso valuatorio; si no es posible determinar el modelo satisfactorio para explicar el fenómeno estudiado; no queda otro camino que el de realizar la valoración por la metodología de Mercado Clásico, ajustando los referenciales a las correcciones y criterios del ingeniero tasador. EJEMPLO PRACTICO: Durante el último trimestre, se registraron los siguientes inmuebles, correspondientes a Apartamentos de una misma urbanización de interés social:
a) Utilizando la hoja de cálculo MS-Excel, se presenta la Salida de la subrutina de regresión múltiple lineal, de donde se obtiene: i.- Coeficientes del modelo de regresión múltiple lineal: ii.- Estadístico F iii.- Coeficiente de Determinación R^2 iv.- Otros datos estadísticos NOTA: El paquete utilizado solo tiene definido algoritmos para el cálculo de Correlación Múltiple Lineal y Correlación Múltiple Logarítmica; por lo tanto no será posible determinar otro modelo de correlación diferente a los anteriores que explique mejor el fenómeno. 1) Modelo de Regresión Múltiple Lineal:
De igual forma, se llama desde la hoja de cálculo la Subrutina de regresión múltiple logarítmica de donde se obtiene la salida siguiente: 2) Modelo de Regresión Múltiple Logarítmica:
Tal como se observa, los Coeficientes de Determinación (R^2) es para cada uno de los modelos:
sin embargo, el Coeficiente de Determinación del Modelo Lineal es ligeramente superior al del Modelo Logarítmico. Por lo tanto, se elegirá al Modelo de Regresión Lineal, por tener el Coeficiente de Determinación mas alto. Sin embargo, el modelo lineal solo explica algo mas del 26% del fenómeno a ser estudiado. Por lo tanto, a esta altura del ejemplo, la correlación no existe. Existen por lo menos Dos (2) posibles causas de este bajo coeficiente de determinación (R^2): a) La existencia de Multicolinealidad entre las Variables Independientes b) La Existencia de Valores Atípicos en la serie de referenciales seleccionados. Para determinar si existen problemas de
Multicolinealidad entre las variables independientes, se presenta la salida que
corresponde a la Matriz de Correlación:
Se puede apreciar en la Matriz de Correlación, que entre las Variables Independientes AREA (X1) y EDAD (X2), existe una correlación MEDIA e INVERSA, no detectándose problemas de Multicolinealidad entre las Variables Independientes. Habiendo descartado problemas de multicolinialidad, se presume que el bajo Coeficiente de Determinación calculado al modelo, es consecuencia de Valores Atípicos en la serie de referenciales. Por lo tanto se procederá a calcular los Residuos para determinar dichos valores.
Se procede a determinar los Valores Atípicos: a) Procedimiento Analítico: 1. Se calcula la probabilidad 2. Se calcula (k) a través de la función de la hoja de cálculo Excel: “Distribución Normal Estándar Inversa” (IDF) 3. Se obtiene la Desviación Estándar de la Regresión de la salida de la
Regresión Múltiple Lineal 4. Se calcula el factor
Se procede a determinar cuales son los
datos que el Valor Absoluto de su residuo es mayor a
Donde
Comprobamos a través del Método Empírico: Siendo 12 los datos de la serie de referenciales, el 25% de los mismos serán 3 datos, que es el número máximo de Valores Atípicos que se pueden eliminar. Ordenados de Mayor a menor estos serán:
Sin embargo, el procedimiento indica que por lo menos hay que eliminar estos Valores Atípicos en Dos (2) corridas. Por lo tanto, se eliminarán primeramente los referenciales “6” y “12” y se volverá a correr las subrutinas antes explicadas. Sin aún persistiera el problema, se procedería a eliminar el referencial “8” y volver a llamar las subrutinas de la Hoja de Cálculo. Una vez eliminados los referenciales “6” y “12”, la nueva serie de referenciales a procesar será:
Llamando nuevamente la subrutina,
llegamos a la nueva salida, donde se
indican los Coeficientes del
Nuevo Modelo de Regresión Lineal, el nuevo Coeficiente de Determinación y el
valor actualizado del Estadístico F.
El coeficiente de Determinación 0.99412436, indica una excelente correlación de los Diez (10) datos remanentes. Para validar la regresión procedemos a calcular el estadístico Fo en la tabla anexa:
Con esto queda validado el modelo de correlación múltiple, el cual queda expresado de la siguiente manera: y = 201261.5 - 983.999794 * X1 - 536.311263*X2 Rev.: Ene/2001 [1] También
se estudiará la Regresión Logarítmica Múltiple de la forma:
la
cual puede ser linealizada y resuelta como un caso especial de la Regresión Lineal Múltiple:
[2] EL Concepto de Normalida de una distribución, se explicó detalladamente en la Primera Parte (Análisis de una sola variable) de estos apuntes de estadística. [3] Para tener acceso a esta función: Clic sobre fx Estadísticas DISTR.NORM.ESTAND.INV.
La caja de diálogo solicitara que se entere la probabilidad (p) y la salida de la subrutina será el valor del coeficiente (k). | ||||||||||||||||||||
| Make by DOCtoHTML v1.30 |