Aproximación de datos experimentales. Método de mínimos cuadrados

El método de mínimos cuadrados (LSM) le permite estimar varias cantidades utilizando los resultados de muchas mediciones que contienen errores aleatorios.

multinacional característica

La idea principal de este método es que la suma de los errores al cuadrado se considera como un criterio para la precisión de la solución del problema, que se busca minimizar. Al utilizar este método, se pueden aplicar enfoques tanto numéricos como analíticos.

En particular, como implementación numérica, el método de los mínimos cuadrados implica realizar tantas mediciones como sea posible de una variable aleatoria desconocida. Además, cuantos más cálculos, más precisa será la solución. Sobre este conjunto de cálculos (datos iniciales), se obtiene otro conjunto de soluciones propuestas, de las cuales se selecciona la mejor. Si el conjunto de soluciones está parametrizado, entonces el método de mínimos cuadrados se reducirá a encontrar el valor óptimo de los parámetros.

Como enfoque analítico para la implementación del LSM sobre el conjunto de datos iniciales (medidas) y el conjunto de soluciones propuestas, se define unas (funcionales), que se pueden expresar mediante una fórmula obtenida como una cierta hipótesis que necesita ser confirmada. . En este caso, el método de los mínimos cuadrados se reduce a encontrar el mínimo de este funcional sobre el conjunto de errores cuadráticos de los datos iniciales.

Tenga en cuenta que no los errores en sí, sino los cuadrados de los errores. ¿Por qué? El hecho es que a menudo las desviaciones de las medidas del valor exacto son tanto positivas como negativas. Al determinar el promedio, la simple suma puede llevar a una conclusión incorrecta sobre la calidad de la estimación, ya que la cancelación mutua de valores positivos y negativos reducirá el poder de muestreo del conjunto de mediciones. Y, en consecuencia, la exactitud de la valoración.

Para evitar que esto suceda, se suman las desviaciones al cuadrado. Aún más que eso, con el fin de igualar la dimensión del valor medido y la estimación final, la suma de los errores al cuadrado se utiliza para extraer

Algunas aplicaciones de las multinacionales

MNC es ampliamente utilizado en varios campos. Por ejemplo, en la teoría de la probabilidad y las estadísticas matemáticas, el método se utiliza para determinar una característica de una variable aleatoria como la desviación estándar, que determina el ancho del rango de valores de una variable aleatoria.

Tiene muchas aplicaciones, ya que permite una representación aproximada de una función dada por otras más sencillas. LSM puede ser extremadamente útil en el procesamiento de observaciones y se usa activamente para estimar algunas cantidades a partir de los resultados de las mediciones de otras que contienen errores aleatorios. En este artículo, aprenderá cómo implementar cálculos de mínimos cuadrados en Excel.

Planteamiento del problema sobre un ejemplo concreto

Supongamos que hay dos indicadores X e Y. Además, Y depende de X. Dado que OLS nos interesa desde el punto de vista del análisis de regresión (en Excel, sus métodos se implementan mediante funciones integradas), debemos proceder de inmediato considerar un problema específico.

Entonces, sea X el área de venta de una tienda de comestibles, medida en metros cuadrados, y sea Y la facturación anual, definida en millones de rublos.

Se requiere hacer una previsión de qué facturación (Y) tendrá la tienda si cuenta con uno u otro local comercial. Obviamente, la función Y = f (X) es creciente, ya que el hipermercado vende más bienes que el puesto.

Algunas palabras sobre la exactitud de los datos iniciales utilizados para la predicción

Digamos que tenemos una tabla construida con datos para n tiendas.

Según las estadísticas matemáticas, los resultados serán más o menos correctos si se examinan los datos de al menos 5-6 objetos. Además, no se pueden utilizar resultados "anómalos". En particular, una pequeña boutique de élite puede tener una facturación muchas veces mayor que la facturación de los grandes puntos de venta de la clase "masmarket".

La esencia del método.

Los datos de la tabla se pueden mostrar en el plano cartesiano como puntos M 1 (x 1, y 1), ... M n (x n, y n). Ahora la solución del problema se reducirá a la selección de una función de aproximación y = f (x), que tenga una gráfica que pase lo más cerca posible de los puntos M 1, M 2, .. M n .

Por supuesto, puede usar un polinomio de alto grado, pero esta opción no solo es difícil de implementar, sino simplemente incorrecta, ya que no reflejará la tendencia principal que debe detectarse. La solución más razonable es buscar una línea recta y = ax + b, que mejor se aproxime a los datos experimentales y, más precisamente, a los coeficientes - a y b.

Puntuación de precisión

Para cualquier aproximación, la evaluación de su precisión es de particular importancia. Denote por e i la diferencia (desviación) entre los valores funcionales y experimentales para el punto x i , es decir, e i = y i - f (x i).

Obviamente, para evaluar la precisión de la aproximación, puede usar la suma de las desviaciones, es decir, al elegir una línea recta para una representación aproximada de la dependencia de X con Y, se debe dar preferencia a la que tiene el menor valor de la suma ei en todos los puntos considerados. Sin embargo, no todo es tan sencillo, ya que junto a las desviaciones positivas, prácticamente habrá otras negativas.

Puedes resolver el problema usando los módulos de desviación o sus cuadrados. Este último método es el más utilizado. Se utiliza en muchas áreas, incluido el análisis de regresión (en Excel, su implementación se lleva a cabo mediante dos funciones integradas) y ha demostrado su eficacia durante mucho tiempo.

Método de mínimos cuadrados

En Excel, como sabe, hay una función de autosuma incorporada que le permite calcular los valores de todos los valores ubicados en el rango seleccionado. Así, nada nos impedirá calcular el valor de la expresión (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

En notación matemática, esto se ve así:

Dado que inicialmente se tomó la decisión de aproximar usando una línea recta, tenemos:

Por lo tanto, la tarea de encontrar una línea recta que describa mejor una relación específica entre X e Y equivale a calcular el mínimo de una función de dos variables:

Esto requiere igualar a cero derivadas parciales con respecto a las nuevas variables a y b, y resolver un sistema primitivo que consta de dos ecuaciones con 2 incógnitas de la forma:

Después de transformaciones simples, que incluyen dividir por 2 y manipular las sumas, obtenemos:

Resolviéndolo, por ejemplo, por el método de Cramer, obtenemos un punto estacionario con ciertos coeficientes a* y b*. Este es el mínimo, es decir, para predecir qué facturación tendrá la tienda para una determinada área, la línea recta y = a * x + b * es adecuada, que es un modelo de regresión para el ejemplo en cuestión. Por supuesto, no le permitirá encontrar el resultado exacto, pero le ayudará a tener una idea de si comprar una tienda a crédito para un área en particular valdrá la pena.

Cómo implementar el método de mínimos cuadrados en Excel

Excel tiene una función para calcular el valor de los mínimos cuadrados. Tiene la siguiente forma: TENDENCIA (valores Y conocidos; valores X conocidos; valores X nuevos; constante). Apliquemos la fórmula para calcular el MCO en Excel a nuestra tabla.

Para ello, en la celda en la que se debe mostrar el resultado del cálculo por el método de mínimos cuadrados en Excel, introduzca el signo “=” y seleccione la función “TENDENCIA”. En la ventana que se abre, complete los campos correspondientes, resaltando:

  • rango de valores conocidos para Y (en este caso datos de facturación);
  • rango x 1 , …x n , es decir, el tamaño del espacio comercial;
  • y valores conocidos y desconocidos de x, para los cuales debe averiguar el tamaño de la facturación (para obtener información sobre su ubicación en la hoja de trabajo, consulte a continuación).

Además, hay una variable lógica "Const" en la fórmula. Si ingresa 1 en el campo correspondiente, esto significará que se deben realizar los cálculos, suponiendo que b \u003d 0.

Si necesita conocer el pronóstico para más de un valor x, luego de ingresar la fórmula, no debe presionar "Enter", pero debe escribir la combinación "Shift" + "Control" + "Enter" ("Enter" ) en el teclado.

Algunas caracteristicas

El análisis de regresión puede ser accesible incluso para tontos. La fórmula de Excel para predecir el valor de una matriz de variables desconocidas, "TENDENCIA", puede ser utilizada incluso por aquellos que nunca han oído hablar del método de mínimos cuadrados. Basta con conocer algunas características de su trabajo. En particular:

  • Si coloca el rango de valores conocidos de la variable y en una fila o columna, el programa percibirá cada fila (columna) con valores conocidos de x como una variable separada.
  • Si el rango con x conocido no se especifica en la ventana TENDENCIA, entonces, en caso de usar la función en Excel, el programa lo considerará como una matriz que consta de números enteros, cuyo número corresponde al rango con los valores dados de la variable y.
  • Para generar una matriz de valores "predichos", la expresión de tendencia debe ingresarse como una fórmula de matriz.
  • Si no se especifican nuevos valores de x, la función TENDENCIA los considera iguales a los conocidos. Si no se especifican, la matriz 1 se toma como argumento; 2; 3; 4;…, lo cual es proporcional al rango con los parámetros ya dados y.
  • El rango que contiene los nuevos valores de x debe tener las mismas o más filas o columnas que el rango con los valores de y dados. En otras palabras, debe ser proporcional a las variables independientes.
  • Una matriz con valores x conocidos puede contener múltiples variables. Sin embargo, si estamos hablando de uno solo, entonces se requiere que los rangos con los valores dados de x e y sean proporcionales. En el caso de varias variables, es necesario que el rango con los valores y dados quepa en una columna o una fila.

función PRONÓSTICO

Se implementa usando varias funciones. Uno de ellos se llama "PREDICCIÓN". Es similar a TREND, es decir, da el resultado de los cálculos usando el método de mínimos cuadrados. Sin embargo, solo para una X, para la cual se desconoce el valor de Y.

Ahora ya conoces las fórmulas de Excel para dummies que te permiten predecir el valor del valor futuro de un indicador según una tendencia lineal.

Elegir el tipo de función de regresión, es decir el tipo de modelo considerado de la dependencia de Y en X (o X en Y), por ejemplo, un modelo lineal y x = a + bx, es necesario determinar los valores específicos de los coeficientes del modelo.

Para diferentes valores de a y b, es posible construir un número infinito de dependencias de la forma yx = a + bx, es decir, hay un número infinito de líneas en el plano de coordenadas, pero necesitamos tal dependencia que corresponde a los valores observados de la mejor manera. Así, el problema se reduce a la selección de los mejores coeficientes.

Estamos buscando una función lineal a + bx, basada solo en un cierto número de observaciones disponibles. Para encontrar la función que mejor se ajusta a los valores observados, utilizamos el método de los mínimos cuadrados.

Indicar: Y i - el valor calculado por la ecuación Y i =a+bx i . y i - valor medido, ε i =y i -Y i - diferencia entre los valores medidos y calculados, ε i =y i -a-bx i .

El método de mínimos cuadrados requiere que ε i , la diferencia entre el y i medido y los valores de Y i calculados a partir de la ecuación, sea mínima. Por lo tanto, encontramos los coeficientes a y b para que la suma de las desviaciones al cuadrado de los valores observados de los valores en la línea de regresión recta sea la más pequeña:

Investigando esta función de argumentos a y con la ayuda de derivadas a un extremo, podemos demostrar que la función toma un valor mínimo si los coeficientes a y b son soluciones del sistema:

(2)

Si dividimos ambos lados de las ecuaciones normales por n, obtenemos:

Dado que (3)

Obtener , de aquí, sustituyendo el valor de a en la primera ecuación, obtenemos:

En este caso, b se denomina coeficiente de regresión; a se denomina miembro libre de la ecuación de regresión y se calcula mediante la fórmula:

La línea recta resultante es una estimación de la línea de regresión teórica. Tenemos:

Entonces, es una ecuación de regresión lineal.

La regresión puede ser directa (b>0) e inversa (b Ejemplo 1. Los resultados de medir los valores de X e Y se dan en la tabla:

x yo -2 0 1 2 4
y yo 0.5 1 1.5 2 3

Suponiendo que existe una relación lineal entre X e Y y=a+bx, determine los coeficientes a y b utilizando el método de los mínimos cuadrados.

Solución. Aquí n=5
xi =-2+0+1+2+4=5;
x yo 2 = 4 + 0 + 1 + 4 + 16 = 25
x yo y yo =-2 0.5+0 1+1 1.5+2 2+4 3=16.5
yi =0.5+1+1.5+2+3=8

y el sistema normal (2) tiene la forma

Resolviendo este sistema, obtenemos: b=0.425, a=1.175. Por lo tanto y=1.175+0.425x.

Ejemplo 2. Se tiene una muestra de 10 observaciones de indicadores económicos (X) y (Y).

x yo 180 172 173 169 175 170 179 170 167 174
y yo 186 180 176 171 182 166 182 172 169 177

Se requiere encontrar una ecuación de regresión de muestra Y en X. Construya una línea de regresión de muestra Y en X.

Solución. 1. Ordenemos los datos por valores x i e y i . Obtenemos una nueva tabla:

x yo 167 169 170 170 172 173 174 175 179 180
y yo 169 171 166 172 180 176 177 182 182 186

Para simplificar los cálculos, compilaremos una tabla de cálculo en la que ingresaremos los valores numéricos necesarios.

x yo y yo x yo 2 x yo y yo
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x yo 2 299105 ∑x yo y yo =304696
x=172,9 y=176.1 x yo 2 = 29910.5 xy=30469.6

Según la fórmula (4), calculamos el coeficiente de regresión

y por la fórmula (5)

Por lo tanto, la ecuación de regresión de muestra parece y=-59.34+1.3804x.
Tracemos los puntos (x i ; y i) en el plano de coordenadas y marquemos la línea de regresión.


higo 4

La figura 4 muestra cómo se ubican los valores observados en relación con la línea de regresión. Para estimar numéricamente las desviaciones de y i de Y i , donde y i son valores observados, y Y i son valores determinados por regresión, haremos una tabla:

x yo y yo yo Y yo -y yo
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Los valores de Y i se calculan de acuerdo con la ecuación de regresión.

La notable desviación de algunos valores observados de la línea de regresión se explica por el pequeño número de observaciones. Al estudiar el grado de dependencia lineal de Y de X, se tiene en cuenta el número de observaciones. La fuerza de la dependencia está determinada por el valor del coeficiente de correlación.

Que encuentra la aplicación más amplia en varios campos de la ciencia y la práctica. Puede ser física, química, biología, economía, sociología, psicología y así sucesivamente. Por voluntad del destino, a menudo tengo que lidiar con la economía y, por lo tanto, hoy organizaré para ti un boleto a un país increíble llamado Econometría=) … ¡¿Cómo no quieres eso?! Es muy bueno allí, ¡solo tienes que decidir! …Pero lo que probablemente quieras es aprender a resolver problemas mínimos cuadrados. Y los lectores especialmente diligentes aprenderán a resolverlos no solo con precisión, sino también MUY RÁPIDO ;-) Pero primero enunciado general del problema+ ejemplo relacionado:

Que se estudien indicadores en alguna materia que tengan una expresión cuantitativa. Al mismo tiempo, hay muchas razones para creer que el indicador depende del indicador. Esta suposición puede ser tanto una hipótesis científica como estar basada en el sentido común elemental. Sin embargo, dejemos la ciencia a un lado y exploremos áreas más apetitosas, a saber, las tiendas de comestibles. Denotamos por:

– espacio comercial de una tienda de abarrotes, m2,
- Volumen de negocios anual de una tienda de comestibles, millones de rublos.

Está bastante claro que cuanto mayor sea el área de la tienda, mayor será su facturación en la mayoría de los casos.

Supongamos que después de realizar observaciones/experimentos/cálculos/bailar con una pandereta, tenemos a nuestra disposición datos numéricos:

Con las tiendas de comestibles, creo que todo está claro: - esta es el área de la 1.ª tienda, - su facturación anual, - el área de la 2.ª tienda, - su facturación anual, etc. Por cierto, no es necesario tener acceso a materiales clasificados: se puede obtener una evaluación bastante precisa de la facturación utilizando estadísticas matemáticas. Sin embargo, no se distraigan, el curso de espionaje comercial ya está pagado =)

Los datos tabulares también se pueden escribir en forma de puntos y representar de la forma habitual para nosotros. sistema cartesiano .

Respondamos una pregunta importante: ¿Cuántos puntos se necesitan para un estudio cualitativo?

Cuanto más grande, mejor. El conjunto mínimo admisible consta de 5-6 puntos. Además, con una pequeña cantidad de datos, los resultados "anormales" no deben incluirse en la muestra. Entonces, por ejemplo, una pequeña tienda de élite puede ayudar mucho más que "sus colegas", distorsionando así el patrón general que debe encontrarse.

Si es bastante simple, tenemos que elegir una función, calendario que pasa lo más cerca posible de los puntos . Tal función se llama aproximando (aproximación - aproximación) o función teórica . En términos generales, aquí aparece inmediatamente un "pretendiente" obvio: un polinomio de alto grado, cuyo gráfico pasa por TODOS los puntos. Pero esta opción es complicada y, a menudo, simplemente incorrecta. (porque el gráfico "bobinará" todo el tiempo y reflejará mal la tendencia principal).

Así, la función deseada debe ser lo suficientemente simple y al mismo tiempo reflejar adecuadamente la dependencia. Como puede suponer, uno de los métodos para encontrar tales funciones se llama mínimos cuadrados. Primero, analicemos su esencia de manera general. Deje que alguna función aproxime los datos experimentales:


¿Cómo evaluar la precisión de esta aproximación? Calculemos también las diferencias (desviaciones) entre los valores experimentales y funcionales (estudiamos el dibujo). El primer pensamiento que viene a la mente es estimar qué tan grande es la suma, pero el problema es que las diferencias pueden ser negativas. (Por ejemplo, ) y las desviaciones como resultado de dicha suma se anularán entre sí. Por lo tanto, como una estimación de la precisión de la aproximación, se sugiere tomar la suma módulos desviaciones:

o en forma plegada: (de repente, quien no sabe: es el icono de la suma, y ​​es una variable auxiliar-“contador”, que toma valores del 1 al ).

Al aproximar los puntos experimentales con diferentes funciones, obtendremos diferentes valores de , y es obvio que donde esta suma es menor, esa función es más precisa.

Tal método existe y se llama método de módulo mínimo. Sin embargo, en la práctica se ha generalizado mucho más. método de mínimos cuadrados, en el que los posibles valores negativos no se eliminan por el módulo, sino por el cuadrado de las desviaciones:

, después de lo cual los esfuerzos se dirigen a la selección de una función tal que la suma de las desviaciones al cuadrado era lo más pequeño posible. En realidad, de ahí el nombre del método.

Y ahora volvemos a otro punto importante: como se señaló anteriormente, la función seleccionada debería ser bastante simple, pero también hay muchas funciones de este tipo: lineal , hiperbólico, exponencial, logarítmico, cuadrático etc Y, por supuesto, aquí me gustaría inmediatamente "reducir el campo de actividad". ¿Qué clase de funciones elegir para la investigación? Técnica primitiva pero efectiva:

- La forma más fácil de dibujar puntos. en el dibujo y analizar su ubicación. Si tienden a estar en línea recta, entonces debe buscar ecuación de línea recta con valores óptimos y . En otras palabras, la tarea es encontrar TALES coeficientes, de modo que la suma de las desviaciones al cuadrado sea la más pequeña.

Si los puntos están ubicados, por ejemplo, a lo largo hipérbole, entonces está claro que la función lineal dará una mala aproximación. En este caso, buscamos los coeficientes más “favorables” para la ecuación de la hipérbola - los que dan la mínima suma de cuadrados .

Ahora observe que en ambos casos estamos hablando de funciones de dos variables, cuyos argumentos son opciones de dependencia buscadas:

Y, en esencia, necesitamos resolver un problema estándar: encontrar mínimo de una función de dos variables.

Recuerde nuestro ejemplo: suponga que los puntos de "tienda" tienden a ubicarse en línea recta y hay muchas razones para creer que la presencia dependencia lineal facturación del área comercial. Encontremos TALES coeficientes "a" y "be" para que la suma de las desviaciones al cuadrado era el más pequeño. Todo como siempre - primero derivadas parciales de primer orden. De acuerdo a regla de linealidad puedes diferenciar justo debajo del ícono de suma:

Si desea utilizar esta información para un ensayo o un trabajo final, estaré muy agradecido por el enlace en la lista de fuentes, no encontrará cálculos tan detallados en ningún lado:

Hagamos un sistema estándar:

Reducimos cada ecuación por un “dos” y, además, “separamos” las sumas:

Nota : analice de forma independiente por qué "a" y "be" pueden eliminarse del icono de suma. Por cierto, formalmente esto se puede hacer con la suma

Reescribamos el sistema en una forma "aplicada":

después de lo cual comienza a dibujarse el algoritmo para resolver nuestro problema:

¿Conocemos las coordenadas de los puntos? Sabemos. sumas podemos encontrar? Fácil. Componemos lo más simple sistema de dos ecuaciones lineales con dos incógnitas("a" y "beh"). Resolvemos el sistema, por ejemplo, método de Cramer, resultando en un punto estacionario . Comprobación condición suficiente para un extremo, podemos comprobar que en este punto la función alcanza con precisión mínimo. La verificación está asociada con cálculos adicionales y, por lo tanto, la dejaremos atrás. (si es necesario, se puede ver el marco que falta). Sacamos la conclusión final:

Función la mejor manera (al menos en comparación con cualquier otra función lineal) acerca los puntos experimentales . En términos generales, su gráfico pasa lo más cerca posible de estos puntos. en la tradición econometría la función de aproximación resultante también se llama ecuación de regresión lineal emparejada .

El problema bajo consideración es de gran importancia práctica. En la situación con nuestro ejemplo, la ecuación le permite predecir qué tipo de facturación ("yig") estará en la tienda con uno u otro valor del área de venta (uno u otro significado de "x"). Sí, el pronóstico resultante será solo un pronóstico, pero en muchos casos resultará bastante preciso.

Analizaré solo un problema con números "reales", ya que no presenta dificultades: todos los cálculos están al nivel del plan de estudios escolar en los grados 7-8. En el 95 por ciento de los casos, se le pedirá que encuentre solo una función lineal, pero al final del artículo mostraré que no es más difícil encontrar las ecuaciones para la hipérbola, el exponente y algunas otras funciones óptimas.

De hecho, queda por distribuir las golosinas prometidas, para que aprenda a resolver tales ejemplos no solo con precisión, sino también rápidamente. Estudiamos cuidadosamente el estándar:

Tarea

Como resultado de estudiar la relación entre dos indicadores, se obtuvieron los siguientes pares de números:

Usando el método de mínimos cuadrados, encuentre la función lineal que mejor se aproxime a la función empírica (experimentado) datos. Haz un dibujo en el que, en un sistema cartesiano de coordenadas rectangulares, trace puntos experimentales y una gráfica de la función de aproximación . Encuentre la suma de las desviaciones al cuadrado entre los valores empíricos y teóricos. Averigüe si la función es mejor (en términos del método de mínimos cuadrados) puntos experimentales aproximados.

Tenga en cuenta que los valores de "x" son valores naturales, y esto tiene un significado significativo característico, del que hablaré un poco más adelante; pero, por supuesto, pueden ser fraccionarios. Además, según el contenido de una tarea en particular, tanto los valores "X" como "G" pueden ser total o parcialmente negativos. Pues nos han dado una tarea “sin rostro”, y la empezamos solución:

Encontramos los coeficientes de la función óptima como solución al sistema:

A los efectos de una notación más compacta, se puede omitir la variable “contador”, pues ya está claro que la sumatoria se realiza de 1 a .

Es más conveniente calcular las cantidades requeridas en forma tabular:


Los cálculos se pueden realizar en una microcalculadora, pero es mucho mejor usar Excel, más rápido y sin errores; ver un video corto:

Así, obtenemos lo siguiente sistema:

Aquí puedes multiplicar la segunda ecuación por 3 y restar la segunda de la primera ecuación término por término. Pero esto es suerte: en la práctica, los sistemas a menudo no están dotados y, en tales casos, ahorra método de Cramer:
, por lo que el sistema tiene solución única.

Hagamos una comprobación. Entiendo que no quiero hacerlo, pero ¿por qué omitir errores donde absolutamente no puedes pasarlos por alto? Sustituye la solución encontrada en el lado izquierdo de cada ecuación del sistema:

Se obtienen las partes correctas de las ecuaciones correspondientes, lo que significa que el sistema se resuelve correctamente.

Así, la función de aproximación deseada: – de todas las funciones lineales los datos experimentales se aproximan mejor con él.

a diferencia de derecho dependencia de la facturación de la tienda en su área, la dependencia encontrada es contrarrestar (principio "cuanto más - menos"), y este hecho es inmediatamente revelado por la negativa coeficiente angular. Función nos informa que con un aumento en un determinado indicador en 1 unidad, el valor del indicador dependiente disminuye promedio por 0,65 unidades. Como dicen, cuanto más alto es el precio del trigo sarraceno, menos se vende.

Para graficar la función de aproximación, encontramos dos de sus valores:

y ejecutar el dibujo:


La recta construida se llama línea de tendencia (es decir, una línea de tendencia lineal, es decir, en el caso general, una tendencia no es necesariamente una línea recta). Todo el mundo está familiarizado con la expresión "to be in trend", y creo que este término no necesita comentarios adicionales.

Calcular la suma de las desviaciones al cuadrado entre valores empíricos y teóricos. Geométricamente, esta es la suma de los cuadrados de las longitudes de los segmentos "carmesí" (dos de los cuales son tan pequeños que ni siquiera puedes verlos).

Resumamos los cálculos en una tabla:


Se pueden volver a realizar manualmente, por si acaso daré un ejemplo para el 1er punto:

pero es mucho más eficiente hacerlo de la forma ya conocida:

Repitamos: ¿Cuál es el significado del resultado? Desde todas las funciones lineales función el exponente es el más pequeño, es decir, es la mejor aproximación de su familia. Y aquí, por cierto, la pregunta final del problema no es casual: ¿y si la función exponencial propuesta ¿Será mejor aproximar los puntos experimentales?

Encontremos la suma correspondiente de las desviaciones al cuadrado; para distinguirlas, las designaré con la letra "épsilon". La técnica es exactamente la misma:


Y nuevamente para cada cálculo de fuego para el 1er punto:

En Excel, usamos la función estándar Exp (La sintaxis se puede encontrar en la Ayuda de Excel).

Conclusión: , por lo que la función exponencial aproxima peor los puntos experimentales que la recta .

Pero cabe señalar aquí que "peor" es no significa todavía, qué está mal. Ahora construí un gráfico de esta función exponencial - y también pasa cerca de los puntos - tanto es así que sin un estudio analítico es difícil decir qué función es más precisa.

Esto completa la solución, y vuelvo a la cuestión de los valores naturales del argumento. En varios estudios, por regla general, económicos o sociológicos, los meses, años u otros intervalos de tiempo iguales se numeran con "X" natural. Considere, por ejemplo, tal problema.

El problema es encontrar los coeficientes de dependencia lineal para los cuales la función de dos variables a y B toma el valor más pequeño. Es decir, dados los datos a y B la suma de las desviaciones al cuadrado de los datos experimentales de la línea recta encontrada será la más pequeña. Este es el punto central del método de mínimos cuadrados.

Así, la solución del ejemplo se reduce a encontrar el extremo de una función de dos variables.

Derivación de fórmulas para encontrar coeficientes. Se compila y resuelve un sistema de dos ecuaciones con dos incógnitas. Hallar derivadas parciales de funciones por variables a y B, igualamos estas derivadas a cero.

Resolvemos el sistema de ecuaciones resultante por cualquier método (por ejemplo, el método de sustitución o el método de Cramer) y obtenemos fórmulas para encontrar los coeficientes usando el método de mínimos cuadrados (LSM).

con datos a y B función toma el valor más pequeño.

Ese es todo el método de mínimos cuadrados. Fórmula para encontrar el parámetro. a contiene las sumas , , y el parámetro norte- cantidad de datos experimentales. Se recomienda calcular los valores de estas sumas por separado. Coeficiente B encontrado después del cálculo a.

El área principal de aplicación de tales polinomios es el procesamiento de datos experimentales (la construcción de fórmulas empíricas). El hecho es que el polinomio de interpolación construido a partir de los valores de la función obtenidos con la ayuda del experimento estará fuertemente influenciado por el "ruido experimental", además, durante la interpolación, los nodos de interpolación no se pueden repetir, es decir no puede utilizar los resultados de experimentos repetidos en las mismas condiciones. El polinomio de la raíz cuadrada media suaviza el ruido y permite utilizar los resultados de múltiples experimentos.

Integración y diferenciación numérica. Ejemplo.

Integracion numerica- cálculo del valor de una integral definida (por regla general, aproximada). La integración numérica se entiende como un conjunto de métodos numéricos para encontrar el valor de una determinada integral.

Diferenciación numérica– un conjunto de métodos para calcular el valor de la derivada de una función dada discretamente.

Integración

Formulación del problema. Planteamiento matemático del problema: es necesario encontrar el valor de una determinada integral

donde a, b son finitos, f(x) es continua en [a, b].

Al resolver problemas prácticos, a menudo sucede que la integral es inconveniente o imposible de tomar analíticamente: puede que no se exprese en funciones elementales, el integrando se puede dar en forma de tabla, etc. En tales casos, los métodos de integración numérica son usado. Los métodos de integración numérica utilizan el reemplazo del área de un trapezoide curvilíneo por una suma finita de áreas de formas geométricas más simples que se pueden calcular con exactitud. En este sentido se habla del uso de fórmulas de cuadratura.

La mayoría de los métodos utilizan la representación de la integral como una suma finita (fórmula de cuadratura):

Las fórmulas de cuadratura se basan en la idea de reemplazar la gráfica del integrando en el intervalo de integración con funciones de una forma más simple, que pueden integrarse fácilmente analíticamente y, por lo tanto, calcularse fácilmente. La tarea más simple de construir fórmulas de cuadratura se realiza para modelos matemáticos polinómicos.

Se pueden distinguir tres grupos de métodos:

1. Método con división del segmento de integración en intervalos iguales. La división en intervalos se hace de antemano, por lo general los intervalos se eligen iguales (para que sea más fácil calcular la función en los extremos de los intervalos). Calcular áreas y sumarlas (métodos de los rectángulos, trapezoide, Simpson).

2. Métodos con partición del segmento de integración mediante puntos especiales (método de Gauss).

3. Cálculo de integrales mediante números aleatorios (método Monte Carlo).

Método del rectángulo. Sea la función (dibujo) integrada numéricamente en el segmento . Dividimos el segmento en N intervalos iguales. El área de cada uno de los N trapecios curvilíneos se puede reemplazar por el área de un rectángulo.

El ancho de todos los rectángulos es el mismo e igual a:

Como elección de la altura de los rectángulos, puede elegir el valor de la función en el borde izquierdo. En este caso, la altura del primer rectángulo será f(a), la del segundo será f(x 1),…, N-f(N-1).

Si tomamos el valor de la función en el borde derecho como la elección de la altura del rectángulo, en este caso la altura del primer rectángulo será f (x 1), el segundo - f (x 2), . .., N - f (x N).

Como puede verse, en este caso una de las fórmulas da una aproximación a la integral con exceso, y la segunda con defecto. Hay otra forma: usar el valor de la función en el medio del segmento de integración para la aproximación:

Estimación del error absoluto del método de los rectángulos (centro)

Estimación del error absoluto de los métodos de los rectángulos izquierdo y derecho.

Ejemplo. Calcular para todo el intervalo y dividir el intervalo en cuatro secciones

Solución. El cálculo analítico de esta integral da I=arctg(1)–arctg(0)=0.7853981634. En nuestro caso:

1) h = 1; xo = 0; x1 = 1;

2) h = 0,25 (1/4); x0 = 0; x1 = 0,25; x2 = 0,5; x3 = 0,75; x4 = 1;

Calculamos por el método de los rectángulos izquierdos:

Calculamos por el método de los rectángulos rectos:

Calcular por el método de los rectángulos promedio:

Método trapezoidal. El uso de un polinomio de primer grado para la interpolación (una línea recta trazada a través de dos puntos) conduce a la fórmula trapezoidal. Los extremos del segmento de integración se toman como nodos de interpolación. Por lo tanto, el trapezoide curvilíneo se reemplaza por un trapezoide ordinario, cuyo área se puede encontrar como el producto de la mitad de la suma de las bases y la altura.

En el caso de N segmentos de integración para todos los nodos, a excepción de los puntos extremos del segmento, el valor de la función se incluirá en la suma total dos veces (ya que los trapecios vecinos tienen un lado común)

La fórmula trapezoidal se puede obtener tomando la mitad de la suma de las fórmulas del rectángulo a lo largo de los bordes derecho e izquierdo del segmento:

Comprobación de la estabilidad de la solución. Como regla general, cuanto más corta sea la longitud de cada intervalo, es decir, cuanto mayor sea el número de estos intervalos, menor será la diferencia entre los valores aproximados y exactos de la integral. Esto es cierto para la mayoría de las funciones. En el método trapezoidal, el error en el cálculo de la integral ϭ es aproximadamente proporcional al cuadrado del paso de integración (ϭ ~ h 2), así, para calcular la integral de alguna función en los límites a, b, es necesario dividir el segmento en N 0 intervalos y encuentre la suma de las áreas del trapezoide. Luego, debe aumentar la cantidad de intervalos N 1, calcular nuevamente la suma del trapezoide y comparar el valor resultante con el resultado anterior. Esto debe repetirse hasta (N i) hasta que se alcance la precisión especificada del resultado (criterio de convergencia).

Para los métodos del rectángulo y del trapezoide, normalmente en cada paso de iteración, el número de intervalos aumenta en un factor de 2 (N i +1 = 2N i).

Criterio de convergencia:

La principal ventaja de la regla trapezoidal es su simplicidad. Sin embargo, si la integración requiere alta precisión, este método puede requerir demasiadas iteraciones.

Error absoluto del método trapezoidal clasificado como
.

Ejemplo. Calcular una integral aproximadamente definida utilizando la fórmula trapezoidal.

a) Dividir el segmento de integración en 3 partes.
b) Dividir el segmento de integración en 5 partes.

Solución:
a) Por condición, el segmento de integración debe dividirse en 3 partes, es decir.
Calcular la longitud de cada segmento de la partición: .

Así, la fórmula general de los trapecios se reduce a un tamaño agradable:

Por fin:

Les recuerdo que el valor resultante es un valor aproximado del área.

b) Dividimos el segmento de integración en 5 partes iguales, es decir, . al aumentar el número de segmentos, aumentamos la precisión de los cálculos.

Si , entonces la fórmula trapezoidal toma la siguiente forma:

Busquemos el paso de partición:
, es decir, la longitud de cada segmento intermedio es 0,6.

Al finalizar la tarea, es conveniente realizar todos los cálculos con una tabla de cálculo:

En la primera línea escribimos "contador"

Como resultado:

Bueno, realmente hay una aclaración, ¡y seria!
Si para 3 segmentos de la partición, entonces para 5 segmentos. Si toma aún más segmento => será aún más preciso.

Fórmula de Simpson. La fórmula trapezoidal da un resultado que depende en gran medida del tamaño del paso h, lo que afecta la precisión del cálculo de una integral definida, especialmente en los casos en que la función no es monótona. Se puede suponer un aumento en la precisión de los cálculos si, en lugar de segmentos de líneas rectas que reemplazan los fragmentos curvilíneos del gráfico de la función f(x), usamos, por ejemplo, fragmentos de parábolas dados a través de tres puntos adyacentes del gráfico . Una interpretación geométrica similar subyace en el método de Simpson para calcular la integral definida. Todo el intervalo de integración a,b se divide en N segmentos, la longitud del segmento también será igual a h=(b-a)/N.

La fórmula de Simpson es:

término restante

Con un aumento en la longitud de los segmentos, la precisión de la fórmula disminuye, por lo tanto, para aumentar la precisión, se utiliza la fórmula compuesta de Simpson. Todo el intervalo de integración se divide en un número par de segmentos idénticos N, la longitud del segmento también será igual a h=(b-a)/N. La fórmula compuesta de Simpson es:

En la fórmula, las expresiones entre paréntesis son las sumas de los valores del integrando, respectivamente, en los extremos de los segmentos internos pares e impares.

El resto de la fórmula de Simpson ya es proporcional a la cuarta potencia del paso:

Ejemplo: Calcula la integral usando la regla de Simpson. (Solución exacta - 0.2)

método de Gauss

Fórmula de cuadratura de Gauss. El principio básico de las fórmulas de cuadratura de la segunda variedad es visible en la Figura 1.12: es necesario colocar los puntos de tal manera X 0 y X 1 dentro del segmento [ a;B] para que las áreas de los "triángulos" en total sean iguales a las áreas del "segmento". Al usar la fórmula de Gauss, el segmento inicial [ a;B] se reduce al intervalo [-1;1] cambiando la variable X sobre el

0.5∙(Ba)∙t+ 0.5∙(B + a).

Entonces , donde .

Esta sustitución es posible si a y B son finitos y la función F(X) es continua en [ a;B]. Fórmula de Gauss para norte puntos x yo, I=0,1,..,norte-1 dentro del segmento [ a;B]:

, (1.27)

donde yo y Ai para varios norte se dan en los libros de referencia. por ejemplo, cuando norte=2 A 0 =A 1=1; en norte=3: t 0 =t 2" 0.775, t 1 =0, A 0 =A 2" 0.555, A 1" 0.889.

Fórmula de cuadratura de Gauss

obtenido con una función de peso igual a uno p(x)= 1 y nodos x yo, que son las raíces de los polinomios de Legendre

Impares Ai fácilmente calculado por fórmulas

I=0,1,2,...norte.

Los valores de los nodos y coeficientes para n=2,3,4,5 se dan en la tabla

Pedido nudos Impares
norte=2 x1=0 x0 =-x2=0.7745966692 un 1=8/9 UN 0 = UN 2=5/9
norte=3 x2 =-x1=0.3399810436 x3 =-x0=0.8611363116 Un 1 = Un 2=0.6521451549 UN 0 = UN 3=0.6521451549
n=4 X 2 = 0 X 3 = -X 1 = 0.5384693101 X 4 =-X 0 =0.9061798459 A 0 =0.568888899 A 3 =A 1 =0.4786286705 A 0 =A 4 =0.2869268851
norte=5 X 5 = -X 0 =0.9324695142 X 4 = -X 1 =0.6612093865 X 3 = -X 2 =0.2386191861 A 5 =A 0 =0.1713244924 A 4 =A 1 =0.3607615730 A 3 =A 2 =0.4679139346

Ejemplo. Calcule el valor utilizando la fórmula de Gauss para norte=2:

Valor exacto: .

El algoritmo para calcular la integral según la fórmula de Gauss no prevé duplicar el número de microsegmentos, sino aumentar el número de ordenadas en 1 y comparar los valores obtenidos de la integral. La ventaja de la fórmula de Gauss es su alta precisión con un número relativamente pequeño de ordenadas. Desventajas: inconveniente para los cálculos manuales; debe almacenarse en la memoria de la computadora yo, Ai para varios norte.

El error de la fórmula de cuadratura de Gauss en el segmento será al mismo tiempo Para la fórmula del término restante será donde el coeficiente α norte disminuye rápidamente con el crecimiento norte. Aquí

Las fórmulas de Gauss proporcionan una alta precisión incluso con un pequeño número de nodos (de 4 a 10).En este caso, en los cálculos prácticos, el número de nodos oscila entre varios cientos y varios miles. También notamos que los pesos de las cuadraturas gaussianas son siempre positivos, lo que asegura la estabilidad del algoritmo para calcular las sumas.