close
Warning:
Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.
- Timestamp:
-
Jan 6, 2011, 6:21:12 PM (14 years ago)
- Author:
-
Víctor de Buen Remiro
- Comment:
-
--
Legend:
- Unmodified
- Added
- Removed
- Modified
-
v22
|
v23
|
|
13 | 13 | == Diseño de entornos locales solapados == |
14 | 14 | |
15 | | El método propuesto será utilizar el algoritmo [http://es.wikipedia.org/wiki/Knn KNN] que está disponible dentro del paquete TOL MatQuery, para encontrar los vecinos más próximos de cada punto de la muestra de tamaño [[LatexEquation( S )]]. Como en los métodos de simulación tipo ''accept-reject'' hay por definición puntos repetidos, para que el algoritmo tenga sentido habría que tomar los [[LatexEquation( S' < S )]] puntos únicos |
16 | | [[LatexEquation( x_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]] |
17 | | y llamar |
18 | | [[LatexEquation( s_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]] |
| 15 | El método propuesto comenzará por utilizar el algoritmo [http://es.wikipedia.org/wiki/Knn KNN] que está disponible dentro del paquete TOL MatQuery, para encontrar los vecinos más próximos de cada punto de la muestra de tamaño [[LatexEquation( S )]]. Como en los métodos de simulación tipo ''accept-reject'' hay por definición puntos repetidos, para que el algoritmo tenga sentido habría que tomar los [[LatexEquation( S' < S )]] puntos únicos |
| 16 | |
| 17 | [[LatexEquation( x_{i} \wedge i=1 \dots S' )]] |
| 18 | |
| 19 | y llamar |
| 20 | |
| 21 | [[LatexEquation( s_{i} \wedge i=1 \dots S' )]] |
| 22 | |
19 | 23 | al número de veces que aparece cada uno en la muestra. Obviamente, la suma de los números de apariciones da el tamaño muestral |
20 | | [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] [[BR]][[BR]] |
| 24 | |
| 25 | [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] |
21 | 26 | |
22 | 27 | No está claro por el momento cuál podría ser el criterio para seleccionar el número [[LatexEquation( k )]] de vecinos en cada entorno, pero debe ser en cualquier caso un número bastante pequeño en relación con [[LatexEquation( S' )]] pues se trata de observar el comportamiento a nivel local. También ha de ser bastante pequeño en términos absolutos porque la complejidad del algoritmo KNN crece cuadráticamente con el tamaño del vecindario. Tampoco puede ser excesivamente pequeño porque entonces quedarían amplias zonas del espacio sin recubrir por no estar lo suficientemente cerca de ninguno de los puntos muestreados. Lo ideal sería tomar un sistema de entornos que recubriera de forma conexa y compacta la muestra, aunque eso no parece facil de comprobar a primera vista. Tampoco es en principio obligatorio tomar el mismo número de puntos en cada entorno aunque por el momento supondremos que es así. |
23 | 28 | |
24 | 29 | Sean los [[LatexEquation( k )]] puntos muestrales vecinos de [[LatexEquation( x_{i} )]] en orden de proximidad al mismo |
25 | | [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]] |
26 | 30 | |
27 | | Sea la distancia euclídea del punto [[LatexEquation( x_{i} )]] a su [[LatexEquation( k )]]-ésimo vecino más próximo[[BR]][[BR]] |
28 | | [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]] |
| 31 | [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] |
| 32 | |
| 33 | Sea la distancia euclídea del punto [[LatexEquation( x_{i} )]] a su [[LatexEquation( k )]]-ésimo vecino más próximo |
| 34 | |
| 35 | [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] |
29 | 36 | |
30 | 37 | En cada punto muestral definiremos pues el entorno local como la hiperesfera de radio [[LatexEquation( r_{i,k} )]] y centro [[LatexEquation( x_{i} )]] |
… |
… |
|
36 | 43 | == Distribución del tamaño muestral local == |
37 | 44 | |
38 | | Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]] |
39 | | [[LatexEquation( h_{i} = k+s_i)]] [[BR]][[BR]] |
40 | | cantidad que se distribuye como una binomial [[BR]][[BR]] |
| 45 | Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es |
| 46 | |
| 47 | [[LatexEquation( h_{i} = k+s_i )]] |
| 48 | |
| 49 | cantidad que se distribuye como una binomial |
| 50 | |
41 | 51 | [[LatexEquation( \eta_{i} = B\left(S, p_i\rigtht))]] |
42 | | donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en cada entorno local [[BR]][[BR]] |
43 | | [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y )]] [[BR]] |
| 52 | |
| 53 | donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en cada entorno local |
| 54 | |
| 55 | [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y )]] |
| 56 | |
44 | 57 | |
45 | 58 | === Aproximación de la probabilidad del entorno local === |
… |
… |
|
47 | 60 | La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto del volumen de la hiperesfera |
48 | 61 | |
49 | | [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]] [[BR]] |
| 62 | [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]] |
50 | 63 | |
51 | 64 | por la media de las verosimilitudes en una selección de puntos del entorno |
… |
… |
|
54 | 67 | |
55 | 68 | El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_0)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos |
56 | | [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]] [[BR]][[BR]] |
57 | | [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]] [[BR]] |
| 69 | |
| 70 | [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]] |
| 71 | |
| 72 | [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]] |
| 73 | |
58 | 74 | |
59 | 75 | Como evaluar la función demasiadas veces podría ser muy costoso la única forma de mejorar la aproximación de la integral es por interpolación, concretamente mediante el [http://www.alglib.net/interpolation/inversedistanceweighting.php método de Sheppard de ponderación inversa a la distancia] que es muy eficiente pues no requiere de ninguna evaluación extra. Esto es especialemente recomendable si existen grandes diferencias en las verosimilitudes de los distintos puntos del vecindario. La interpolación será mejor realizarla en términos logarítmicos pues eso suavizará la función. |
60 | 76 | |
61 | 77 | Para ello generaremos [[LatexEquation( N )]] puntos con distribución uniforme en la hiperesfera |
| 78 | |
62 | 79 | [[LatexEquation( \left\Vert z_{i,j}-x_{i}\right\Vert ^{2}\leq r_{i,k} \wedge j=1 \dots N )]] |
63 | 80 | |
… |
… |
|
76 | 93 | Puesto que una probabilidad ha de ser menor que 1 su logaritmo es siempre negativo, por lo que tenemos una cota para la constante |
77 | 94 | |
78 | | [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\} )]] [[BR]] |
| 95 | [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\} )]] |
79 | 96 | |
80 | 97 | Necesitamos un criterio razonable para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]] para poder continuar con los cálculos, y dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil. |
… |
… |
|
82 | 99 | === Verosimilitud del parámetro === |
83 | 100 | |
84 | | La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es [[BR]][[BR]] |
85 | | [[LatexEquation( P_i = \mathrm{Pr}\left[\eta_{i}=h_{i}\right]=\left(\begin{array}{c}S\\h_{i}\end{array}\right)p_{i}^{h_{i}}\left(1-p_{i}\right)^{S-h_{i}} )]] [[BR]] |
| 101 | La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es |
| 102 | |
| 103 | [[LatexEquation( P_i = \mathrm{Pr}\left[\eta_{i}=h_{i}\right]=\left(\begin{array}{c}S\\h_{i}\end{array}\right)p_{i}^{h_{i}}\left(1-p_{i}\right)^{S-h_{i}} )]] |
| 104 | |
86 | 105 | y el logaritmo de dicha probabilidad será |
87 | | [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]] [[BR]] |
| 106 | [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]] |
88 | 107 | |
89 | | La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto [[BR]] |
90 | | [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]] [[BR]] |
| 108 | La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto |
| 109 | |
| 110 | [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]] |
91 | 111 | |
92 | 112 | En realidad los entornos cercanos no pueden ser independientes entre sí, pues de hecho comparten puntos, pero en primera instancia daremos por buena la hipótesis de independencia, simplemente por comodidad y porque no está claro que sea demasiado importante el efecto de la dependencia. |
… |
… |
|
98 | 118 | Sujeto a |
99 | 119 | |
100 | | [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\} )]] [[BR]] |
| 120 | [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\} )]] |
101 | 121 | |
102 | 122 | Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos. |
… |
… |
|
104 | 124 | === Función de distribución === |
105 | 125 | |
106 | | La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta] [[BR]] [[BR]] |
107 | | [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p_i}\left(S-h_{i},h_{i+1}\right) )]] [[BR]] |
108 | | |
| 126 | La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta] |
| 127 | |
| 128 | [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p_i}\left(S-h_{i},h_{i+1}\right) )]] |
| 129 | |
109 | 130 | == Filtrado de zonas hipermuestreadas == |
110 | 131 | |
… |
… |
|
119 | 140 | En los entornos en los que la probabilidad de defecto de muestra, sea muy alta |
120 | 141 | |
121 | | [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right] \leq \alpha_2)]] |
| 142 | [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\geq h_{i}\right] \geq 1-\alpha_2)]] |
122 | 143 | |
123 | 144 | habrá que añadir más mediante un mecanismo que asegure la convergencia. |