close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 22 and Version 23 of OfficialTolArchiveNetworkBysSamplerPostProccess


Ignore:
Timestamp:
Jan 6, 2011, 6:21:12 PM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysSamplerPostProccess

    v22 v23  
    1313== Diseño de entornos locales solapados ==
    1414
    15 El método propuesto será utilizar el algoritmo [http://es.wikipedia.org/wiki/Knn KNN] que está disponible dentro del paquete TOL MatQuery, para encontrar los vecinos más próximos de cada punto de la muestra de tamaño [[LatexEquation( S )]]. Como en los métodos de simulación tipo ''accept-reject'' hay por definición puntos repetidos, para que el algoritmo tenga sentido habría que tomar los [[LatexEquation( S' < S )]] puntos únicos
    16   [[LatexEquation( x_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]]
    17 y llamar
    18   [[LatexEquation( s_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]]
     15El método propuesto comenzará por utilizar el algoritmo [http://es.wikipedia.org/wiki/Knn KNN] que está disponible dentro del paquete TOL MatQuery, para encontrar los vecinos más próximos de cada punto de la muestra de tamaño [[LatexEquation( S )]]. Como en los métodos de simulación tipo ''accept-reject'' hay por definición puntos repetidos, para que el algoritmo tenga sentido habría que tomar los [[LatexEquation( S' < S )]] puntos únicos
     16
     17  [[LatexEquation( x_{i} \wedge i=1 \dots S' )]]
     18
     19y llamar
     20
     21  [[LatexEquation( s_{i} \wedge i=1 \dots S' )]]
     22
    1923al número de veces que aparece cada uno en la muestra. Obviamente, la suma de los números de apariciones da el tamaño muestral
    20   [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] [[BR]][[BR]]
     24
     25  [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]]
    2126
    2227No está claro por el momento cuál podría ser el criterio para seleccionar el número [[LatexEquation( k )]] de vecinos en cada entorno, pero debe ser en cualquier caso un número bastante pequeño en relación con [[LatexEquation( S' )]] pues se trata de observar el comportamiento a nivel local. También ha de ser bastante pequeño en términos absolutos porque la complejidad del algoritmo KNN crece cuadráticamente con el tamaño del vecindario. Tampoco puede ser excesivamente pequeño porque entonces quedarían amplias zonas del espacio sin recubrir por no estar lo suficientemente cerca de ninguno de los puntos muestreados. Lo ideal sería tomar un sistema de entornos que recubriera de forma conexa y compacta la muestra, aunque eso no parece facil de comprobar a primera vista. Tampoco es en principio obligatorio tomar el mismo número de puntos en cada entorno aunque por el momento supondremos que es así.
    2328 
    2429Sean los [[LatexEquation( k )]] puntos muestrales vecinos de [[LatexEquation( x_{i} )]] en orden de proximidad al mismo
    25   [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
    2630
    27 Sea la distancia euclídea del punto [[LatexEquation( x_{i} )]] a su [[LatexEquation( k )]]-ésimo vecino más próximo[[BR]][[BR]]
    28   [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]]
     31  [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]]
     32
     33Sea la distancia euclídea del punto [[LatexEquation( x_{i} )]] a su [[LatexEquation( k )]]-ésimo vecino más próximo
     34
     35  [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]]
    2936 
    3037En cada punto muestral definiremos pues el entorno local como la hiperesfera de radio [[LatexEquation( r_{i,k} )]] y centro [[LatexEquation( x_{i} )]]
     
    3643== Distribución del tamaño muestral local ==
    3744
    38 Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]]
    39   [[LatexEquation( h_{i} = k+s_i)]] [[BR]][[BR]]
    40 cantidad que se distribuye como una binomial [[BR]][[BR]]
     45Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es
     46
     47  [[LatexEquation( h_{i} = k+s_i )]]
     48
     49cantidad que se distribuye como una binomial
     50
    4151  [[LatexEquation( \eta_{i} = B\left(S, p_i\rigtht))]]
    42 donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en cada entorno local [[BR]][[BR]]
    43   [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]] [[BR]]
     52
     53donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en cada entorno local
     54
     55  [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]]
     56
    4457 
    4558=== Aproximación de la probabilidad del entorno local ===
     
    4760La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto del volumen de la hiperesfera
    4861
    49   [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]] [[BR]]
     62  [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]]
    5063
    5164por la media de las verosimilitudes en una selección de puntos del entorno
     
    5467 
    5568El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_0)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
    56   [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]] [[BR]][[BR]]
    57   [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]] [[BR]] 
     69
     70  [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]]
     71
     72  [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]]
     73 
    5874
    5975Como evaluar la función demasiadas veces podría ser muy costoso la única forma de mejorar la aproximación de la integral es por interpolación, concretamente mediante el [http://www.alglib.net/interpolation/inversedistanceweighting.php método de Sheppard de ponderación inversa a la distancia] que es muy eficiente pues no requiere de ninguna evaluación extra. Esto es especialemente recomendable si existen grandes diferencias en las verosimilitudes de los distintos puntos del vecindario. La interpolación será mejor realizarla en términos logarítmicos pues eso suavizará la función.
    6076
    6177Para ello generaremos [[LatexEquation( N )]] puntos con distribución uniforme en la hiperesfera
     78
    6279  [[LatexEquation( \left\Vert z_{i,j}-x_{i}\right\Vert ^{2}\leq r_{i,k} \wedge j=1 \dots N )]]
    6380
     
    7693Puesto que una probabilidad ha de ser menor que 1 su logaritmo es siempre negativo, por lo que tenemos una cota para la constante
    7794
    78   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]] [[BR]]
     95  [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
    7996 
    8097Necesitamos un criterio razonable para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]] para poder continuar con los cálculos, y dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
     
    8299=== Verosimilitud del parámetro ===
    83100
    84 La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es [[BR]][[BR]]
    85   [[LatexEquation( P_i = \mathrm{Pr}\left[\eta_{i}=h_{i}\right]=\left(\begin{array}{c}S\\h_{i}\end{array}\right)p_{i}^{h_{i}}\left(1-p_{i}\right)^{S-h_{i}} )]] [[BR]]
     101La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es
     102
     103  [[LatexEquation( P_i = \mathrm{Pr}\left[\eta_{i}=h_{i}\right]=\left(\begin{array}{c}S\\h_{i}\end{array}\right)p_{i}^{h_{i}}\left(1-p_{i}\right)^{S-h_{i}} )]]
     104
    86105y el logaritmo de dicha probabilidad será
    87   [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]] [[BR]]
     106  [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]]
    88107
    89 La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto [[BR]]
    90   [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]] [[BR]]
     108La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto
     109
     110  [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]]
    91111 
    92112En realidad los entornos cercanos no pueden ser independientes entre sí, pues de hecho comparten puntos, pero en primera instancia daremos por buena la hipótesis de independencia, simplemente por comodidad y porque no está claro que sea demasiado importante el efecto de la dependencia. 
     
    98118Sujeto a
    99119
    100   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]] [[BR]]
     120  [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
    101121 
    102122Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos.
     
    104124=== Función de distribución  ===
    105125
    106 La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta] [[BR]] [[BR]]
    107   [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p_i}\left(S-h_{i},h_{i+1}\right) )]] [[BR]]
    108  
     126La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta]
     127
     128  [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p_i}\left(S-h_{i},h_{i+1}\right) )]]
     129
    109130== Filtrado de zonas hipermuestreadas ==
    110131 
     
    119140En los entornos en los que la probabilidad de defecto de muestra, sea muy alta
    120141
    121   [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right] \leq \alpha_2)]]
     142  [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\geq h_{i}\right] \geq 1-\alpha_2)]]
    122143 
    123144habrá que añadir más mediante un mecanismo que asegure la convergencia.