close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 32 and Version 33 of OfficialTolArchiveNetworkBysSamplerPostProccess


Ignore:
Timestamp:
Jan 7, 2011, 10:21:27 AM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysSamplerPostProccess

    v32 v33  
    33= Post-procesado de cadenas de Markov =
    44
    5 Los métodos tradicionales de post-procesado de cadenas de simulación, basados en técnicas como ''burn-in'' y ''thinning'', son demasiado arbitrarios para poder parametrizarlos de forma automática sin intervención del usuario. Además no solucionan uno de los principales problemas de los métodos ''accept-reject'' con generadores de candidatos sobre paseos aleatorios, que es la alternacia de fases con exceso de repeticiones por usar un tamaño de paso demasiado grande, con otras fases en las que, por todo lo contrario, se avanza poco en cada iteración.
     5Los métodos tradicionales de post-procesado de cadenas de simulación, basados en técnicas como ''burn-in'' y ''thinning'', son demasiado arbitrarios para poder parametrizarlos de forma automática sin intervención del usuario. Además no solucionan uno de los principales problemas de los métodos ''accept-reject'' con generadores de candidatos sobre paseos aleatorios, que es la alternacia de fases con exceso de repeticiones por usar un tamaño de paso demasiado grande, con otras fases en las que, por todo lo contrario, se avanza poco en cada iteración. En ambos casos se producirán zonas hipermuestreadas. Por último, tampoco existe ninguna forma trivial de aseverar que una cadena de Markov ha recorrido el dominio de la distribución de forma suficientemente exhaustiva, es decir, de asegurar que no hay lagunas inframuestreadas.
    66
    77Las cadenas simuladas con BysSampler cuentan con una ventaja adicional al conocerse el logaritmo de la verosimiltud de cada punto muestral, salvo una constante aditiva, pues esto permite contrastarla directamente con la masa local empírica, es decir el número de puntos que han sido generados en sus cercanías.
     
    5959  [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]]
    6060
     61La esperanza del tamaño muestral local es
     62
     63  [[LatexEquation( E\left[h_{i}\right]=Sp_{i} )]]
    6164 
    6265=== Aproximación de la probabilidad del entorno local ===
     
    99102  [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
    100103 
    101 Necesitamos un criterio razonable para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]] para poder continuar con los cálculos, y dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
     104Podemos obtener un valor aproximado teniendo en cuenta que la esperanza de la suma de los tamaños muestrales observados es conocida
     105
     106  [[LatexEquation( E\left[\underset{i=1}{\overset{S'}{\sum}}h_{i}\right]=\underset{i=1}{\overset{S'}{\sum}}Sp_{i}=\underset{i=1}{\overset{S'}{\sum}}Se^{\mu_{0}+\nu_{i}} )]]
    102107 
     108Sin embargo, esta aproximación sólo es adecuada para muestras exactas, y puesto que existen serias sospechas sobre exceso de repeticiones y lagunas inframuestreadas, es posible que necesitemos un criterio más robusto para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]]. Dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
     109
    103110=== Verosimilitud del parámetro ===
    104111
     
    110117  [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]]
    111118
    112 La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno. La expresión de su logaritmo será por tanto
     119La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será proporcional al productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno. La expresión de su logaritmo será la siguiente
    113120
    114   [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}\ln\left(P_{i}\right) )]]
     121  [[LatexEquation( L\left(\mu_{0}\right) = \lambda_1 + \underset{i=1}{\overset{S'}{\sum}}\ln\left(P_{i}\right) )]]
     122
     123en la que la constante desconocida [[LatexEquation(\lambda_1)]] es irrelevante.
    115124 
    116125En realidad los entornos cercanos no pueden ser independientes entre sí, pues de hecho comparten puntos, pero en primera instancia daremos por buena la hipótesis de independencia, simplemente por comodidad y porque no está claro que sea demasiado importante el efecto de la dependencia. 
     
    146155Una vez conocida la distribución del tamaño muestral local hay que contrastarlo con el valor observado y eliminar puntos en las zonas donde sobran y añadir en aquellas en las que faltan. No tiene porqué tratarse de un trasvase sino que puede forzarse que el tamaño muestral final [[LatexEquation( S^* )]] sea menor o mayor que el inicial [[LatexEquation( S )]], según sean los intereses del usuario. Habrá situaciones, como en modelos de tamaño moderado, en las que primará la precisión y se deseará aumentar la muestra, y otras en las que por el excesivo tamaño o por la masividad del número de modelos habrá que restringir el volumen de información para ajustarse a los recursos de memoria y tiempo disponibles.
    147156
    148 Para evitar parámetros más o menos arbitratios o difíciles de calibrar se puede seguir un mecanismo iterativo que filtre y colonize en cada etapa bajo condiciones muy restrictivas, es decir, allí donde no quepa duda alguna que debe intervenirse. Tras cada etapa se calculan una serie de cuantiles sobre cada variable escalares y se para si no se perciben cambios significativos para una tolerancia dada.
     157Para evitar parámetros más o menos arbitrarios o difíciles de calibrar se puede seguir un mecanismo iterativo que filtre y colonize en cada etapa bajo condiciones muy restrictivas, es decir, allí donde no quepa duda alguna que debe intervenirse. Tras cada etapa se calculan una serie de cuantiles sobre cada variable escalares y se para si no se perciben cambios significativos para una tolerancia dada.
     158
     159En las sucesivas fases no sería preciso repetir todos los cálculos pues los algoritmos de búsqueda de vecinos permiten la inserción y borrado de puntos de forma eficiente.
    149160
    150161=== Filtrado de zonas hipermuestreadas ===
     
    175186Una posibilidad sería continuar el mismo método utilizado en la generación de la muestra analizada comenzando por los puntos centrales de los entornos más despoblados hasta compensar la masa faltante.
    176187Pero dada la información acumulada sería quizás más razonable utilizar un generador de candidatos con media en los puntos centrales en lugar de usar un paseo aleatorio. Incluso se podría usar el método de ensayo múltiple generalizado usando como precandidatos los mismos puntos generados anteriormente para la aproximación de la integral.
     188