Zero Inflado Binário Opções
AVISO: Você está vendo uma versão desatualizada desta página. O novo conteúdo pode ser encontrado no nosso novo domínio stats. idre. ucla. edu. Você também pode limpar o cache do navegador e atualizar esta página, que deve redirecioná-lo diretamente para o conteúdo atualizado. Bem-vindo ao Instituto de Pesquisa e Educação Digital R Análise de Dados Exemplos: Regressão Binomial Negativa Inflada Zero A regressão binomial negativa inflada zero é para modelar variáveis de contagem com zeros excessivos e geralmente é para variáveis de resultado de contagem superdispersa. Além disso, a teoria sugere que os zeros em excesso são gerados por um processo separado dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Esta página usa os seguintes pacotes. Certifique-se de que pode carregá-los antes de tentar executar os exemplos nesta página. Se você não tiver um pacote instalado, execute: install. packages (nome do pacote). Ou se você vê a versão está desatualizada, execute: update. packages (). Versão info: Código para esta página foi testado em R versão 3.1.1 (2014-07-10) Em: 2014-08-11 Com: boot 1.3-11 knitr 1.6 pscl 1.04.4 vcd 1.3-1 gam 1.09.1 coda 0,16-1 mvtnorm 1,0-0 GGally 0,4,7 plyr 1,8,1 MASS 7,3-33 Hmisc 3,14-4 Fórmula 1,1-2 sobrevivência 2,37-7 psych 1,4,5 reshape2 1,4 msm 1,4 phia 0,1-5 RColorBrewer 1,0-5 efeitos 3,0- 0 colorspace 1.2-4 lattice 0.20-29 pequod 0.0-3 carro 2.0-20 ggplot2 1.0.0 Atenção: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não abrange a limpeza e verificação de dados, a verificação de suposições, o diagnóstico do modelo ou as potenciais análises de acompanhamento. Exemplos de regressão binomial negativa com inflação zero Exemplo 1. Administradores escolares estudam o comportamento de freqüência de alunos do ensino médio em duas escolas. Preditores do número de dias de ausência incluem o sexo do aluno e os resultados dos testes padronizados em matemática e artes da linguagem. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pescados por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, houve crianças no grupo e quantos peixes foram capturados. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescou ou não. Alguns visitantes que fizeram peixe não pegar qualquer peixe por isso há excesso zeros nos dados por causa das pessoas que não pescar. Descrição dos dados Vamos buscar o exemplo 2 acima. Temos dados sobre 250 grupos que foram a um parque. Cada grupo foi questionado sobre quantos peixes capturaram (contagem), quantos filhos estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se traziam ou não um campista para o parque (campista) . Além de prever o número de peixes capturados, há interesse em predizer a existência de zeros em excesso, isto é, a probabilidade de um grupo pegar zero peixe. Vamos usar as variáveis criança. pessoas. E campista em nosso modelo. Vamos olhar para os dados. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa inflacionada, vamos considerar alguns outros métodos que você pode usar. Regressão OLS - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados por regressão OLS. Regressão de Poisson com inflação zero - A regressão de Poisson com inflação zero é melhor quando os dados não são sobredispersos, isto é, quando a variância não é muito maior do que a média. Modelos de Contagem Ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não houver excesso de zeros. Regressão binomial negativa com inflação zero Um modelo com inflação zero assume que zero resultado é devido a dois processos diferentes. Por exemplo, no exemplo de pesca apresentado aqui, os dois processos são que um indivíduo tem ido pescar vs não ido pesca. Se não foi pescar, o único resultado possível é zero. Se foi pescar, é então um processo de contagem. As duas partes do modelo de inflação zero são um modelo binário, geralmente um modelo logit para modelar qual dos dois processos o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Voltando ao exemplo da pesca: Para entender a regressão binomial negativa inflacionada por zero, vamos começar com o modelo binomial negativo. Existem múltiplas parametrizações do modelo binomial negativo, focando-se no NB2. A função de densidade de probabilidade binomial negativa é: onde (p) é a probabilidade de (r) sucessos. A partir disso, podemos derivar a função de verossimilhança, que é dada por: aqui encontramos a probabilidade do valor esperado, (mu) dado os dados e (alfa) que permite a dispersão. Tipicamente, isso seria expresso como uma probabilidade de log, denotada pelo script L, (mathcal): que pode ser expressa em termos de nosso modelo, substituindo (mui) por (exp (xi beta)). Voltando ao modelo binomial negativo inflacionado, a expressão da função de verossimilhança depende se o valor observado é zero ou maior que zero. Do modelo logístico de (yi 1) versus (y 0): Finalmente, note que R não estima (alfa), mas (theta), o inverso de (alfa). Agora vamos construir nosso modelo. Vamos usar as variáveis criança e campista para modelar a contagem na parte do modelo binomial negativo e as variáveis na parte logit do modelo. Usamos o pscl para executar uma regressão binomial negativa com inflação zero. Começamos por estimar o modelo com as variáveis de interesse. A saída se parece muito com a saída de duas regressões OLS em R. Abaixo da chamada do modelo, você encontrará um bloco de saída contendo coeficientes de regressão binomial negativos para cada uma das variáveis, juntamente com os erros padrão, z-scores e p-values Para os coeficientes. Um segundo bloco segue que corresponde ao modelo de inflação. Isso inclui coeficientes de logit para prever zeros em excesso juntamente com seus erros padrão, escores z e valores de p. Todos os preditores nas porções de contagem e inflação do modelo são estatisticamente significativos. Este modelo ajusta os dados significativamente melhor do que o modelo nulo, isto é, o modelo apenas de intercepção. Para mostrar que este é o caso, podemos comparar com o modelo atual para um modelo nulo sem preditores usando teste qui-quadrado na diferença de probabilidades log. A partir da saída acima, podemos ver que o nosso modelo global é estatisticamente significativa. Note que a saída do modelo acima não indica de forma alguma se o nosso modelo de inflação zero é uma melhoria em relação a uma regressão binomial negativa padrão. Podemos determinar isto executando o correspondente modelo binomial negativo padrão e então realizando um teste Vuong dos dois modelos. Usamos o pacote MASS para executar a regressão binomial negativa padrão. Os preditores criança e campista na parte do modelo de regressão binomial negativa prevendo o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa preditora na parte do modelo logit prediz zeros excessivos é estatisticamente significativa. Para esses dados, a mudança esperada no log (contagem) para um aumento de uma unidade na criança é -1,515255 mantendo outras variáveis constantes. Um campista (campista 1) tem um log esperado (contagem) de 0,879051 maior do que o de um não-campista (campista 0) mantendo outras variáveis constantes. O log odds de ser um excesso zero diminuiria por 1,67 para cada pessoa adicional no grupo. Em outras palavras, quanto mais pessoas no grupo menos provável que o zero seria devido a pesca não foi. Coloque claramente, quanto maior o grupo a pessoa estava, mais provável que a pessoa foi pescar. O teste de Vuong sugere que o modelo binomial negativo inflacionado é uma melhoria significativa em relação a um modelo binomial negativo padrão. Podemos obter intervalos de confiança para os parâmetros e os parâmetros exponenciados usando bootstrapping. Para o modelo binomial negativo, estas seriam razões de incidência de risco, para o modelo de inflação zero, odds ratios. Usamos o pacote de inicialização. Primeiramente, obtemos os coeficientes de nosso modelo original para usar como valores iniciais para o modelo para acelerar o tempo que leva para estimar. Em seguida, escrevemos uma função curta que leva dados e índices como entrada e retorna os parâmetros que nos interessam. Finalmente, passamos isso para a função de inicialização e fazer 1200 repetições, usando neve para distribuir em quatro núcleos. Note que você deve ajustar o número de núcleos para o que sua máquina tem. Além disso, para os resultados finais, pode-se desejar aumentar o número de repetições para ajudar a garantir resultados estáveis. Os resultados são estimativas de parâmetros alternados e erros padrão. Ou seja, a primeira linha tem a primeira estimativa de parâmetro do nosso modelo. O segundo tem o erro padrão para o primeiro parâmetro. A terceira coluna contém os erros padrões bootstrapped, que são consideravelmente maiores do que os estimados por zeroinfl. Agora podemos obter os intervalos de confiança para todos os parâmetros. Começamos na escala original com percentil e ICs ajustados por viés. Também comparamos esses resultados com os intervalos de confiança regulares com base nos erros padrão. Os intervalos de confiança bootstrap são consideravelmente maiores do que a aproximação baseada normal. Os ICs bootstrap são mais consistentes com os CIs da Stata quando se utilizam erros padrão robustos. Agora podemos estimar a razão de risco de incidência (IRR) para o modelo binomial negativo eo odds ratio (OR) para o modelo logístico (inflação zero). Isso é feito usando código quase idêntico como antes, mas passando uma função de transformação para o argumento h de boot. ci. Neste caso, exp para exponentiate. Para entender melhor nosso modelo, podemos calcular o número esperado de peixe capturado para diferentes combinações de nossos preditores. De fato, uma vez que estamos trabalhando com preditores essencialmente categóricos, podemos calcular os valores esperados para todas as combinações usando a função expand. grid para criar todas as combinações e, em seguida, a função predizer para fazê-lo. Finalmente, criamos um gráfico. Coisas a considerar Aqui estão alguns problemas que você pode querer considerar no curso de sua análise de pesquisa. A pergunta sobre o parâmetro da sobre-dispersão é geralmente complicada. Um grande parâmetro de sobre-dispersão poderia ser devido a um modelo de falta de especificação ou poderia ser devido a um processo real com sobre-dispersão. A adição de um problema de sobre-dispersão não melhora necessariamente um modelo com falta de especificação. O modelo binomial negativo inflacionado a zero tem duas partes, um modelo de contagem binomial negativa e o modelo logit para prever zeros em excesso, por isso você pode querer rever estas páginas de Exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Uma vez que o binômio inflacionado negativo tem um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de predição perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo com inflação zero. Os dados de contagem geralmente usam a variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição (também chamada de offset) em seu modelo usando a função offset (). Não se recomenda que modelos binomiais negativos com inflação zero sejam aplicados em pequenas amostras. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Pseudo-R-quadrado valores diferem de OLS R-squareds, consulte FAQ: O que são pseudo R-squareds para uma discussão sobre este problema. R Online Referências ao Manual Long, J. S. 1997. Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Publicações Sage. Everitt, BS e Hothorn, T. Um Manual de Análises Estatísticas Usando R O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. O GENMOD Procedure Zero - Modelos Inflados Os dados de contagem que têm uma incidência de zeros maior do que o esperado para a distribuição de probabilidade subjacente de contagens podem ser modelados com uma distribuição inflado por zero. Em GENMOD, a distribuição subjacente pode ser Poisson ou binômio negativo. Ver Lambert (1992), Long (1997) e Cameron e Trivedi (1998) para mais informações sobre modelos com inflação zero. Considera-se que a população consiste em dois tipos de indivíduos. O primeiro tipo fornece Contagens distribuídas de Poisson ou binômio negativo, que podem conter zeros. O segundo tipo sempre dá uma contagem zero. Seja a média de distribuição subjacente e seja a probabilidade de um indivíduo ser do segundo tipo. O parâmetro é aqui chamado de probabilidade de inflação zero. E é a probabilidade de zero contagens em excesso da frequência prevista pela distribuição subjacente. Você pode solicitar que a probabilidade de inflação zero seja exibida em um conjunto de dados de saída com a palavra-chave PZERO. A distribuição de probabilidade de uma variável aleatória de Poisson inflada a zero Y é dada por e a distribuição de probabilidade de uma variável aleatória binomial negativa inflada zero Y é dada por onde k é o parâmetro de dispersão binomial negativo. Onde h é uma das funções binárias do link: logit, probit ou log-log complementar. A função de link h é o link logit por padrão, ou a opção de função link especificada na instrução ZEROMODEL. A função de ligação g é a função de ligação de log por predefinição, ou a função de ligação especificada na instrução MODELO, tanto para o Poisson quanto para o binómio negativo. As covariáveis para observação i são determinadas pelo modelo especificado na instrução ZEROMODEL e as covariáveis são determinadas pelo modelo especificado na instrução MODELO. Os parâmetros de regressão são estimados por máxima verossimilhança. A média e a variância de Y para o Poisson com inflação zero são dadas por e para o binômio negativo inflacionado por zero. Você pode solicitar que a média de Y seja exibida para cada observação em um conjunto de dados de saída com a palavra-chave PRED. zeroinfl: Zero - inflated Contagem Regressão de dados argumentos passados para zeroinfl. control na configuração padrão. Os modelos de contagem zero-inflados são modelos de mistura de dois componentes que combinam uma massa de ponto em zero com uma distribuição de contagem apropriada. Assim, existem duas fontes de zeros: os zeros podem vir tanto da massa pontual como da componente de contagem. Normalmente o modelo de contagem é um Poisson ou regressão binomial negativa (com link de log). A distribuição geométrica é um caso especial do binômio negativo com parâmetro de tamanho igual a 1. Para modelar o estado não observado (zero versus contagem), um modelo binário é usado que capta a probabilidade de inflação zero. No caso mais simples, apenas com um intercepto mas potencialmente contendo regressores. Para este modelo de inflação zero, um modelo binomial com diferentes links pode ser usado, tipicamente logit ou probit. A fórmula pode ser usada para especificar ambos os componentes do modelo: Se uma fórmula de tipo y x1 x2 é fornecida, então os mesmos regressores são empregados em ambos os componentes. Isto é equivalente a y x1 x2 x1 x2. Evidentemente, um conjunto diferente de regressores poderia ser especificado para a contagem e componente de inflação nula, e. Y x1 x2 z1 z2 z3 dando o modelo de dados de contagem y x1 x2 condicional em () o modelo de inflação zero y z1 z2 z3. Um modelo de inflação simples em que todas as contagens de zero têm a mesma probabilidade de pertencer ao componente zero podem ser especificados pela fórmula y Deslocamentos podem ser especificados em ambos os componentes do modelo relativo ao modelo de contagem e inflação zero: y x1 deslocamento (x2) Z1 z2 deslocamento (z3). Onde x2 é usado como um deslocamento (isto é, com o coeficiente fixado a 1) na componente de contagem e z3 analogamente na componente de inflação zero. Pela regra indicada acima y x1 deslocamento (x2) é expandido para y x1 deslocamento (x2) x1 deslocamento (x2). Em vez de usar o wrapper offset () dentro da fórmula. O argumento offset também pode ser empregado, que define um deslocamento apenas para o modelo de contagem. Assim, a fórmula y x1 eo deslocamento x2 é equivalente à fórmula y x1 offset (x2) x1. Todos os parâmetros são estimados pela máxima verossimilhança usando optim. Com opções de controle definidas em zeroinfl. control. Os valores iniciais podem ser fornecidos, estimados pelo algoritmo EM (maximização da expectativa) ou por glm. fit (o padrão). Os erros padrão são derivados numericamente usando a matriz de Hessian retornada pelo optim. Consulte zeroinfl. control para obter detalhes. O objeto modelo retornado ajustado é de classe zeroinfl e é semelhante a objetos glm cabidos. Para elementos como coeficientes ou termos uma lista é retornada com elementos para o zero e contagem de componentes, respectivamente. Para detalhes veja abaixo. Um conjunto de funções de extração padrão para objetos modelo montados está disponível para objetos da classe zeroinfl. Incluindo métodos para as funções genéricas de impressão. resumo. Coef Vcov. LogLik. Resíduos. prever. Montado. Termos. Model. matrix. Consulte predict. zeroinfl para obter mais detalhes sobre todos os métodos. Um objeto da classe zeroinfl. Uma lista com componentes incluindo
Comments
Post a Comment