Problemas de seleção amostral ocorrem quando os indivíduos incluídos na amostra não são representativos da população alvo, ou seja, a população para a qual queremos tomar decisões. No contexto da Covid-19, a incapacidade da maioria dos países afetados em testar um número suficientemente grande de pessoas impossibilita a obtenção de uma amostra representativa da população alvo (neste caso, pessoas infectadas com a Covid-19). A consequência imediata da seleção amostral é uma distorção dos parâmetros ou estatísticas acerca da prevalência e progressão da Covid-19. Por exemplo, a taxa de mortalidade de casos (número de mortes por casos detetados) é severamente afetada pela seleção amostral, uma vez que os indivíduos com sintomas e estados clínicos mais severos (e logo com uma menor probabilidade de sobreviver) têm uma maior probabilidade de serem testados.
No caso da mortalidade, e pondo de lado todos os problemas relatados com a medição exata do número de fatalidades, a estatística de maior relevância para os decisores políticos (e o público) é a taxa de mortalidade de infectados (número de mortes por casos infectados). Dado as limitações internacionais em testar em grande escala (talvez com a exceção da Islândia), resta-nos estimar este valor empiricamente, ajustado para o número de casos não diagnosticados. Foi isto que foi feito pelo grupo da Imperial College de Londres, cujo modelo epidemiológico tem sido amplamente usado por outros países para modelar as trajetórias da Covid-19 e as consequências de várias políticas de contenção. Contudo, estas estimativas da taxa de mortalidade de infectados, assim como outras medidas de progressão da Covid-19 (por exemplo, número de dias necessários para os casos da Covid-19 duplicarem) são afetados por outros aspetos de seleção amostral (para além da autosseleção dos casos mais severos já referida acima).
A mais evidente é a subestimação do número de casos infectados, que resulta principalmente da baixa capacidade que a maior parte dos países tem em testar e rastrear a população. Ou seja, a probabilidade de indivíduos assintomáticos serem testados é bastante baixa. Uma consequência imediata é a subestimação do período de incubação do coronavírus uma vez que os indivíduos com períodos de incubação mais longos têm uma maior probabilidade em não serem detetados numa fase mais inicial da epidemia. Adicionalmente, casos cujo período de incubação é conhecido, por exemplo contactos com outros casos confirmados, têm uma maior probabilidade de serem incluídos na amostra.
Um outro aspeto da seleção amostral e um dos menos reconhecidos, tem que ver com as restrições impostas à circulação de pessoas. Por exemplo, dados de casos exportados de Wuhan (indivíduos infectados em Wuhan mas diagnosticados fora de Wuhan) foram usados em estudos preliminares, incluindo o estudo do Imperial College, no cálculo de parâmetros epidemiológicos. Neste contexto, a probabilidade de ser incluído na amostra de casos exportados é maior para os indivíduos infectados numa fase mais inicial da epidemia, dado que Governo de Wuhan impôs confinamento no dia 23 janeiro. O uso desta amostra levou a uma subestimação da progressão da Covid-19 e do período de incubação do coronavírus, dadas as diferenças na taxa de crescimento epidémico em diferentes fases da epidemia.
Projeções epidemiológicas de doenças infecciosas como a Covid-19 são notoriamente sensíveis aos parâmetros do modelo, não só porque têm de modelar um processo exponencial, mas também pela limitada qualidade e quantidade dos dados disponíveis. Por esta mesma razão, não podemos dar-nos ao luxo de ignorar os problemas de seleção amostral para evitar uma distorção maior destas estimativas, e existe já algum trabalho a emergir nesta área.
Manuel Gomes
University College London, Reino Unido