2 Pages • 1,458 Words • PDF • 113.8 KB
Uploaded at 2021-09-24 06:56
This document was submitted by our user and they confirm that they have the consent to share it. Assuming that you are writer or own the copyright of this document, report to us by using this DMCA report button.
Por dentro da estatística O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com frequência, médicos e profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas frequentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados. Ângela Tavares Paes Editora da seção
Análise univariada e multivariada Ângela Tavares Paes* * Doutora em Estatística do Centro de Pesquisa Clínica do Instituto Israelita de Ensino e Pesquisa Albert Einstein – IIEPAE, São Paulo (SP), Brasil.
Os estudos da área da saúde, que têm como objetivo identificar fatores associados a determinado desfecho (resposta) de interesse, frequentemente realizam “análises univariadas” seguidas por uma “multivariada”. Apesar de estarem presente em muitos trabalhos científicos, a maioria dos pesquisadores e profissionais ainda tem dúvidas a respeito destas duas abordagens. O termo “multivariada”, quando empregado em artigos médicos, a princípio causa certo estranhamento para os estatísticos ou para aqueles com formação teórica em Estatística. No meio estatístico, a “análise multivariada” é mais conhecida como uma série de técnicas que visa analisar conjuntamente grupos de variáveis (matematicamente expressos como vetores) em diferentes contextos: inferências sobre vetores de médias (MANOVA, regressão linear multivariada), análises de estruturas de covariância (componentes principais, análise fatorial, correlação canônica), técnicas de classificação e agrupamentos (análise discriminante e de cluster)(1). A “análise multivariada” mencionada no parágrafo anterior pouco tem a ver com aquela que se encontra na literatura médica. Usualmente, o termo é utilizado para se referir a modelos de regressão múltipla que buscam explicar uma variável resposta com base em um conjunto de variáveis explicativas. Nos modelos estatísticos, denomina-se “variável resposta” ou “dependente” como aquela em que se está interessado em analisar. É o foco
de atenção cuja variação ou frequência queremos entender. Pode ser, por exemplo, a ocorrência de algum evento de interesse (aparecimento de uma doença, complicações, rejeição) ou medida quantitativa (por exemplo, tempo de resposta a um tratamento ou qualquer mensuração relacionada ao fenômeno que se deseja estudar). As variáveis, que podem estar associadas ou mesmo que podem influenciar a variável resposta, são conhecidas como variáveis explicativas. Existem vários termos para variáveis explicativas: fatores de risco, fatores de exposição, fatores associados, variáveis independentes. Na área da saúde, quando o interesse é avaliar a influência de um conjunto de fatores sobre doenças, eventos ou outras características de interesse, os métodos estatísticos mais utilizados são os modelos de regressão, os quais estabelecem uma equação entre a resposta de interesse (variável dependente) e os fatores que se deseja investigar (variáveis independentes). Quando existe apenas uma variável independente, a regressão é simples e quando há mais de uma variável independente, ela é múltipla. Como normalmente existem muitas variáveis independentes, fica difícil analisá-las de uma só vez. Por esta razão, é comum dividir a análise em duas etapas: univariada e multivariada. Na análise univariada, investiga-se isoladamente a relação entre cada variável explicativa e a variável resposta, sem levar em conta as demais. Também pode ser entendida como uma análise bivariada, pois investiga a associação entre uma variável explicativa e uma resposta. Na prática, existe um grande número de variáveis explicativas, portanto, a análise univariada pode servir como critério de seleção das variáveis que entrarão em um modelo final. Como se trata de uma etapa inicial e não-definitiva da análise de einstein: Educ Contin Saúde. 2010;8(1 Pt 2): 1-2
2
dados, podemos ser menos rigorosos e adotar níveis de significância maiores que o usual (por exemplo, 0,15 ou 0,20) para não correr o risco de desprezar variáveis importantes. Dessa forma, as variáveis mais associadas ao desfecho de interesse são selecionadas para a etapa seguinte. Escolhidas as variáveis “candidatas” ao modelo final com base na análise univariada, o passo seguinte é incluí-las em uma análise multivariada. Esta consiste em avaliar simultaneamente (em um único modelo) o efeito das variáveis selecionadas sobre a resposta. Neste caso, pode-se entender que a influência de cada variável explicativa é “controlada” pelo efeito das demais. Como, em geral, existem associações entre as variáveis explicativas, é comum que variáveis “estatisticamente significativas” na univariada percam a importância na multivariada. Isso pode acontecer, pois quando analisamos o fator isoladamente não estamos levando em conta outras características que podem estar relacionadas a este fator. Por exemplo, em um grupo de pacientes em que a diabetes é mais prevalente no gênero feminino, é possível que se encontre significância estatística na univariada, sugerindo que a chance do evento de interesse é maior se a paciente for do sexo feminino. No entanto, quando esta variável é analisada em conjunto com outros fatores (inclusive diabetes), ela pode deixar de ser significativa, pois a significância encontrada na univariada era atribuída não ao gênero em si, mas à diabetes que, neste caso, em particular, era mais frequente entre as mulheres. Uma variável pode ser não-significativa na univariada e passar a ser significativa na multivariada? Embora seja menos comum, isso é possível, principalmente quando houver interação entre os fatores. A existência de interação significa que o efeito de um fator sobre a resposta depende de outro fator. Por exemplo, o efeito da diabetes sobre uma doença cardiovascular pode ser maior no gênero masculino do que no feminino. Nesse caso, não faz sentido obter uma estimativa de risco para a variável diabetes considerando o grupo total, pois é preciso diferenciar os riscos para os dois gêneros. Nos modelos com interação, a interpretação correta é bem mais delicada e envolve cálculos que não saem diretamente da saída dos programas estatísticos. Convém observar que, apesar de sua importância, o conceito de interação é ainda pouco conhecido, mesmo entre pesquisadores mais familiarizados com análises uni e multivariada. Que métodos estatísticos são utilizados nas análises univariada e multivariada? A identificação do tipo de variável resposta é que irá determinar o modelo estatístico mais apropriado. No caso de resposta dicotômica (variável que assume apenas dois valores, por exemplo, óbito - sim ou não), é comum utilizar modelos de regressão logística simples (univariada) e múltipla (multivariada)(2). Neste caso, os resultados são expressos em termos de razões de chances (Odds Ratio). Alguns estudos utilizam os termos einstein: Educ Contin Saúde. 2010;8(1 Pt 2): 1-2
“Odds Ratio não-ajustado” e “Odds Ratio ajustado” para denominar a estimativas produzidas pelos modelos uni e multivariado. Quando a resposta é quantitativa contínua, muitos estudos utilizam regressão linear simples e múltipla, assumindo distribuição normal. Quando o interesse é analisar não só o evento, como também o tempo até sua ocorrência, os modelos mais utilizados são os modelos de riscos proporcionais de Cox. Vale observar que os métodos citados são os mais comuns, mas existe uma diversidade de modelos (testes) estatísticos que podem ser considerados, principalmente nas análises univariadas. Atualmente, com as facilidades computacionais, as “análises multivariadas” têm se tornado cada vez mais populares. Entretanto, devemos alertar os pesquisadores quanto a limitações e erros na interpretação das estimativas. Por exemplo, o termo “fator preditor independente” é frequentemente utilizado para se referir a variáveis explicativas com p