Nos últimos anos, o uso de neurotoxinas botulínicas (BoNTs) e preenchimentos faciais para melhorar a aparência das rugas faciais tornou-se comum. De fato, desde 1997, o número de procedimentos cosméticos realizados nos EUA aumentou em 446%, e os dados de 2005 mostraram que 66% de todos os procedimentos cosméticos realizados foram não cirúrgicos (1). Em geral, os pacientes se apresentam para esse tratamento e voltam para o retratamento, pois percebem sinais de envelhecimento, que incluem tanto o envelhecimento intrínseco quanto o fotoenvelhecimento. O aumento do interesse por procedimentos cosméticos não cirúrgicos exigiu o desenvolvimento de escalas para medir o grau de envelhecimento e a gravidade das rugas faciais. As escalas também são necessárias para avaliar o nível de melhora resultante dos procedimentos cosméticos. No passado, as escalas usadas pelos médicos muitas vezes não eram validadas e existe uma grande variedade de tais escalas. Escalas adicionais foram desenvolvidas por empresas farmacêuticas durante os processos de aprovação regulatória para produtos cosméticos, mas essas escalas são de propriedade privada e não estão disponíveis para uso geral. Portanto, há uma necessidade de escalas devidamente validadas e disponíveis gratuitamente para os médicos. Hoje, tal conjunto de escalas existe, que pode ser tanto usado para medir o próprio processo de envelhecimento e os efeitos de tratamentos destinados a melhorar os sinais de envelhecimento quanto como parte do processo de aprovação regulamentar de novos produtos.
Escalas validadas também são importantes para avaliar os resultados relatados pelo paciente, como qualidade de vida e satisfação com o tratamento. Essas são medidas mais subjetivas, mas são importantes para avaliar o sucesso dos procedimentos cosméticos. Porém, ferramentas objetivas, mais confiáveis e não influenciadas pela avaliação subjetiva do paciente, devem ser consideradas superiores. É importante ressaltar que as recentes revisões sistemáticas da literatura demonstraram a natureza heterogênea dos métodos usados para avaliar a satisfação do paciente e destacam a necessidade de medidas confiáveis e validadas para relatá-la [2,3]. Por exemplo, uma revisão sistemática de Kosowski et al. identificou 47 medidas de resultados relatados por pacientes que avaliam a aparência facial após um procedimento cosmético, de 442 artigos [3]. Nenhuma das medidas identificadas atendeu a todas as diretrizes internacionais relevantes para o desenvolvimento e validação de questionários de resultados de saúde [3]. Da mesma forma, Fagien e Carruthers identificaram 17 medidas de desfecho separadas em 23 estudos de tratamento com BoNT [2]. A maioria deles foi baseada em escalas do tipo Likert, variando de três a escalas de 11 pontos, e muitos focados na área glabelar.
Escalas de avaliação de rugas usadas atualmente
A literatura científica carece gravemente de uma ferramenta padronizada para a medição do envelhecimento, e vários instrumentos diferentes foram publicados. Por exemplo, um estudo de BoNT A para o tratamento de linhas faciais hipercinéticas utilizou uma escala objetiva de seis pontos da presença ou ausência de linhas de expressão em repouso e a capacidade de recriar as linhas de expressão com esforço (4). A maioria dos pacientes que requerem tratamento foi categorizada como Grau 3 (um paciente expressivo que pode criar uma expressão indesejada repetidamente, mas não apresenta uma linha óbvia em repouso) ou Grau 6 (linhas de expressão problemáticas, mesmo em repouso). Nenhuma avaliação da confiabilidade da escala ou validação foi realizada. Como parte do mesmo estudo, um questionário de aceitação do paciente, impressão da terapia e resultados de curto prazo e complicações foi usado, embora nenhum outro detalhe do questionário tenha sido fornecido (4).
Honeck et al. desenvolveram uma escala de quatro pontos (0 = sem rugas faciais; 3 = rugas faciais graves) para linhas de expressão glabelares, com base em documentação fotográfica padronizada, que foi usada para desenvolver um atlas de consenso de linhas de expressão glabelares para treinamento de 28 dermatologistas (5). No geral, os autores concluíram que a escala teve bons indicadores e que possuem reprodutibilidade - de interobservador (k=0,62, método Fleiss (6)) e intraobservador (k=0,57 - 0,91, método de Cohen (7); k= 0,68 - 0,94, Método de Cicchetti e Allison (8)). Da mesma forma, Hund et al. avaliou duas escalas de quatro pontos usadas para determinar a gravidade das linhas cantais laterais (pés de galinha) (0 = nenhum; 3 = grave) (9). A primeira escala foi utilizada com a face em repouso e a segunda com sorriso máximo. Cada escala foi baseada em um atlas de consenso de fotografias padronizadas e avaliadas por nove investigadores no Dia 1 e oito investigadores no Dia 2. A reprodutibilidade intra-examinador (método de Cohen) foi de 0,47-0,86 para a escala em repouso e 0,62-0,81 para o máximo da escala de sorriso, embora a variabilidade tenha sido maior entre os investigadores do sexo masculino do que feminino. A reprodutibilidade interexaminadores foi de 0,60 e 0,58 (método Fleiss) e 0,63 - 0,91 e 0,71 - 0,85 (método de Cicchetti e Allison) para as escalas de repouso e sorriso máximo, respectivamente, novamente com maior variabilidade entre os avaliadores do sexo masculino. Nenhuma avaliação da validade da escala ou responsividade foi feita.
Em um estudo comparativo randomizado, Narins et al. (10) compararam o gel de ácido hialurônico (Restylane ®) com o colágeno bovino (Zyplast ®) para o tratamento de indivíduos com dobras nasolabiais proeminentes (n =138) (10). Os resultados foram avaliados com o investigador Wrinkle Severity Rating Scale e Global Aesthetic Improvement Scale. A primeira é uma escala de cinco pontos baseada em fotografia, projetada para quantificar as dobras faciais (1 = ausente; 5 = extrema), que foi previamente validada por Day et al. (11), enquanto o último é uma escala de melhoria relativa de cinco pontos, variando de "pior" a "muito melhorada".
Para fornecer quantificação objetiva da melhora nas rugas faciais após a injeção de preenchimento, Lemperle et al. desenvolveu uma escala de avaliação fotonumérica de seis pontos na qual o grau da ruga em fotografias de referência foi comparado com a ruga no rosto de um paciente (12). A confiabilidade da escala foi avaliada por nove observadores com base na avaliação de 76 rugas. No geral, 92,7% de todas as rugas receberam a mesma avaliação de cada observador. Posteriormente, as fotografias de 130 rugas foram avaliadas por oito observadores, que avaliaram 89,4% de todas as rugas igualmente. Quando o julgamento do observador foi correlacionado com a profundidade objetiva das rugas medida por profilometria em 40 impressões de silicone, uma correlação significativa de 87% foi encontrada.
Inúmeras outras escalas de avaliação quantitativas objetivas foram desenvolvidas para medir detalhes tridimensionais da superfície da pele por meio do uso de réplicas da pele (12,13) e análises ópticas (14,15) ou assistidas por computador (16). Os requisitos significativos de equipamento para essas escalas, entretanto, limitam sua utilidade na prática clínica. Finalmente, alguns autores desenvolveram escalas de avaliação subjetivas, como a descrição dos pés de galinha por Kane (17) ou a escala de avaliação quantitativa para avaliar mudanças gerais na pele facial por Alexiades-Armenakas (18).
Vantagens das escalas atuais
As escalas atualmente disponíveis oferecem uma série de vantagens. Em primeiro lugar, permitem que sejam feitas comparações intraestudo, como a comparação do gel de ácido hialurônico com o colágeno bovino, já referida (10). Neste estudo, os resultados da Wrinkle Severity Rating Scale mostraram que o gel de ácido hialurônico foi superior 6 meses após a correção cosmética em 56,9% dos pacientes, em comparação com 9,5% para o colágeno bovino, enquanto a Escala Global de Melhoria Estética mostrou que o gel de ácido hialurônico e o colágeno bovino foi superior em 62,0% e 8,0% dos pacientes, respectivamente. As escalas de avaliação existentes também permitem uma avaliação da satisfação do paciente com o tratamento, um resultado importante (embora altamente subjetivo) (2). Finalmente, alguns dos instrumentos disponíveis podem acomodar mudanças na extensão das rugas com o movimento facial. Por exemplo, como discutido acima, Hund et al. desenvolveram duas escalas relacionadas para a avaliação dos pés de galinha em repouso e no sorriso máximo (9).
Limitações das escalas atuais
Várias das escalas disponíveis são baseadas em uma escala Likert de quatro pontos. Esses instrumentos são limitados pela falta de um ponto médio, forçando os avaliadores a selecionar uma classificação acima ou abaixo da média, o que os torna menos sensíveis. Além disso, a maioria das escalas publicadas não passou por nenhum processo formal de validação, e muitas são subjetivas em sua avaliação da gravidade das rugas (2). Além disso, a análise com alguns instrumentos requer equipamentos que podem não estar amplamente disponíveis. Por exemplo, alguns instrumentos contam com réplicas de pele utilizando borracha de silicone ou materiais semelhantes (12,13), enquanto outros utilizam sistemas óticos para avaliar a topografia tridimensional e morfologia da pele (14,15). É importante ressaltar que atualmente não existe uma abordagem padrão para a avaliação das rugas, impossibilitando comparações diretas entre os estudos (3).
Um conjunto de novas escalas de graduação facial validadas
Claramente, existe a necessidade de uma escala de classificação quantitativa, objetiva e validada para avaliar os sinais estéticos do envelhecimento. Além disso, a escala ideal permitiria monitorar a resposta das rugas ao tratamento cosmético. Recentemente, um conjunto de escalas de classificação validadas foi publicado para posicionamento de sobrancelha (19), linhas da testa (20), dobras melomentais (linhas de marionete) (21) e pés de galinha (22). As escalas são projetadas para serem usadas na prática clínica diária e também podem ser usadas em ensaios clínicos para avaliar os resultados do tratamento com BoNT ou preenchimentos faciais.
Cada escala foi desenvolvida como uma escala de cinco pontos usando fotografia simulada por computador. Alterações anatômicas específicas decorrentes do envelhecimento foram identificadas em consulta com um médico e foram incorporadas às fotografias para criar cinco imagens representativas, com o aspecto em consideração apresentando uma variação gradual (Figuras 1 - 4). Quando as "linhas" foram formadas como resultado do movimento de diferentes grupos musculares (por exemplo, pés de galinha e linhas da testa), imagens estáticas e dinâmicas foram incluídas. Aproximadamente 50 imagens (por conjunto de validação de escala) foram selecionadas de um banco de dados de fotografias de 100 indivíduos, com base na qualidade e distribuição igual em cada escala representativa. Usando um programa de randomização de computador padronizado, 35 imagens por área-alvo ou conjunto de validação foram selecionadas aleatoriamente das 50 para inclusão final no pool.
As escalas foram avaliadas e validadas em encontro internacional de médicos envolvidos na medicina estética, representando diversas especialidades, incluindo dermatologia, oftalmologia, cirurgia plástica e cirurgia dermatológica (1). Como parte do processo de desenvolvimento, o painel de especialistas, todos os quais foram formalmente treinados no uso das escalas, discutiu cada escala e deu notas duas vezes usando um intervalo noturno entre as duas classificações. A análise da variabilidade intra e interexaminador foi realizada para cada escala.
A Escala de Classificação de Posicionamento da Sobrancelha foi desenvolvida para fornecer quantificação objetiva da gravidade do mau posicionamento da sobrancelha (19). A escala varia de 0 (aparência jovem e revigorada e sobrancelha alta em arco) a 4 (sobrancelha plana com quase nenhum arco, marcada visibilidade das dobras e aparência muito cansada) (Figura 1). Os coeficientes de correlação intraclasse (ICCs) para as duas avaliações da escala foram de 0,697 e 0,660, sugerindo um nível de concordância aceitável entre os especialistas. Os coeficientes de correlação teste - reteste variaram de 0,678 a 0,912.
Figura 1 - Imagens de referência para a escala de classificação do posicionamento da sobrancelha de cinco pontos (19).
A Escala de Classificação das Linhas da Testa foi desenvolvida para quantificar objetivamente as linhas da testa em repouso (estática) e hipercinética (dinâmica), e varia de 0 (sem rugas) a 4 (rugas mais profundas em repouso e sulcos mais profundos com expressão facial) (Figura 2) (20 ) Os ICCs foram calculados para a primeira e segunda avaliações, respectivamente, para linhas frontais estáticas (0,846 e 0,863) e dinâmicas (0,852 e 0,892), com alto índice de concordância entre os especialistas. Os coeficientes de correlação teste-reteste (linhas estáticas da testa, 0,846 - 0,942; linhas dinâmicas da testa, 0,859 - 0,941) também foram altos para cada especialista.
Figura 2 - Imagens de referência para a escala de classificação das linhas da testa de cinco pontos: (A) escala de classificação estática; (B) escala de graduação dinâmica (20).
A escala de graduação das linhas de marionete varia de 0 (sem prega visível, linha cutânea contínua) a 4 (pregas extremamente longas e profundas prejudiciais à aparência facial) (Figura 3) (21). Assim como na Escala de Classificação das Linhas da Testa, a concordância entre os especialistas foi alta, com ICCs de 0,873 e 0,891 após a primeira e segunda classificação, respectivamente. As correlações de teste intraexaminador - reteste também foram altas (0,845 - 0,966).
Figura 3 - Imagens de referência para a escala de classificação das linhas de marionete de cinco pontos (21).
A escala de graduação dos pés de galinha foi desenvolvida para quantificar a gravidade das linhas cantais laterais em repouso (estática) e na contratura máxima do músculo orbicular do olho (dinâmico) (22). A escala classifica rugas de 0 (nenhuma) a 4 (severa) (Figura 4). Com base nos ICCs, houve considerável concordância entre os especialistas. Para a escala estática, os ICCs foram 0,893 e 0,882 para a primeira e segunda avaliações, respectivamente, enquanto os da escala dinâmica foram 0,879 e 0,892. Teste intraexaminador - coeficientes de correlação de reteste foram de 0,904 - 0,968 para a escala estática e 0,888 - 0,951 para a escala dinâmica.
Figura 4 - Imagens de referência para a escala de classificação de pés de galinha de cinco pontos: (A) escala de classificação estática; (B) escala de graduação dinâmica (22).
Vantagens desta abordagem
Esta abordagem para criar uma série de escalas de classificação para avaliar vários parâmetros estéticos tem inúmeras vantagens. É importante ressaltar que as escalas foram validadas por uma equipe de médicos internacionais representando um corte transversal de idade, experiência e sexo. Conforme observado acima, todos eram especialistas em medicina estética, formados em diferentes disciplinas. Isso foi essencial para trazer diferentes perspectivas e conhecimentos na avaliação da beleza durante o processo de envelhecimento (1). Cada instrumento foi desenhado como uma escala de cinco pontos que, ao contrário das escalas de quatro pontos comuns usadas nesta área, inclui um ponto médio. A graduação de um processo contínuo, como o envelhecimento, é facilitada se houver centro e pontos finais claramente identificados na escala (1). O desenvolvimento das escalas baseou-se em fotografia simulada por computador, utilizando metodologia semelhante para cada instrumento. Para cada escala, características anatômicas específicas ao aspecto avaliado foram incorporadas às fotografias de forma gradativa. É importante ressaltar que para aqueles aspectos em que as linhas são formadas como resultado do movimento de diferentes grupos musculares (como pés de galinha e linhas da testa), imagens estáticas e dinâmicas foram incluídas (1). Isso é especialmente importante para avaliar a eficácia das toxinas botulínicas, que afetam a atividade muscular, enquanto a validação de escalas quando os músculos estão em repouso é mais importante para preenchimentos faciais.
Durante o processo de validação, cada um dos nove participantes deu duas notas em cada escala, com um intervalo noturno entre as duas notas. Isso permitiu que a variabilidade intra e interexaminador fosse avaliada, com a primeira representada visualmente como gráficos de bolhas (Figura 5). Eles fornecem um método informativo de comparação de notas entre os diferentes avaliadores (1). Para linhas da testa, os coeficientes de confiabilidade teste - reteste foram altos, indicando estabilidade suficientemente alta das avaliações após um intervalo noturno (20). Para a classificação dinâmica de elevação máxima da testa, pontuações de 3 (rugas finas presentes em repouso e linhas mais profundas com a expressão facial) e 4 (rugas mais profundas em repouso e sulcos mais profundos com a expressão facial) mostraram um grande aglomerado e, portanto, um bom resultado em os coeficientes de correlação (Figura 5). Para linhas de marionete (21) e pés de galinha (22), os coeficientes de confiabilidade teste - reteste também foram altos, novamente indicando boa estabilidade das classificações após o intervalo noturno. Em relação à variabilidade entre avaliadores, os ICCs foram considerados altos para linhas da testa, pés de galinha e linhas de marionete, e moderadamente altos para o posicionamento da testa (19 - 22).
Figura 5 - Exemplo de gráficos de bolhas comparando avaliadores da Escala de Classificação das Linhas da Testa (avaliação dinâmica) (20). O tamanho de cada 'bolha' corresponde à frequência de cada par de pontuações na classificação inicial e subsequente reclassificação.
Possíveis limitações
Imagens transformadas e processadas por computador, embora padronizadas para uma área específica do local, não se traduzem clinicamente nas múltiplas mudanças físicas que ocorrem em um rosto envelhecido (20 - 22). A avaliação fotográfica e a avaliação do paciente vivo são distintas e, portanto, as avaliações usando a escala no contexto de um ensaio clínico devem ser realizadas em fotografias padronizadas em vez de exame físico (ao vivo).
Usando a Escala de Classificação de Posicionamento de Sobrancelha, a confiabilidade teste - reteste foi moderada, indicando estabilidade bastante fraca das classificações após um intervalo noturno (19). Os ICCs para posicionamento das sobrancelhas também foram moderados, e pode ser que o número de possíveis variações no formato da sobrancelha, arco e pálpebra superior, juntamente com as diferenças de sexo, expliquem porque o consenso entre os avaliadores não foi maior durante o processo de classificação . A ampla gama de diferenças no tamanho da sobrancelha (artificialmente fina nas mulheres e espessa / larga nos homens), colocação (determinada por diferenças genéticas e raciais) e forma (arqueada ou reta) torna mais difícil definir uma graduação padronizada. Para a Escala de Classificação da Linha da Testa (20), a comparação da distribuição dos resultados para linhas da testa estáticas e dinâmicas sugere que a pontuação de ambos os componentes é essencial para fornecer uma avaliação precisa.
Considerações importantes
A avaliação das linhas e rugas é realizada a partir de fotografias, portanto, é fundamental que as fotos de antes e depois sejam padronizadas com cuidado. Quan et al. documentaram um método simples pelo qual as lesões faciais e outras características podem ser documentadas com precisão usando apenas um único ponto de referência, com base em uma técnica de "relógio" (23). Quando combinado com um método como o Frankfort horizontal (uma linha que une o meato acústico externo superior e a borda infraorbital), o posicionamento simples e preciso das características faciais pode ser alcançado (24).
Avaliações avançadas em estética
As quatro escalas validadas aqui descritas foram apresentadas em vários encontros internacionais, onde foram bem recebidas por médicos que trabalham em medicina estética. Na verdade, as escalas estão agora em uso clínico nos EUA. Quando apresentadas na Europa, tem havido grande interesse e desejo por mais informações, e espera-se que os médicos europeus comecem a usar essas escalas em sua prática diária. Olhando para o futuro, parece provável que os médicos estéticos verão a introdução de novas escalas para medir o impacto de suas intervenções, começando com a face / pescoço e, em seguida, ampliando para incluir outras áreas do corpo. Essas novas escalas, é claro, apresentam novos desafios, mas também ajudam a refinar a prática estética e a impulsionar a busca por novas soluções.
Conclusão
Quatro escalas validadas para gradação de linhas e rugas faciais foram desenvolvidas. Essas escalas fotonuméricas de cinco pontos medem a gravidade das rugas em cada posição para a qual os pacientes comumente procuram correção. Cada escala é bem estratificada para uma classificação consistente e, juntas, representam um avanço nos procedimentos estéticos. As balanças estão sendo usadas com sucesso nos EUA e provavelmente chegarão à Europa em breve, onde esperamos compartilhá-las mais amplamente com os colegas.
REFERÊNCIAS:
Carruthers A, Carruthers J. ‘ S cale Summit’ . Dermatol Surg. 2008;34(suppl 2):S149.
Fagien S, Carruthers JD. A comprehensive review of patientreported satisfaction with botulinum toxin type A for aesthetic procedures. Plast Reconstr Surg. 2008;122:1915 – 25.
Kosowski TR, McCarthy C, Reavey PL, Scott AM, Wilkins EG, Cano SJ, et al. A systematic review of patient-reported outcome measures after facial cosmetic surgery and/or nonsurgical facial rejuvenation. Plast Reconstr Surg. 2009;123: 1819 – 27.
Goodman G. Botulinum toxin for the correction of hyperkinetic facial lines. Australas J Dermatol. 1998;39:158 – 63.
Honeck P, Weiss C, Sterry W, Rzany B. Reproducibility of a four-point clinical severity score for glabellar frown lines. Br J Dermatol. 2003;149:306 – 10.
Fleiss JL. Measuring nominal scale agreement among many raters. Psychol Bull. 1971;76:378 – 82.
Cohen J. A coeffi cient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37 – 46.
Cicchetti DV, Allison T. A new procedure for assessing reliability of scoring EEG sleep recordings. Am J EEG Technol. 1971;11:101 – 9.
Hund T, Ascher B, Rzany B. Reproducibility of two four-point clinical severity scores for lateral canthal lines (crow ’ s feet). Dermatol Surg. 2006;32:1256 – 60.
Narins RS, Brandt F, Leyden J, Lorenc ZP, Rubin M, Smith S. A randomized, double-blind, multicenter comparison of the effi cacy and tolerability of Restylane versus Zyplast for the correction of nasolabial folds. Dermatol Surg. 2003;29:588 – 95.
Day D, Littler C, Swift R, Gottlieb SL. The wrinkle severity rating scale: A validation study. Am J Clin Dermatol. 2004;5:49 – 52.
Lemperle G, Holmes RE, Cohen SR, Lemperle SM. A classification of facial wrinkles. Plast Reconstr Surg. 2001; 108:1735 – 50.
Hatzis J. The wrinkle and its measurement – A skin surface profi lometric method. Micron. 2004;35:201 – 19.
Grove GL, Grove MJ, Leyden JJ. Optical profi lometry: An objective method for quantifi cation of facial wrinkles. J Am Acad Dermatol. 1989;21:631 – 7.
Akazaki S, Nakagawa H, Kazama H, Osanai O, Kawai M, Takema T, et al. Age-related changes in skin wrinkles assessed by a novel three-dimensional morphometric analysis. Br J Dermatol. 2002;147:689 – 95.
Jacobi U, Chen M, Frankowski G, Sinkgraven R, Hund M, Rxanv B, et al. In vivo determination of skin surface topography using an optical 3D device. Skin Res Technol. 2004;10: 207 – 14.
Kane MA. Classifi cation of crow’ s feet patterns among Caucasian women: The key to individualizing treatment. Plast Reconstr Surg. 2003;112(5 suppl):33S – 9S.
Alexiades-Armenakas M. A quantitative and comprehensive grading scale for rhytides, laxity, and photoageing. J Drugs Dermatol. 2006;5:808 – 9.
Carruthers A, Carruthers J, Hardas B, Kaur M, Goertelmeyer R, Jones D, et al. A validated brow positioning grading scale. Dermatol Surg. 2008;34(suppl 2):S150 – S4.
Carruthers A, Carruthers J, Hardas B, Kaur M, Goertelmeyer R, Jones D, et al. A validated grading scale for forehead lines. Dermatol Surg. 2008;34(suppl 2):S155 – S60.
Carruthers A, Carruthers J, Hardas B, Kaur M, Goertelmeyer R, Jones D, et al. A validated grading scale for marionette lines. Dermatol Surg. 2008;34(suppl 2):S167 – S72.
Carruthers A, Carruthers J, Hardas B, Kaur M, Goertelmeyer R, Jones D, et al. A validated grading scale for crow ’ s feet. Dermatol Surg. 2008;34(suppl 2):S173 – S8.
Quan LT, Nikko A, Orengo I. Surgical pearl: Accurate documentation of facial lesions using only one landmark. J Am Acad Dermatol. 2001;44:1043 – 4.
Carruthers A, Carruthers J, Flynn T. Surgical pearl: Accurate documentation of facial lesions using only one landmark. J Am Acad Dermatol. 2003;49:359 – 60.