0:00
[MÚSICA] [SEM
ÁUDIO] Olá!
Nesta videoaula eu quero mostrar para
você como calcular distâncias Euclidianas usando o software Excel.
Primeiro passo eu vou abrir uma base de dados
que chama-se Gastos Diários e
que tem basicamente 2 planilhas.
Na primeira planilha, Roteiro, tem os passos que nós
vamos dar para chegar no cálculo da distância Euclidiana.
Na segunda planilha tem os, a base de dados, que é aquela mesma que nós usamos
na nossa videoaula bastante simples, onde nós temos 5 pessoas,
quanto que eles gastam por dia em comida e quanto que eles gastam por dia em roupas,
na média estimada por mês.
O roteiro que nós vamos seguir consiste em montar 2 tabelas com
5 colunas e 5 linhas para os respondentes a a e,
depois nós queremos calcular a distância entre cada par de respondentes,
depois nós vamos calcular também a distância entre cada
par de respondentes da variável X2_Roupas, primeiro comida,
depois roupas e depois nós vamos fazer o cálculo da distãncia Euclidiana segundo
esta fórmula que ela assusta pouco, mas na verdade na prática,
com dados reais, você vai ver que não muito é tão complicado.
E depois nós vamos também fazer o gráfico de dispersão.
Eu vou mostrar só o comecinho de como a gente poderia fazer aqui em
dados para que você acompanhe o raciocínio.
Se eu colocasse aqui a, b, c d e e eu colocaria aqui nas
colunas também a, b, c, d e e.
Ora a distância entre o a para
a variável comida e o próprio a obviamente a distância
entre o a com a vai ser 0 porque é o próprio ponto.
Já a distância do a para o b eu deveria subir e tirar
a célula B2 e dela subtrair a célula B3,
onde você tem a variável comida para o respondente 3 e você vê que eu obtenho -6.
Eu poderia fazer isso por exemplo agora entre a e c pegando o valor da variável
comida para o a e subtraindo o valor da variável comida para o c, -7.
Esse processo, eu gostaria que você depois até praticasse sozinho,
mas como ele toma pouco de tempo, para ganharmos alguns minutos
eu queria então ir direto para a solução do problema que está numa outra
base de dados chamada Gastos Diários Solução.
Nesta, neste outro arquivo,
também Excel, você está vendo o roteiro exatamente
igual ao anterior mas agora você vai encontrar a solução pronta.
Você se lembra que a gente estava fazendo aqueles cálculos
de pegar o valor da variável e subtrair o valor
da outra variável para saber a distância entre aquele parzinho.
A mesma coisa você está vendo aqui só que agora você está vendo com uma estética
mais bonita, pouco de cores para facilitar o seu aprendizado.
Aquele -6 é exatamente o valor da variável
a para comida menos o valor da variável b para comida,
aquele -7 que a gente já tinha calculado antes e assim por diante.
Quando a gente calcula aqui a parte de cima dessa matriz,
na realidade esta célula é exatamente igual a esta porque a distãncia de
a e b é -6 e portanto de a e b a distância é -6.
Lembre-se que a gente sempre calcula a subtração
partindo da mesma base, ou seja é a menos b e não b menos a.
Então esta matriz ela é exatamente refletida na parte
da diagonal superior em relação à diagonal inferior, você está vendo aqui 1 e 1.
E a diagonal?
A diagonal necessariamente nós temos que colocar 0 e 0 porque
é a distância do ponto a ele mesmo, portanto a distância de ponto
e ou b ou c qualquer que seja ele a ele mesmo é 0, é o próprio ponto.
Fizemos então esta planilha, nessa matriz o cálculo das
distâncias da variável comida, ainda não estamos falando de distâncias Euclidianas,
simplesmente a distância entre os pontos para uma das variáveis.
Agora nós temos que repetir o procedimento para a segunda variável que
é a variável X2_Roupas.
E então, como eu calcularia o b menos a?
É muito simples, é só você pegar a distância entre esses 2 pontos,
esta é a fórmula, você pega 4 menos 2, 2.
A distância do a com o c, a fórmula que eu estou aqui iluminando é 4 menos 3, 1.
Muito bem, agora que você já tem as duas tabelas
de distâncias entre as variáveis X1_Comida e X2_Roupas,
nós estamos em condições de calcular a distância
Euclidiana entre as variáveis, que seria, seria a distância combinada,
a distância dos pontos de uma maneira, como nós mostramos naqueles slides,
como se a gente estivesse calculando a hipotenusa de triângulo retângulo
seguindo a fórmula de Pitágoras porque aqui nós temos apenas duas variáveis.
Ou genericamente a fórmula Euclidiana
que pode ser aplicada para conjunto maior de variáveis.
Ora como é que eu cálculo agora este, esta distância combinada?
A fórmula de Euclides diz que eu tenho que pegar a distância a e b,
elevar ao quadrado mais
a distância entre o a com b da variável segunda,
elevar ao quadrado e no final extrair a raiz quadrada.
Basicamente o que eu estou fazendo é exatamente isto,
eu estou fazendo a distância entre 2 pontos como sendo a raiz
quadrada da soma das distâncias de cada parzinho elevado ao quadrado.
Vamos fazer mais exemplo aqui.
Eu vou apagar este e vamos fazer juntos.
Primeira coisa, eu vou dar sinal de igual, vou abrir parênteses,
eu tenho que pegar a distância do c com o a, c com a é -7.
Este número eu vou elevar ao quadrado,
inclusive note que ele é número negativo
mas ao quadrado ele vai ficar positivo, ele vai dar 49.
Eu tenho que somar com a distância do mesmo ponto c com
a mas agora para a segunda variável que é a variável roupas.
Elevo este número ao quadrado e agora eu tenho a soma dos quadrados.
Terminei?
Não, o que diz a minha fórmula de Euclides?
Que eu tenho que agora fazer a raiz quadrada.
Como que eu faço a raiz quadrada?
Basta elevar a número 0,5 ou se você
preferir você pode elevar a 1 dividido por 2
que é a mesma coisa, meio.
Opa, temos problema na nossa fórmula, vamos consertar,
faltamos temos que colocar parênteses também aqui porque senão
ele faz a conta não do jeito que a gente gostaria.
A raiz quadrada de 50 é aproximadamente 7,1.
De novo estas distâncias estão refletidas na parte superior e agora eu quero que
você seguindo o roteiro observe após os cálculos as distância que nós obtivemos.
Você está vendo aqui claramente que o ponto a e o ponto d estão muito próximos,
a distância entre eles é 1,4, igualmente aqui
que é o reflexo daquela mesma célula.
Já os pontos b,
c e e coloridos em verde você vê que também são muito próximos.
Isso tudo poderia ser visto, caso você quisesse, através de gráfico como nós
fizemos já através de gráfico que pode ser feito tanto em Excel quanto em STATA,
que nós vamos depois voltar a esse exercício em STATA.
Basta você iluminar esses pontos,
vir aqui inserir gráfico chamado gráfico de dispersão.
Esse gráfico vai mostrar os pontos.
Aqui não saiu uma legenda mas é possível colocar,
aqui estão os pontos a e d e aqui estão os
pontos b, c e e.
Você está vendo claramente que esses pontos são próximos do outro,
enquanto que esses pontos são próximos também formando 2 agrupamentos,
que era o que a gente queria que você entendesse.
Até à próxima videoaula!
[SEM ÁUDIO]