sexta-feira, 25 de julho de 2008

De férias...

É actualizado regularmente o blogue pessoal, em http://netodays.blogspot.com

sexta-feira, 20 de junho de 2008

2º Teste

Verifique o mail.

quinta-feira, 19 de junho de 2008

Calendário de Exames

Matéria do 2º Semestre - Estatística I – 25 de Julho, às 18:00, na sala C 36


Época de Setembro

Matéria do 1º Semestre – Probabilidades e Estatística - 16 de Setembro, às 18:00, na sala C 36
Matéria do 2º Semestre – Estatística I - 19 de Setembro, às 18:00, na sala C 25

segunda-feira, 16 de junho de 2008

Revisões

Verifique o mail.

As imagens do exercício deverão assemelhar-se às seguintes.







sábado, 24 de maio de 2008

Curva da Procura

A curva da procura indica a cada preço de um produto X, a quantidade que os consumidores desejam adquirir.

Considere os seguintes dados referentes à procura de óculos de sol da marca A.


1. Recorrendo às funções da biblioteca do Excel:
a) Estime os parâmetros da recta de regressão;
b) Estime o valor das vendas, no caso do preço subir para 110.
2. Recorrendo ao SPSS, indique:
a) a;
b) o desvio-padrão associado a a;
c) b;
d) o desvio-padrão associado a b;
e) o coeficiente de determinação.

Nota: Analyze / Regression / Linear

3. Construa o gráfico de dispersão da distribuição no SPSS.

Nota: Graphs / Interactive / Scatterplot...

terça-feira, 13 de maio de 2008

1º Teste

Verifique o mail.

sábado, 10 de maio de 2008

Regressão linear simples: Método dos Mínimos Quadrados

Considere-se a tabela seguinte, que apresenta o bónus recebido pelos funcionários de uma dada empresa, expresso em euros (variável y), e o respectivo tempo de serviço, em meses (variável x).



O gráfico de dispersão, bem como o cálculo do coeficiente de correlação de Pearson, r, evidenciam forte correlação positiva.



O Excel permite adicionar rectas de tendência em modo gráfico, mas esse procedimento não é recomendado, visto que corresponde a desenhar as rectas “a olho”.

A forma mais comum de calcular as rectas de regressão é através do Método dos Mínimos Quadrados.





Representando a recta de regressão pela fórmula:

y = a + bx

em que y é a variável dependente,
x é a variável independente,
a é uma constante que indica a distância da intercepção do eixo dos yy,
b é uma constante que indica o declive da recta.

Evidentemente que os valores de a e b podem calcular-se no Excel, usando-o como um caderno quadriculado apenas um pouco mais sofisticado. Como é suposto o acompanhamento do blogue pelos manuais, apenas se indicam abaixo as fórmulas de cálculo de a e de b:



Para calcular a e b por este processo é preferível utilizar as fórmulas computacionais, que são equivalentes às anteriores, mas mais simples:



Seguindo este processo será necessário realizar os seguintes cálculos adicionais:




E então será fácil chegar aos valores da recta de regressão:



Outra alternativa é utilizar as funções da biblioteca do Excel.

O a calcula-se com a função INTERCEPTAR.

O b calcula-se através da função DECLIVE.

A previsão pode fazer-se por substituição directa de valores na função y = 80.77773 + 1.138005 x ou utilizando a função PREVISÃO. Para um funcionário com 45 meses de serviço, ambos os processos estimam um bónus de 131.988 €.

A qualidade da regressão é indicada pelo Coeficiente de Determinação:

O Coeficiente de Determinação varia entre 0 (zero) e 1 (um). Quanto mais próximo da unidade estiver o Coeficiente de Determinação, tanto maior será a validade da regressão (no seu conjunto).

Também se pode apreciar a validade da cada um coeficientes a e b isoladamente. Em princípio, os coeficientes serão tanto mais fiáveis quanto menores forem os seus desvios padrão.

O output do SPSS oferece-nos as estatísticas referidas depois de introduzir os dados (NOTA: Funciona o copy/paste a partir do Excel) e dos seguintes comandos:

Analyze / Regression / Linear

Os valores referidos ao longo do post estão sublinhados a vermelho.


O SPSS também constrói o gráfico de dispersão, da distribuição. Para obter a imagem abaixo foram seguidos os seguintes passos: Graphs / Interactive / Scatterplot...





1. Retome os valores do exercício apresentado, admitindo que todos os trabalhadores têm menos um ano de serviço, mas que o bónus mensal se mantém.
1.1. Recalcule o valor de a e de b utilizando:
a) o Excel como um caderno sofisticado;
b) as funções da biblioteca do Excel.
1.2. Estime o bónus mensal para um trabalhador com 60 meses de serviço:
a) por substituição na função y = a + bx;
b) recorrendo às funções da biblioteca do Excel.
1.3. Construa um gráfico de dispersão com os novos dados. Compare o gráfico obtido com o apresentado no post.
1.4. Recalcule o coeficiente de correlação. Compare o valor obtido com o anterior.
1.5. Compare os valores de a e de b obtidos no exercício com os apresentados no post.

2. Recorrendo ao SPSS, indique:
a) a;
b) o desvio-padrão associado a a;
c) b;
d) o desvio-padrão associado a b;
e) o coeficiente de determinação.

Nota: Analyze / Regression / Linear

3. Construa o gráfico de dispersão da distribuição no SPSS.

Nota: Graphs / Interactive / Scatterplot...

sexta-feira, 2 de maio de 2008

Teste Modelo - Parte Teórica

1. As medidas de dispersão são o Desvio (absoluto) médio, a Variância e o Desvio Padrão.
1.1. Qual a vantagem do desvio padrão relativamente ao desvio médio?
1.2. Qual a vantagem do desvio padrão relativamente à variância?
1.3. Define intervalo de variação.
1.4. Define intervalo inter-quartis
1.5. Define coeficiente de variação.

2. Imagine que à variável x foi adicionado o valor de uma constante, k. Indique o que sucedeu:
a) ao desvio médio;
b) à variância;
c) ao desvio-padrão;
d) ao intervalo de variação;
e) ao intervalo inter-quartis;
f) ao coeficiente de variação.

3. Imagine que a variável x foi multiplicada pelo valor de uma constante, k. Indique o que sucedeu:
a) ao desvio médio;
b) à variância;
c) ao desvio-padrão;
d) ao intervalo de variaão;
e) ao intervalo inter-quartis;
f) ao coeficiente de variação.

Sugestão: Construa uma folha de cálculo para visualizar as alterações propostas no ponto 2. e no ponto 3. Se utilizar a variável X já definida no teste modelo, e construir as variáveis X+50 e 20X, obterá os seguintes resultados:



4. Não se verificar correlação linear, não significa que não se verifique outro tipo de correlação.
Comenta.

5. Qualquer que seja a correlação verificada, correlação não significa causalidade.
Comenta.

terça-feira, 29 de abril de 2008

Teste Modelo - 29 de Abril

Verifica o mail.

quinta-feira, 10 de abril de 2008

IDH (HDI)

O Índice de Desenvolvimento Humano (Human Development Index) é certamente dos indicadores mais frequentemente utilizados nas comparações internacionais. Descarregue os dados mais recentes disponíveis em folhas de Excel, no endereço http://hdr.undp.org/en/statistics/data/.

Segue o link


e grava o ficheiro
HDR 2007-2008 Table 01.xls.


1. Utilizando apenas os países de desenvolvimento humano elevado (os primeiros 70), calcula uma matriz de correlações entre as diversas variáveis da Tabela 1, semelhante à que se apresenta abaixo.



2. Comenta os coeficientes de correlação mais significativos.

3. Justifica a opção por trabalhar apenas com os países de desenvolvimento elevado.

4. Investigue outras variáveis susceptíveis de explicar o desenvolvimento humano, explorando os indicadores contidos no Relatório do Desenvolvimento Humano (ficheiro hdr_20072008_tables.zip).

NOTA 1: Para facilitar o trabalho do Excel, propõem-se as seguintes transformações de variável antes do cálculo das correlações.



NOTA 2: Como se calcula o IDH.

quarta-feira, 2 de abril de 2008

Coeficiente de Correlação de Pearson - r

Quando tomamos as variáveis duas a duas podemos verificar o que sucede a uma variável, x, quando outra variável, y, varia. São então possíveis três situações particularmente interessantes:
a) Quando a variável x toma valores maiores (menores) a variável y também toma valores maiores (menores);


b) Quando a variável x toma valores maiores (menores) a variável y toma valores menores(maiores); ou


c) A variável x toma valores maiores (menores) independentemente dos que a variável y apresenta.



No primeiro caso diremos que as variáveis estão positivamente (ou directamente) correlacionadas. No limite, isto é, se a correlação for "perfeita" - como é o caso se considerarmos a correlação da variável x consigo própria - o coeficiente de correlação será igual a 1.
No segundo caso diremos que as variáveis estão negativamente (ou inversamente) correlacionadas. No limite, isto é, se a correlação for "perfeita" o coeficiente de correlação será igual a -1.
No terceiro caso diremos que as variáveis não estão correlacionadas. No limite, isto é, em caso de "absoluta independência" o coeficiente de correlação será igual a 0.
Na prática os valores acima indicados nunca se encontram, mas são estes que deverão tomar-se como referência na interpretação dos parâmetros obtidos.

Carla Santos propõe a seguinte classificação da correlação linear:


No Excel o coeficiente de correlação calcula-se facilmente com recurso à função CORREL. Apresentam-se abaixo os gráficos de dispersão para os coeficientes de correlação entre as classificações internas de frequência (CIF) e as classificações de exame (CE) em Biologia (r=0,82) e em Psicologia (r=0,35).





Observação 1: Não se verificar correlação linear, não significa que não se verifique outro tipo de correlação, por exemplo, exponencial.

Observação 2: Qualquer que seja a correlação verificada, correlação não significa causalidade.



NOTA IMPORTANTE: Antes de iniciar o exercício abaixo proposto, construa uma nova base de dados composta apenas pelas primeiros 100 ID's de cada disciplina.

0. Indique uma justificação para a redução da base de dados acima solicitada.

1. Calcule o coeficiente de correlação para cada uma das disciplinas:
435 – Matemática
102 – Biologia
142 – Química

139 – Português B
140 – Psicologia
128 - IDES

2. Construa o gráfico de dispersão para cada uma das disciplinas.

3. Verifique que a disciplina de Biologia é aquela que evidencia maior correlação. Simultâneamente estes professores seriam os primeiros a ser "crucificados" pela diferença CIF-CE! Tente explicar esta aparente contradição.

No post deverá colocar todos os gráficos, e um Quadro Síntese semelhante ao que se apresenta abaixo.

quinta-feira, 27 de março de 2008

Medidas de assimetria e de achatamento

As medidas de assimetria permitem distinguir as distribuições simétricas (Média = Moda = Mediana) das assimétricas. No caso das distribuições assimétricas estas podem ter assimetria positiva (Moda <= Mediana <= Média) ou assimetria negativa (Média <= Mediana <= Moda).



Três indicadores de assimetria podem calcular-se na ausência de uma imagem esclarecedora e de acordo com os indicadores disponíveis:






Para qualquer dos indicadores, uma distribuição simétrica resultará num valor igual a 0 (zero);
Se a distribuição for assimétrica positiva resultará num valor superior a 0 (zero);
Se a distribuição for assimétrica negativa resultará num valor inferior a 0 (zero).


O achatamento ou curtose mede o grau de afilamento da curva relativamente à normal.






1. Continuando a utilizar os dados referentes ao Exames Nacionais de 2003, calcula os indicadores de assimetria (G, G1 e G2) e de achatamento (K) da distribuição das CIF e da distribuição das CE, em:

435 – Matemática
102 – Biologia
142 – Química

139 – Português B
140 – Psicologia
128 - IDES

2. Comenta os dados valores calculados no ponto anterior.

NOTA 1: Apresenta os resultados num quadro síntese semelhante ao seguinte:



NOTA 2: Observa que a arrumação dos indicadores pode facilitar os cálculos. Apresentam-se abaixo os dados calculados para 435-Matemática. Convém evitar que o Excel seja forçado a percorrer a folha de cálculo para cima e para baixo, ora para um lado, ora para o outro,... para poupar memória.

sexta-feira, 14 de março de 2008

Rankings de Escolas

Em 2001 começou entre nós a polémica dos rankings escolares com a divulgação pelo jornal PÚBLICO dos dados referentes a classificações internas (CIF) e exames (CE) do 12º ano. A publicação destes resultados alargou-se à generalidade da imprensa, com destaque para o EXPRESSO. Em 2002 o ME encomendou um estudo “sociológico” à UNL, coordenado pelo professor Sérgio Grácio, que introduziu o conceito de classificação “esperada”, em função do contexto escolar. A polémica gerada foi tanta que no ano seguinte, 2003, o ME decidiu disponibilizar um ficheiro Access com os resultados brutos dos exames nacionais. Deverá utilizar este ficheiro para realizar as tarefas propostas neste post. A fim de evitar o simplismo das médias, o ME passou a actualizar o Roteiro das Escolas.

Considere dois conjuntos de disciplinas com mais alunos:
Matemática e Ciências, composto pelos seguintes exames:
435 – Matemática
102 – Biologia
142 – Química

Português e Literárias
139 – Português B
140 – Psicologia
128 - IDES

Verifica se são verdadeiras as seguintes afirmações:

1) média CE é menor que a média CIF em todas as disciplinas
2) desvio padrão das CE é maior que o desvio padrão das CIF em todas as disciplinas
3) médias CE são mais baixas no grupo Matemática e Ciências que em Português e Literárias
4) desvios padrão dos CE são maiores no grupo Matemática e Ciências que em Português e Literárias
5) diferença média CIF – média CE é maior no grupo Matemática e Ciências que em Português e Literárias

NOTA: Sugere-se que após a realização dos cálculos construa um Quadro Síntese para facilitar a interpretação dos resultados, com o desenho do que se apresenta abaixo.

terça-feira, 11 de março de 2008

Distribuição Normal e debate político

O estudo da Distribuição Normal não faz parte do programa, mas tem interesse conhecê-la porque é a mais utilizada nas ciências sociais.



Ver exemplo.

A curva normal impõe também uma forma de ver o Mundo que se reflecte no debate político.
Apresente um exemplo que lhe sugira a extrapolação da curva normal para o debate político, comentando uma notícia da imprensa.

sexta-feira, 7 de março de 2008

Média e Desvio Padrão - Efeito da adição e da multiplicação de uma constante

Suponha que uma turma obteve os seguintes resultados.



1. Calcule a média utilizando a fórmula do Excel, MEDIA.

2. Calcule o desvio padrão utilizando a fórmula do Excel, DESVPADP.

3. Atribua mais 2 valores a cada um dos alunos, e recalcule a média e o desvio padrão.

4. Regressando à distribuição inicial, multiplique cada um dos valores por 3, e recalcule a média e o desvio padrão.

5. Comente os resultados que obteve.

quarta-feira, 20 de fevereiro de 2008

Medidas de dispersão

As medidas de dispersão são o Desvio (absoluto) médio, a Variância e o Desvio Padrão; o Intervalo de Variação e o Intervalo Inter-Quartis, que são medidas de distância costumam apresentar-se conjuntamente com as primeiras; o Coeficiente de Variação permite concluir da representatividade da média.




Intervalo de Variação

Calcula-se o Intervalo de Variação fazendo a diferença entre os valores máximo e mínimo da variável. Se os dados estiverem agrupados será o limite superior da última classe menos o limite inferior da primeira.

Considere-se como exemplo a seguinte tabela:

Como por definição: IV = Ponto MAX – Ponto MIN

Então, IV = 210 – 180 = 30

Portanto a maior diferença que será possível encontrar entre dois jogadores é de 30 cm.



Intervalo Inter-Quartis

O Intervalo Inter-Quartis compreende 50% das observações centrais, excluindo 25% de cada extremo.
Recordando a imagem utilizada na definição dos quartis:


Define-se o Intervalo Inter-Quartis

IQ = Q3/4 – Q1/4

Evidentemente que é necessário calcular os 1º e 3º quartis. Para o efeito, parte-se das frequências relativas acumuladas.




No exemplo apresentado o

IQ = 198,17 – 188,75 = 9,42

Após a eliminação dos 25% mais altos e dos 25% mais baixos, o intervalo no qual se situam 50% dos jogadores reduziu-se para 9,42 cm.



Desvio (absoluto) médio

Calcula-se somando as diferenças, em valor absoluto, entre os valores observados da variável e a sua média, ponderadas pelo número das observações.

Com dados agrupados:
- Calcula-se a média, coluna 7
- Calcula-se a diferença entre a marca e média, coluna 8
- Tomam-se os valores absolutos da coluna 8, coluna 9
- Multiplicam-se os valores da coluna 9 pelas respectivas frequências relativas. A soma da coluna 10 dá o desvio (absoluto) médio


Variância e Desvio Padrão

Estas duas medidas apresentam-se juntas porque o Desvio Padrão é a raiz quadrada positiva da Variância.

Como os módulos são difíceis de trabalhar matematicamente - na desvio médio - substitui-se essa operação pelo quadrado dos desvios, obtendo a Variância. Depois calcula-se o Desvio Padrão para regressar a um indicador expresso nas mesmas unidades.


Com dados agrupados:
- Calcula-se a média, coluna 7
- Calcula-se a diferença entre a marca e média, coluna 8, repetida na 11
- Elevam-se os valores da coluna 11 ao quadrado, coluna 12
- Multiplicam-se os valores da coluna 12 pelas respectivas frequências relativas. A soma da coluna 13 dá a variância. A raiz quadrada desta é o desvio padrão.


No nosso exemplo, a média dos desvios em relação à média, indicada pelo desvio-padrão é de 6,35 cm, pouco diferindo da obtida pelo desvio médio: 5,23 cm. Em qualquer dos casos a interpretação é semelhante: quanto maior for o desvio, maior é a dispersão dos dados.


Coeficiente de variação

Expressa a relação percentual entre o desvio padrão e a média, isto é:



O valor deste indicador é independente das unidades utilizadas na distribuição de frequências. Exactamente por esse motivo é particularmente útil para comparar diferentes distribuições. Um coeficiente de variação superior a 50% indica muito elevada dispersão dos valores relativamente à média, e consequentemente será reduzida a sua representatividade como medida estatística.

No exemplo apresentado, um CV de 3,28% indica que a dispersão em torno da média é reduzida.

1. Confere os cálculos apresentados construindo um ficheiro do Excel semelhante ao modelo.


2. Recalcula as medidas de dispersão considerando os novos dados:
a)


b)


3. O que é que concluis das alterações verificadas nos indicadores das medidas de dispersão.

4. Confira os cálculos que efectuou para as três distribuições, utilizando agora as seguintes funções do Excel: QUARTIL; DESV.MEDIO e DESVPADP.

5. Escreva a Fórmula de King para o cálculo da moda, partindo do ficheiro de ajuda.

sexta-feira, 1 de fevereiro de 2008

Infonation

O Infonation é um site desenvolvido pelas Nações Unidas que permite construir gráficos com informação estatística disponível para todos os países do Mundo sobre vários temas. Apresentam-se abaixo os Receptores de TV e os Utilizadores de Internet em Portugal, França, Reino Unido, Holanda, Alemanha e Espanha.


1. Constrói um gráfico no Infonation para um conjunto de países seleccionados, num indicador à tua escolha. Captura a imagem e coloca-a no blogue.

2. Conhece outros sites do género do Infonation seguindo os links do lado direito do blogue Economia X que começam pela expressão "Indicadores".
Utiliza um destes sites para efectuar a comparação de Portugal com um conjunto de países seleccionados num indicador à tua escolha.

terça-feira, 22 de janeiro de 2008

Portal do INE

O INE tem a responsabilidade da divulgação de estatísticas em Portugal.

1. Partindo da distribuição da população por géneros e por escalões etários, (no Continente) constrói um gráfico de barras sugestivo.

2. Interpreta o gráfico.

3. Cria um "gráfico mapa" com base nos dados do site do INE.

4. Interpreta o "gráfico mapa" criado no ponto anterior.

sexta-feira, 18 de janeiro de 2008

Teste

É necessário enviar o ficheiro do Excel por mail para que o professor fique com um documento comprovativo das tarefas, que os alunos não poderão corrigir posteriormente, contrariamente ao que sucede com os posts publicados no blogue. Este ficheiro deve incluir os gráficos.

Boa Sorte!

segunda-feira, 14 de janeiro de 2008

Quartis

A mediana é o valor que divide a amostra em duas partes iguais, deixando exactamente 50% das observações de cada lado.

Também a poderíamos dividir em quatro partes iguais, cada uma contento 25% dos dados. Nesse caso cada uma das partes seria um quartil.



O primeiro quartil escreve-se abreviadamente Q1/4, correspondendo a 25% dos dados. O segundo quartil Q2/4, corresponde à mediana. O terceiro quartil Q3/4, corresponde a 75% das observações.

O seu cálculo é análogo ao da mediana. Começa-se por determinar a respectiva classe observando as frequências relativas acumuladas.



A amostra também pode ser divida em 10 partes de 10% cada, originando os decis ou em 100 partes de 1% obtendo-se os percentis.


1. Utilizando a Tabela 5, calcula:

- O primeiro quartil, Q1/4
- O segundo quartil, Q2/4
- O terceiro quartil, Q3/4

2. Verifique o mail.