Estatística
descritiva
UNIVERSO,
AMOSTRA E VARIÁVEIS
A estatística está interessada nos métodos
científicos para coleta, organização, resumo, apresentação e análise dos dados,
bem como na tomada de decisões baseadas em tais análises.
Ao coletar os dados referentes às
características de um grupo ou de indivíduos que possuem ao menos uma
característica comum, é muitas vezes ou impossível ou inviável economicamente
ou impraticável observar todo o grupo, em particular quando este é muito grande.
Assim, ao invés de examinar todo o universo (que também é denominado população),
examina-se uma pequena porção do universo, denominada amostra.
Após a determinação dos elementos da amostra,
pergunta-se: o que fazer com estes? Pode-se medi-los, observá-los e/ou
contá-los? Daí surge um conjunto de respostas que receberá a denominação de
variável. A variável é a característica que vai ser observada, medida ou
contada nos elementos da população ou da amostra e que pode variar, ou seja,
assumir um valor diferente de elemento para elemento observado.
A variável pode ser classificada em: (I) qualitativa
– aquela em que a característica observada é expressa por atributos (cor da
pele, sexo, tipo sanguíneo etc.); (II) quantitativa – aquela em que a
característica observada é expressa em números (número de alunos matriculados
na disciplina de estatística, idade etc.). No entanto, uma variável
quantitativa pode ser contínua (aquela que pode assumir qualquer valor
entre dois limites) ou discreta (aquela que só pode assumir valores
pertencentes a um conjunto enumerável). Vejamos o Exemplo 1.
Exemplo 1: Condé Nast Traveleré é um site
especializado em viagens (<www.cntraveller.com>). Em 2013, o site
publicou uma lista com os 154 melhores novos hotéis abertos no ano anterior. Na
Tabela 1 é apresenta a avaliação do site para onze lugares para se hospedar na
América Central e América do Sul.
Fonte:
Condé Nast traveler, 2013, on-line.
Desprende-se do
enunciado do Exemplo 1 que o universo contém 154 hotéis e que é apresentada na
Tabela 1 somente uma amostra de apenas 11 hotéis indicados pela Condé Nast
Traveler para se hospedar nas América do Sul e Central. Nesse exemplo, caso a
variável de estudo fosse o país em que se localiza o hotel, teríamos uma
variável qualitativa. Caso a variável de estudo fosse o número de quartos,
teríamos uma variável quantitativa discreta.
Agora que você
acabou de estudar o que é universo, amostra e tipos de variáveis, você tem
condições de resolver os exercícios de 1 até 3 no final desta unidade.
TÉCNICAS DE AMOSTRAGEM
Para garantir que a
amostra represente o universo, ou seja, que a amostra possua as mesmas características
que o universo no que diz respeito à variável estudada, é necessário que ela
seja obtida por técnicas adequadas. A seguir, estudaremos três das principais
técnicas de amostragem:
I. Amostragem aleatória simples – Essa técnica de amostragem pode ser realizada
numerando os elementos do universo de 1 até n e, em seguida, procede-se um
sorteio de k números para representar a amostra. No caso de a população ser
muito grande, o sorteio torna-se inviável e fazemos o uso da Tabela de Números
Aleatórios (Anexo). Vejamos os Exemplos 2 e 3.
Exemplo 2: O banco Felicidade tem 100 funcionários e deseja escolher 15% para
realizar exames de rotina. Assim, para proceder a escolha desses funcionários,
primeiramente os numeramos de 01 a 100 e, em seguida, escrevemos os números de
01 a 100 em papéis de mesmo tamanho, colocamos dentro de uma caixa, agitamos e
retiramos, um a um, os quinze números que formarão a amostra.
Exemplo 3: Considere agora que o banco Felicidade tenha 10.000 funcionários e que 150
deverão ser sorteados para realizar exames de rotina. Note que, agora, os
números de elementos do universo e da amostra são relativamente grandes. Assim,
faz-se necessário utilizar-se da tabela de número aleatórios. Para obtermos
esses 150 elementos da amostra, sorteamos um algarismo qualquer da tabela, a
partir do qual iremos tomar números dois, três ou mais dígitos, de acordo com a
necessidade, percorrendo as linhas e/ou colunas da tabela de números aleatórios
da esquerda para direita (ou vice-versa), ou ainda de cima para baixo (ou
vice-versa). Os números obtidos irão indicar os elementos da amostra.
II.
Amostragem estratificada – Essa técnica de amostragem é empregada quando
tivermos o universo subdividido em estratos. Assim, para que a amostra
represente o universo, é interessante que ela leve em consideração cada
estrato. Para entender melhor, veja o Exemplo 4.
Exemplo 4: Considere que, no Exemplo 2 dos 100 funcionários, 80 sejam do sexo masculino
e 20 do sexo feminino, ou seja, temos dois estratos (sexo masculino e sexo feminino)
e queremos escolher 15% do total de 100.
Solução: Nesse
exemplo queremos respeitar a proporção dos funcionários do sexo masculino e
feminino. Assim, temos:
Fonte: Elaborado pelos autoresQuadro 1.1 - Resolução do Exemplo 4
Fonte: Elaborado pelos autoresQuadro 1.1 - Resolução do Exemplo 4
Ou seja, serão
sorteados 12 homens e 3 mulheres. A segunda etapa dessa técnica de amostragem
consiste em escolher os 12 homens entre os 80 e as 3 mulheres entre as 20.
Podemos numerar esses funcionários de 1 a 100, sendo que os numerados de 1 até
20 correspondem aos funcionários do sexo feminino e os numerados de 21 até 100 correspondam
aos funcionários do sexo masculino e, então, proceder um sorteio ou usar a
tabela de números aleatórios.
III.
Amostragem sistemática – Nessa técnica de amostragem, os membros do universo
que participam da amostra são determinados a partir de intervalos fixos, e não
há a utilização de tabelas de números aleatórios. Por exemplo, no caso do universo
dos 100 funcionários do Banco Felicidade, para obtermos 10 amostras sistemáticas
podemos escolher os números 10, 20, 30, e assim por diante, até completarmos 10
amostras sistematicamente colhidas.
DISTRIBUIÇÃO DE FREQUÊNCIA
Após a realização
de uma pesquisa em que os dados foram coletados, faz-se necessária a
organização e classificação desses. Esse procedimento é, em geral, feito por
meio de tabelas. Essas tabelas são denominadas tabelas de distribuição de
frequência.
Para entender esse
conceito e outros que virão, vamos considerar que foram coletados os dados
referentes aos preços de quarenta ações ordinárias em uma determinada Bolsa de
Valores, como pode ser visto na Tabela 1.2.
33,50
|
30,38
|
48,38
|
31,13
|
29,63
|
9,25
|
32,25
|
38,00
|
8,63
|
29,63
|
9,00
|
18,00
|
18,00
|
1,25
|
37,88
|
10,00
|
25,24
|
52,00
|
9,25
|
53,38
|
8,75
|
34,00
|
7,63
|
14,00
|
43,25
|
16,50
|
11,38
|
25,02
|
18,50
|
16,63
|
9,38
|
8,00
|
35,25
|
21,63
|
19,38
|
11,50
|
28,50
|
78,38
|
38,88
|
33,63
|
Tabela 1.2 - Preços de quarenta ações
ordinárias em uma Bolsa de Valores
Fonte: Elaborada pelos autores.
A Tabela 1.1 é um
tipo de tabela em que os dados não estão organizados, é denominada tabela
bruta e os dados são chamados de dados brutos. Ao organizar esses
dados brutos, em tabela, em ordem crescente ou decrescente temos o rol,
como apresentado na Tabela 1.3.
1,25
|
7,63
|
8,00
|
8,63
|
8,75
|
9,25
|
9,00
|
9,25
|
9,38
|
10,00
|
11,38
|
11,50
|
14,00
|
16,50
|
16,65
|
16,63
|
18,00
|
18,00
|
18,50
|
19,38
|
21,63
|
25,02
|
25,24
|
28,50
|
29,63
|
30,38
|
31,13
|
32,25
|
33,50
|
33,63
|
34,00
|
35,25
|
37,88
|
38,00
|
38,88
|
43,25
|
48,38
|
52,00
|
53,38
|
78,38
|
Tabela 1.3 - Rol crescente dos preços de
quarenta ações ordinárias em uma Bolsa de Valores
Fonte: Elaborada pelos autores
Uma vez organizados
os dados em rol, iremos agora resumir esses dados em uma tabela de tal forma
que a leitura dos dados seja facilitada. Para isso, definimos:
I. Classe: É
a subdivisão dos dados em intervalos ou faixas de valores.
II. Limite de
classe: São os valores extremos de cada classe. Para uma classe temos o
limitante inferior que é o menor número que pode pertencer à classe, e ainda o
limitante superior, que é o maior número que pode pertencer à classe.
III. Ponto médio
de uma classe: São os valores obtidos somando-se o limitante inferior de
classe ao limitante superior e dividindo-se o resultado da soma por 2.
IV. Número de
classes (I): Para construção de uma tabela de distribuição de frequência, a
primeira coisa com que devemos nos preocupar é em determinar o número de
classes. Para tal, fazemos uso da regra de Sturges, a qual é dada por:
Para essas regras,
temos que n é o número de dados coletados.
V. Amplitude
total da distribuição (AT): É a diferença entre o maior e o menor valor
observado.
VI. Amplitude de
classe (h): Calculado o número de classes a ser usado na construção da
tabela de distribuição de frequência, devemos proceder ao cálculo da amplitude
da classe, a qual é calculada fazendo-se a razão entre a amplitude total e o
número de classes.
VII. Frequência
absoluta: É o número de vezes que determinado elemento aparece na amostra
ou, ainda, o número de vezes que um elemento aparece em uma classe.
VIII. Frequência
relativa: É a razão entre a frequência absoluta da classe em questão e o
número total de elementos na amostra. A frequência relativa é calculada usando-se
a equação:
IX. Frequência
relativa percentual: É obtida procedendo-se o produto da frequência relativa
por 100, como mostrado abaixo:
X. Frequência
acumulada: É obtida somando-se a frequência absoluta da classe considerada
às frequências absolutas anteriores a esta classe. A equação a seguir mostra o
procedimento do cálculo da frequência acumulada de uma classe.
Em que é a
frequência absoluta da primeira classe, é frequência absoluta da segunda classe,
e assim por diante até a n-ésima classe. O símbolo denota a soma das frequências da primeira,
segunda e até a n-ésima classe.
XI. Frequência
relativa acumulada: É a razão entre a frequência acumulada de uma classe
pelo número total de elementos na amostra, como mostra a equação a seguir:
XII. Frequência
relativa acumulada percentual: É o produto da frequência relativa acumulada
de uma classe por 100, como apresentado a seguir:
Já que definimos
tanta coisa, vamos aplicá-las à Tabela 3. Digamos que nosso objetivo seja
elaborar um relatório e queremos resumir as informações dos preços dessas quarenta
ações ordinárias em uma tabela de distribuição de frequência. Embora existam tecnologias
para gerar distribuições de frequência automaticamente, os passos para construí-las
manualmente são os seguintes:
1º passo: Determinar o número de classes desejado. Este número deve estar entre 5
e 20, por questões práticas e ainda deve ser um número inteiro. Como temos n =
40 observações, podemos usar o critério de Sturges ou da raiz. Assim, temos
pelo critério de Sturges o número de classes igual a:
2º passo: Calcular a amplitude total.
AT = Xmáx – Xmín
Em que:
Xmáx = maior valor
do conjunto de dados.
Xmín = menor valor
do conjunto de dados
No nosso exemplo,
temos:
AT = Xmáx – Xmín
AT = 78,38 – 1,25 =
77,13
3º passo: Calcular a amplitude das classes. Se necessário, faça uso de arredondamentos
e/ou mude o número de classes de modo que se use números convenientes.
Em que:
AT = amplitude
total
k = número de
classes (número de linhas, com valor arredondado, se necessário)
4º Passo: Para iniciar sua tabela, escolha ou o valor mínimo, ou um valor
conveniente que seja um pouco menor do que esse valor mínimo para ser o
primeiro limitante inferior de classe. Usando esse limitante inferior e a
amplitude da classe, prossiga e liste os outros limites inferiores de classe,
adicionando a amplitude de classe ao primeiro limite de classe inferior para
obter o segundo limite inferior de classe e assim por diante. No nosso caso,
como arredondamos os valores, iniciamos nossa tabela com o número 1.
5º Passo: Liste os limites inferiores de cada classe em uma coluna vertical e
prossiga para preencher os limitantes superiores. Feito isso, percorra o
conjunto de dados colocando uma marca apropriada para cada valor dado. Conte as
marcas para encontrar a frequência total para cada classe.
Para construir a tabela,
temos o menor valor da classe, chamado de Limite Inferior (Li), e o maior valor
da classe, chamado de Limite Superior (Ls).
A. Para obtermos a
primeira classe (primeira linha), tomar como Li o menor valor. Ao Li, somar o
valor da amplitude do intervalo encontrado (h). Então, obtemos o Ls;
B. Para a
construção da segunda classe, repetir o Ls da primeira classe, sendo que este,
na segunda classe, passa a ser o Li. A este valor adicionar o valor da
amplitude do intervalo (h), obtendo o Ls.
C. Para a terceira
classe, repetir o procedimento, até termos o número de classes, encontrado pela
raiz do número total de elementos do conjunto de dados.
É importante não se
esquecer de obedecer à simbologia do limite entre as classes (limite inferior e
limite superior). Esta simbologia é dada por:
Li |---- Ls: O
limite inferior é incluído na contagem da frequência absoluta e o limite
superior não.
Li ----| Ls: O
limite superior está incluído na contagem da frequência absoluta e o limite inferior
não.
Li ---- Ls: Os limites
superiores e inferiores não estão incluídos na contagem da frequência absoluta.
Li |----| Ls: Os
limites superiores e inferiores estão incluídos na contagem da frequência absoluta.
Agora, tendo como
base a Tabela 1.4, vamos construir a tabela de distribuição de frequência.
Tabela 1.4 - Distribuição de frequência dos
preços de quarenta ações ordinárias
Fonte: Elaborada pelos autores
Observe que na
última classe (última linha) o limite superior, 79, está com as bordas abertas
porque é maior do que o Xmáx, que neste caso é 78,38. Caso o nosso limite
superior da última classe seja igual ao Xmáx, essa borda deveria estar fechada
no limite superior.
De posse da tabela
de distribuição de frequência, podemos calcular as frequências relativas e acumuladas,
como apresentado na Tabela 1.5.
Tabela 1.5 - Preço das ações ordinárias em
uma Bolsa de Valores (Distribuição de frequência relativa e acumulada)
Fonte: Elaborada pelos autores.
O cálculo da
frequência relativa da primeira classe foi feito da seguinte maneira:
E esse procedimento
foi usado para calcular as demais frequências relativas. As frequências relativas
percentuais foram obtidas multiplicando por 100 as frequências relativas de
cada classe.
O cálculo da
frequência acumulada foi feito como apresentado a seguir:
E assim por diante
até a sexta classe. As frequências relativas acumuladas foram calculadas como a
seguir:
E assim por diante
até a sexta classe. Já as frequências relativas percentuais foram obtidas multiplicando
por 100 as frequências relativas acumuladas.
Em muitas situações
é mais conveniente representar de forma gráfica uma distribuição de frequência,
e isso pode ser feito usando o histograma, o polígono de frequência ou o
polígono de
frequência acumulada.
O histograma é
a representação gráfica da distribuição de frequência. Trata-se de um diagrama
de colunas em que cada retângulo está associado com uma classe da distribuição de
frequência. O histograma associado à Tabela 1.5 está representado na Figura
1.1.
Figura 1.1 - Histograma da distribuição de
frequência dos preços de 40 ações ordinárias em uma bolsa de valores
Fonte: Elaborada pelos autores.
O polígono de
frequência é o gráfico de configuração linear. Ele é obtido calculando-se o
ponto médio de cada classe, e marca-se esse ponto no lado superior do
histograma. O polígono de frequência é obtido ligando-se esses pontos médios. A
Figura 1.2 mostra o polígono de frequência associado aos dados da Tabela 1.5.
Figura 1.2 - Polígono de frequência dos
preços de 40 ações ordinárias em uma bolsa de valores
Fonte: Elaborada pelos autores.
O polígono de
frequência acumulada ou ogiva de Galton é um gráfico que permite descrever
dados quantitativos por meio da frequência acumulada. A ogiva é um gráfico de
linha que une os pontos cujas abscissas são os limites superiores das classes,
e, ordenadas suas respectivas frequências acumuladas. A Figura 1.3 apresenta o
polígono de frequência acumulada para os dados distribuídos em classe da Tabela
1.5.
Figura 1.3 - Polígono de frequência acumulada
dos preços de 40 ações ordinárias em uma bolsa de valores
Fonte: Elaborada pelos autores.
MEDIDAS DE POSIÇÃO
O que vimos até
agora com a distribuição de frequência permite-nos descrever, de modo geral, um
conjunto de dados. Precisamos, agora, encontrar maneiras de ressaltar as
tendências da distribuição estudada. Para tal, vamos estudar as medidas de
posição, que são média, moda e mediana.
Média Aritmética
A média aritmética
é a mais importante de todas as medidas de posição existentes para descrever
dados em geral.
A média
aritmética
é
uma medida de tendência central determinada pela adição de todos os valores e
divisão pelo número de valores. Esta definição nos permite escrever a equação a
seguir:
Em quesão as
variáveis que se está estudando, n é o número de valores estudados, denota a
soma de todos os valores em estudo.
REFLITA
Note que a média é bem simples de ser
calculada e faz parte do nosso dia-a-dia.
Fonte: Os autores.
Exemplo 5: A seguir, é apresentada a quantidade de negócios realizados pela BM&F
Bovespa na última semana do mês de junho de 2013. Determine a média aritmética
da quantidade de negócios realizados nesse período.
DATA
|
QUANTIDADE DE NEGÓCIOS
|
24/06
|
1.296.915
|
25/06
|
993.396
|
26/06
|
950.702
|
27/06
|
945.651
|
28/06
|
1.113.816
|
Total
|
5.300.480
|
Quadro 1.2 - Resolução Exemplo 5
Fonte:
bm&F bovespa, on-line.
Solução:
Acabamos de
calcular a média aritmética para o caso em que os dados não estão agrupados. Agora,
vamos aprender a calcular a média aritmética para o caso em que os dados estão
agrupados sem intervalo de classe. Nessa situação, como as frequências são
números indicadores da intensidade de cada valor, elas funcionam como fatores
de ponderação e assim, calculados a média aritmética ponderada, como
apresentado pela equação a seguir:
Exemplo 6: (CESGRANRIO) Uma pesquisa realizada pela Polícia Rodoviária Estadual a respeito
do número de acidentes automobilísticos por dia, em determinado trecho de uma estrada,
utilizando a observação de 200 dias, resultou na seguinte Tabela de
Frequências:
Número de
acidentes por dia
|
Frequência
observada
|
0
|
20
|
1
|
40
|
2
|
80
|
3
|
50
|
4
|
10
|
Tabela 1.6 - Distribuição de frequência de
número de acidentes observados pela Polícia Rodoviária Estadual
Fonte: Adaptado de Cesgranrio.
O valor esperado do número de acidentes
automobilístico por dia, no trecho de estrada observado, é
(A) 1,00 (B) 1,95 X (C) 2,00 (D) 2,50 (E) 3,00
Tabela 1.7 - Resolução do exercício de média aritmética
Fonte: Elaborado pelos autores
Daí segue que . Portanto, o valor esperado do número de
acidentes automobilístico por dia, no trecho de estrada observado, é igual a
1,95.
Vejamos agora, o
caso do cálculo da média aritmética quando os dados estão agrupados em classe.
Nesse caso, convenciona-se que os valores incluídos em um determinado intervalo
coincidem com seu ponto médio, e determinamos a média ponderada. Vejamos o
exemplo seguinte.
Exemplo 7: No quadro a seguir temos a distribuição de frequência dos preços de
quarenta ações ordinárias negociados em um dia em uma Bolsa de Valores.
Determinar o preço médio dessas ações.
Quadro 1.3 - Resolução Exemplo 7
Fonte: Elaborado pelos autores.
Solução: Das
informações dispostas no quadro anterior, montamos outra tabela para auxiliar-nos
no cálculo da média aritmética. Assim:
Tabela 1.8 - Resolução do exercício preço das
ações (auxílio)
Fonte: Elaborada pelos autores.
Daí, segue que 989/40
= 24,73. Portanto, o preço médio
das ações negociadas é igual a R$ 24,73.
A média aritmética
apresenta as seguintes propriedades:
I. Chamamos de
desvio em relação à média a diferença entre cada elemento de um conjunto de
valores e a média aritmética. A soma algébrica desses desvios tomados em
relação à média aritmética é nula.
II. Somando ou
subtraindo-se uma constante (k) qualquer a todos os valores da variável, a
média aritmética fica aumentada ou diminuída dessa constante.
III. Multiplicando
ou dividindo-se uma constante (k) qualquer a todos os valores da variável, a
média aritmética fica multiplicada ou dividida dessa constante.
Moda
Moda (Mo)
é o valor que ocorre com maior frequência em um conjunto de dados e esse( s)
valor(es) é denominado “valor modal”. Um conjunto de dados poderá ser
classificado em: (I) amodal – quando não apresentar valor modal (ou
quando não há valores que se repetem); (II) unimodal – quando apresentar
único valor modal; (III) bimodal – quando apresentar dois valores
modais; (IV) trimodal – quando apresentar três valores modais; (V) polimodal
– quando apresentar quatro ou mais valores modais.
Exemplo 8: Os dados a seguir correspondem às quantidades diárias de merendas escolares
demandadas em 10 diferentes escolas: 200, 250, 300, 250, 250, 200, 150, 200,
150, 200. Calcule a moda.
Solução:
Organizando os dados em rol, obtemos a seguinte distribuição 150 – 150 – 200 –
200 – 200 – 200 – 250 – 250 – 250 – 300. Note que na série há repetição dos valores
150 (2 vezes), 200 (4 vezes) e 250 (3 vezes). O valor modal será 250, pois é o que
repete mais vezes.
Acabamos de
calcular a moda para o caso em que os dados não estão agrupados. Agora, vamos
aprender a calcular a moda para o caso em que os dados estão agrupados sem
intervalo de classe. Nessa situação, é muito fácil determinar o valor modal,
bastando determinar a classe que apresenta maior frequência. Vejamos o exemplo
a seguir.
Exemplo 9: Determinada carreira profissional, em um órgão público, apresenta 5
níveis de salários com uma distribuição demonstrada no quadro a seguir.
SALÁRIOS (R$)
|
1.500,00
|
2.000,00
|
2.500,00
|
3.000,00
|
3.500,00
|
QUANTIDADE
DE
FUNCIONÁRIOS
|
10
|
15
|
25
|
20
|
5
|
Quadro 1.4 - Resolução Exemplo 9
Fonte: Elaborado pelos autores.
Determine o salário
modal desse órgão público.
Solução: O salário
modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza o
maior número de ocorrências (25 vezes).
Determine o salário
modal desse órgão público.
Solução: O salário
modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza o
maior número de ocorrências (25 vezes).
Vejamos, agora, o
caso do cálculo da moda quando os dados estão agrupados em classe. Nesse caso,
é comum fazer uso da fórmula de Czuber, para o cálculo do valor modal:
Em queé o limite
inferior da classe modal; d1 é a diferença entre a frequência da classe modal e
a frequência da classe anterior à classe modal; d2 é a diferença entre a
frequência da classe modal e a frequência da classe posterior à classe modal; h
é a amplitude da classe modal.
Vejamos o exemplo
seguinte.
Exemplo 10: O quadro a seguir apresenta a distribuição de frequências das notas
obtidas em um teste de Estatística, realizado por 50 estudantes universitários.
Quadro 1.5 - Resolução Exemplo 10
Fonte: Elaborado pelos autores
Determine a nota
modal.
Solução: A classe
modal corresponde à classe que apresenta maior frequência. É claro que essa
frequência corresponde à terceira classe.
Portanto, a nota
modal é 5,2.
A moda é, em geral,
usada para medidas rápidas e aproximações de posição, ou ainda, quando medida
de posição, deve ser o valor mais frequente da distribuição.
Mediana
A mediana (Md)
é a medida de posição definida como sendo o número que divide o conjunto de
dados analisado em duas partes iguais, com o número igual de elementos. Desta maneira,
a mediana encontra-se no centro de uma série estatística organizada em rol.
Ao organizar os
dados em rol e este apresentar um número de elementos ímpar, a mediana será o
valor central. Caso o rol tenha um número par de elementos, a mediana será a média
aritmética entre os dois termos centrais, nesse caso a mediana será um valor
que não pertence à série de dados.
Exemplo 11: Suponha que certa Agência do Banco XYZ tenha 25 funcionários, cujas idades,
em anos, são as seguintes:
24 −24 −24 −25 −25
−30 −32 −32 −32 −35 −36 −36 −40 −40 −40 −40− 46 – 48− 48 −50 −54 −54 −60 −60
−65
Quadro 1.6 - Exercício sobre mediana (em rol)
Fonte: Elaborado pelos autores
Determine a idade
mediana dos funcionários do Banco XYZ.
Solução: Note que
os dados estão organizados em rol crescente e que temos 25 valores. O 13º
elemento é o que ocupa a posição central e este valor é a mediana do conjunto
de dados. Assim sendo, a mediana das idades dos funcionários do Banco XYZ é 40
anos.
Exemplo 12 (CESGRANRIO): Uma turma do 2º período de Administração é composta de 20
alunos, que tiraram as seguintes notas no teste de Estatística:
Quadro 1.7 - Resolução exercício mediana em
tabelas
Fonte: Adaptado de Cesgranrio
Qual é a mediana
teórica da turma nesse teste?
(A) 6,0 (B)
6,5 (C) 6,75 (D)
7,0 (E) 7,25
Solução:
Primeiramente, vamos organizar as notas em rol crescente. Assim, temos:
1,5 – 2,0 – 3,0 –
4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 8,5 – 8,5 – 9,0
– 9,0 – 9,5 – 10,0
Note que temos um
número par de elementos e os dois termos centrais têm média aritmética igual a
7,0. Portanto, a mediana da nota desse grupo de alunos é igual a 7,0 pontos.
Acabamos de
calcular a mediana para o caso em que os dados não estão agrupados.
Agora, vamos
aprender a calcular a mediana para o caso em que os dados estão agrupados sem
intervalo de classe. Nessa situação, devemos executar os seguintes passos:
(I) calcular a
frequência acumulada; (II) determinar um valor tal que divida a distribuição em
dois grupos que contenha o mesmo número de elementos. Vejamos o exemplo a
seguir.
Exemplo 13: Os salários dos 40 funcionários de uma empresa, em
31 de dezembro de 2016, estavam distribuídos conforme a tabela a seguir:
Tabela 1.9 - Mediana em tabelas de frequências
sem intervalo de classes
Fonte: Elaborado pelos autores
Determine a mediana
dos salários dos funcionários dessa empresa.
Solução: Para
determinar o valor da mediana, primeiro vamos determinar a frequência acumulada
para o conjunto de dados. Assim:
Tabela 1.10 - Resolução da mediana em dados
agrupados sem intervalo de classes
Fonte: Elaborada pelos autores.
Daí, a posição da
mediana será 40/2 = 20, ou seja, o valor pertence a 3ª classe e corresponde ao
salário de R$ 2.000,00. Portanto, a mediana do salário é igual a R$ 2.000,00.
Vejamos, agora, o
caso do cálculo da mediana quando os dados estão agrupados em classe. Nesse
caso, usa-se a seguinte equação de interpolação linear:
Em que:
lme = é
o limitante inferior da classe mediana (encontrado na coluna Fac).
n = é o número de
elementos coletados na pesquisa.
Facant =
é a frequência acumulada da classe anterior à classe mediana.
Fme = é
a frequência absoluta da classe mediana.
hme = é
a amplitude da classe da mediana.
Vejamos o exemplo
seguinte.
Exemplo 14: A tabela a seguir apresenta a distribuição de
frequência dos preços de quarenta ações ordinárias negociados em um dia em uma
Bolsa de Valores. Determinar a mediana do preço dessas ações.
Tabela 1.11 - Mediana em tabelas de
frequências com intervalo de classe
Fonte: Elaborada pelos autores.
Solução: Vamos,
primeiramente, reescrever a tabela com a coluna de frequência acumulada e
identificar a classe mediana, como mostrado a seguir:
Tabela 1.12 - Resolução da Mediana em tabelas
de frequências com intervalo de classe.
Fonte: Elaborada pelos autores.
Logo, o valor
mediano das ações é igual a R$ 23,45.
MEDIDAS SEPARATRIZES
Estas medidas são
valores que ocupam posições no conjunto de dados, em rol, dividindo- o em
partes iguais e podem ser:
A. quartis –
divide a série em quatro partes iguais. São assim representados Q1 (25%dos
dados coletados são valores menores ou iguais ao valor do primeiro quartil), Q2
(50% dos dados coletados são valores menores ou iguais ao valor do segundo
quartil e é evidente que Q2 coincide com a mediana) e Q3 (75% dos dados são
valores menores ou iguais ao valor do terceiro quartil).
B. decis –
divide a série em dez partes iguais. São assim representadas: D1(10% dos dados
são valores menores ou iguais ao valor do primeiro decil), D2 (20% dos dados
são valores menores ou iguais ao valor do primeiro decil), D3 (30% dos dados
são valores menores ou iguais ao valor do primeiro decil), D4 (40% dos dados são
valores menores ou iguais ao valor do primeiro decil), D5 (50% dos dados são
valores menores ou iguais ao valor do primeiro decil), D6 (60% dos dados são
valores menores ou
iguais ao valor do primeiro decil), D7 (70% dos dados são valores menores ou
iguais ao valor do primeiro decil), D8 (80% dos dados são valores menores ou
iguais ao valor do primeiro decil) e D9 (90% dos dados são valores menores ou
iguais ao valor do primeiro decil).
C. Percentis –
dividem o conjunto de dados em cem partes iguais. A seguir, são apresentados
alguns dos percentis mais usados: P5 (5% dos dados são valores menores ou
iguais ao valor do primeiro percentil), P10 (10% dos dados são valores menores
ou iguais ao valor do décimo percentil), P25 (25% dos dados são valores menores
ou iguais ao valor do percentil cinquenta), P50 (50% dos dados são valores menores
ou iguais ao valor do primeiro percentil), P75 (75% dos dados são valores
menores ou iguais ao valor do primeiro percentil), P90 (90% dos dados são
valores menores ou
iguais ao valor do percentil noventa), P95 (95% dos dados são valores menores
ou iguais ao valor do percentil noventa).
Estudemos os
exemplos a seguir.
Exemplo 15: A seguir, é apresentada uma tabela com os valores
das taxas de juros para cheque especial de pessoa física, segundo o Banco Central
do Brasil.
Tabela 1.13 - Valores das taxas de juros para
cheque especial de pessoa física
Fonte: banco Central do brasil, on-line.
Com base nessas
informações, determine:
A. o primeiro
quartil.
B. o segundo decil.
C. o octogésimo quinto
percentil.
Solução: Primeiro,
temos que organizar os dados em rol. Note que a tabela já está organizada em
rol. Assim:
A. Para o primeiro quartil, temos que 25% dos valores são menores ou
iguais ao valor do primeiro quartil. Daí, Note
que i não é inteiro, então arredondamos para cima. Assim, as taxas de juro dos
bancos que ocupam entre a 1º e a 8º posição formam primeiro quartil, ou seja,
Q1 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73;
4,03}.
B. Para o segundo
decil, temos que 20% dos valores são menores ou iguais ao segundo decil. Daí, Assim,
as taxas de juro dos bancos que ocupam entre a 1º e a 6º posição formam o
segundo decil, ou seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}.
C. Para o
octogésimo quinto percentil, temos que 85% dos valores são menores ou iguais
85º percentil. Daí,Note que i não é
inteiro, então arredondamos para cima. Assim, as taxas de juro dos bancos que
ocupam entre a 1º e a 26º posição formam o octogésimo quinto, ou seja, P85
= {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73; 4,03; 4,25; 4,4; 4,5; 5,18; 5,2;
5,3; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17; 7,33; 7,97; 8,1; 8,24; 8,39}.
Exemplo 16 (FCC): Considere o histograma da variável X a seguir, em que as
frequências simples absolutas foram anotadas no interior dos retângulos.
Figura 1.4 - Histograma da variável X
Fonte: Elaborado pelos autores, adaptada de FCC.
O valor do terceiro
quartil de X é:
A. 40
B. 35
C. 30
D. 25
E. 12
Solução: Temos um
total de 5 + 15 + 25 + 8 + 7 = 60 elementos. Queremos o terceiro quartil.
Assim, o terceiro quartil terá elementos. Daí, calculando a frequência
acumulada FAC = 5 + 15 + 25 = 45 e essa soma leva-nos à classe do
35. Portanto, o terceiro quartil é 35.
Exemplo 17 (CESGRANRIO): A tabela apresenta uma distribuição hipotética. Não há observações
coincidentes com os limites das classes.
CLASSES
|
FREQUÊNCIA ABSOLUTA
|
de 0 a 10
|
4
|
de 10 a 20
|
10
|
de 20 a 30
|
50
|
de 30 a 40
|
100
|
Total
|
164
|
Tabela 1.14 - Distribuição de frequências -
quartil
Fonte: Elaborada pelos autores.
A melhor estimativa
para o terceiro quartil da distribuição é, aproximadamente, de:
A. 34,75
B. 34,9
C. 35
D. 35,75
E. 35,9
Solução:
Primeiramente, vamos determinar a frequência acumulada da distribuição.
Tabela 1.15 - Resolução Distribuição de
frequências - quartil
Fonte: Elaborada pelos autores.
Para o terceiro
quartil temos a quantidade de elementos igual a ou seja,
o terceiro quartil está na classe de 30 a 40. Usando interpolação linear,
temos:
Daí, x = 35,9.
MEDIDAS DE DISPERSÃO
Agora, vamos
discutir a dispersão ou variabilidade dos dados estudados. Essas medidas
incluem
o estudo da
amplitude total, da variância, do desvio-padrão e do coeficiente de variação.
Nossos objetivos
aqui são determinar as medidas de dispersão, bem como sua interpretação.
Para iniciar nosso
estudo, considere os seguintes conjuntos de dados:
A:
17, 17, 17, 17, 17
B:
15, 16, 17, 18, 19
C:
- 48, - 38, - 3, 67, 107
A média aritmética
de cada conjunto de dados é:
Note que, embora as
médias aritméticas sejam iguais, existe diferença na dispersão desses
em relação à média. Temos que o conjunto de
dados A é mais homogêneo que o conjunto de dados B que, por sua vez, é mais
homogêneo que o conjunto de dados C. Ou seja, quando comparamos esses conjuntos
de dados de A para C, temos aumento na dispersão dos dados por eles
apresentados. Daí surge a necessidade em medir a dispersão ou variabilidade de
um conjunto de dados.
Amplitude Total
A amplitude total
(AT) de um conjunto de dados é a diferença entre o maior valor e o menor valor.
Amplitudetotal =
(valor máximo dos dados) - (valor mínimo dos dados)
Trata-se de uma
medida de dispersão muito sensível aos valores extremos e não é tão útil quanto
as outras medidas de dispersão que estudaremos. Estudemos os exemplos a seguir.
Exemplo 18: Na Tabela a seguir estão apresentados os valores em
rol do preço de quarenta ações negociadas em um dia por uma Bolsa de Valores.
Esta tabela é mostrada a seguir.
____________________________________________________________________
1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25
9,38 10,00
11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38
21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63
34,00 35,25 37,88 38,00 38,88 43,25 48,38 52,00 53,38 78,38
____________________________________________________________________
Tabela 1.16 - Ações na bolsa de valores
Fonte: Elaborada pelos autores.
Determine a
amplitude total dos preços das ações negociadas.
Solução: Antes de
calcular a amplitude total, primeiro devemos escrever os dados em rol.
Assim sendo, temos
que:
Logo, a amplitude
dos preços das ações é igual a R$ 77,13.
Exemplo 19: No exemplo 6 foi apresentada uma pesquisa realizada
pela Polícia Rodoviária Estadual a respeito do número de acidentes
automobilístico por dia, em determinado trecho de uma estrada. A tabela de
frequências é apresentada a seguir:
NÚMERO DE ACIDENTES POR DIA
|
FREQUÊNCIA OBSERVADA
|
0
|
20
|
1
|
40
|
2
|
80
|
3
|
50
|
4
|
10
|
Tabela 1.17 - Distribuição de frequências de
uma pesquisa realizada pela Polícia Rodoviária
Estadual a respeito de número de acidentes
automobilísticos diários
Fonte: Elaborada pelos autores..
Determine a
amplitude total.
Solução: Nesse
caso, a amplitude será dada por AT = 4 - 0 = 4, ou seja, a amplitude do número
de acidentes por dia é igual a 4.
Exemplo 20: Organizamos, na tabela apresenta a seguir, os
valores dos preços das quarenta ações negociadas por uma Bolsa de Valores em
tabela de distribuição de frequência com dados agrupados em classe.
Tabela 1.18 - Resolução - Distribuição de
frequências de uma pesquisa realizada pela Polícia Rodoviária Estadual a
respeito de número de acidentes automobilísticos diários
Fonte: Elaborada pelos autores.
Determine a amplitude
do valor dos preços das ações negociadas.
Solução: Nessa
situação em que os dados estão organizados por classe, a amplitude é dada por:
AT = 79 - 1 = 78. Logo, a amplitude dos preços das ações é igual a R$ 78,00.
Desvio em relação à média
A diferença entre
cada valor observado e a média é denominada desvio e é dada se o conjunto
de dados for um universo, ou se os dados são amostrais. Ao somar todos os desvios,
ou seja, ao somar todas as diferenças de cada valor observado em relação à média,
o resultado é igual a zero. Isto significa que esta medida não mede a
variabilidade dos dados. Para resolver este problema, consideramos o quadrado
dos desvios em relação à média.
Quadro 1.8 - Variância (equações)
Fonte: Adaptado de Crespo (2009).
Em que:
σ2 é a variância populacional;
s2 é a
variância amostral;
xi é o
valor da variável;
μ é
a média aritmética dos elementos da população;
é a média
aritmética dos elementos da amostra;
N é o número de
elementos da população;
n é o número de
elementos da amostra
Vejamos o procedimento
para o cálculo da variância nos exemplos a seguir. Começaremos com os dados não
agrupados.
Exemplo 21 (CESGRANRIO): Em uma amostra de cinco residências de uma determinada rua,
registram-se os seguintes números de moradores em cada uma:
CASA A
|
CASA B
|
CASA C
|
CASA D
|
CASA E
|
3
|
6
|
2
|
7
|
2
|
Quadro 1.9 - Variância amostral
Fonte: Adaptado de Cesgranrio.
A variância
amostral é:
A. 5,8
B. 5,5
C. 5,1
D. 4,8
E. 4,4
Solução:
Primeiramente, vamos determinar a média aritmética da amostra. Assim, . Para
obter o quadrado dos desvios, montamos o quadro a seguir:
Quadro 1.10 - Resolução do cálculo da
variância
Fonte: Elaborado pelos autores.
Desvio-padrão
Vimos que a
variância é calculada a partir dos quadrados dos desvios em relação à média e
que ela é um número cuja unidade está ao quadrado em relação à variável
estudada, o que sob o aspecto prático é inconveniente. O desvio-padrão é
definido como a raiz quadrada da variância, o que do ponto de vista prático é
mais conveniente, pois assim a medida de dispersão tem a mesma unidade da
média.
Equação
Quadro 1.11 - Desvio padrão (equação)
Fonte: Adaptado de Crespo (2009).
Ou seja, podemos
encontrar o desvio padrão, extraindo a raiz quadrada do valor encontrado da
variância (independente se é amostral ou populacional)
O desvio-padrão
apresenta as seguintes propriedades, entre elas:
I. Adicionando (ou
subtraindo) uma constante k de todos os valores da variável em estudo, o
desvio-padrão não se altera.
II. Multiplicando
todos os valores da variável em estudo por uma constante k, tal que o
desvio-padrão fica multiplicado por essa constante.
Exemplo 22: No exemplo 21 verificamos que a variância foi s2=5,5.
Assim, o desvio-padrão
é s = √5,5= 2,35 moradores.
Coeficiente de variação
O coeficiente de
variação (CV) é uma medida de dispersão relativa, o qual é definido como
sendo a razão entre o desvio-padrão e a média aritmética. O coeficiente de
variação é empregado na comparação do grau de concentração em torno da média
para duas ou mais séries estatísticas distintas. Dizemos que uma série é mais
homogênea que outra quando apresentar menor coeficiente de variação.
Exemplo 23: Uma administradora de imóveis realizou um estudo
sobre todos os imóveis alugados em duas regiões, A e B, levantando o seguinte
quadro:
REGIÃO
|
VALOR MÉDIO DO ALUGUEL
|
DESVIO-PADRÃO
|
A
|
R$ 500,00
|
R$ 100,00
|
B
|
R$ 500,00
|
R$ 150,00
|
Quadro 1.12 - Operações com coeficiente de
variação Fonte: Elaborado pelos autores.
Qual das regiões
apresenta mais homogeneidade nos dados?
Solução: Vamos
calcular os coeficientes de variação das regiões A e B.
Como o coeficiente
de variação da região A é menor que o da região B, segue que os preços dos
aluguéis na região A são mais homogêneos que os preços dos aluguéis na região
B.
Medidas de assimetria e curtose
A medida de
assimetria é um indicador da forma da distribuição dos dados. Ao construir uma
distribuição de frequências e/ou um histograma, se está buscando, também, identificar
visualmente a forma da distribuição dos dados que é ou não confirmada pelo coeficiente
de assimetria de Pearson (As) definido como:
Uma distribuição é
classificada como:
A. Simétrica se
média = mediana = moda ou As = 0. Graficamente, temos:
Figura 1.5 - Distribuição simétrica
Fonte: Elaborada pelos autores.
B. Assimétrica
negativa se média ≤ mediana ≤ moda ou As < 0. O lado mais longo do polígono de
frequência (cauda da distribuição) está à esquerda do centro.
Figura 1.6 - Assimetria negativa
Fonte: Elaborada pelos autores.
C. Assimétrica
positiva se moda ≤ mediana ≤ média ou As > 0. O lado mais longo do polígono
de frequência está à direita do centro.
Figura 1.7 - Assimetria positiva
Fonte: Elaborada pelos autores.
CONTINUAÇÃO-> MÉTODOS QUANTITATIVOS ESTATÍSTICOS 2
CONTINUAÇÃO-> MÉTODOS QUANTITATIVOS ESTATÍSTICOS 2