Blog Educacional/LANA: MÉTODOS QUANTITATIVOS ESTATÍSTICOS

Estatística descritiva

UNIVERSO, AMOSTRA E VARIÁVEIS

A estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise dos dados, bem como na tomada de decisões baseadas em tais análises.

Ao coletar os dados referentes às características de um grupo ou de indivíduos que possuem ao menos uma característica comum, é muitas vezes ou impossível ou inviável economicamente ou impraticável observar todo o grupo, em particular quando este é muito grande. Assim, ao invés de examinar todo o universo (que também é denominado população), examina-se uma pequena porção do universo, denominada amostra.

Após a determinação dos elementos da amostra, pergunta-se: o que fazer com estes? Pode-se medi-los, observá-los e/ou contá-los? Daí surge um conjunto de respostas que receberá a denominação de variável. A variável é a característica que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento observado.

A variável pode ser classificada em: (I) qualitativa – aquela em que a característica observada é expressa por atributos (cor da pele, sexo, tipo sanguíneo etc.); (II) quantitativa – aquela em que a característica observada é expressa em números (número de alunos matriculados na disciplina de estatística, idade etc.). No entanto, uma variável quantitativa pode ser contínua (aquela que pode assumir qualquer valor entre dois limites) ou discreta (aquela que só pode assumir valores pertencentes a um conjunto enumerável). Vejamos o Exemplo 1.

Exemplo 1: Condé Nast Traveleré é um site especializado em viagens (<www.cntraveller.com>). Em 2013, o site publicou uma lista com os 154 melhores novos hotéis abertos no ano anterior. Na Tabela 1 é apresenta a avaliação do site para onze lugares para se hospedar na América Central e América do Sul.

Tabela 1.1 - Avaliações de onze novos hotéis para se hospedar nas Américas Central e do Sul

Fonte: Condé Nast traveler, 2013, on-line.

Desprende-se do enunciado do Exemplo 1 que o universo contém 154 hotéis e que é apresentada na Tabela 1 somente uma amostra de apenas 11 hotéis indicados pela Condé Nast Traveler para se hospedar nas América do Sul e Central. Nesse exemplo, caso a variável de estudo fosse o país em que se localiza o hotel, teríamos uma variável qualitativa. Caso a variável de estudo fosse o número de quartos, teríamos uma variável quantitativa discreta.

Agora que você acabou de estudar o que é universo, amostra e tipos de variáveis, você tem condições de resolver os exercícios de 1 até 3 no final desta unidade.

TÉCNICAS DE AMOSTRAGEM

Para garantir que a amostra represente o universo, ou seja, que a amostra possua as mesmas características que o universo no que diz respeito à variável estudada, é necessário que ela seja obtida por técnicas adequadas. A seguir, estudaremos três das principais técnicas de amostragem:

I. Amostragem aleatória simples – Essa técnica de amostragem pode ser realizada numerando os elementos do universo de 1 até n e, em seguida, procede-se um sorteio de k números para representar a amostra. No caso de a população ser muito grande, o sorteio torna-se inviável e fazemos o uso da Tabela de Números Aleatórios (Anexo). Vejamos os Exemplos 2 e 3.

Exemplo 2: O banco Felicidade tem 100 funcionários e deseja escolher 15% para realizar exames de rotina. Assim, para proceder a escolha desses funcionários, primeiramente os numeramos de 01 a 100 e, em seguida, escrevemos os números de 01 a 100 em papéis de mesmo tamanho, colocamos dentro de uma caixa, agitamos e retiramos, um a um, os quinze números que formarão a amostra.

Exemplo 3: Considere agora que o banco Felicidade tenha 10.000 funcionários e que 150 deverão ser sorteados para realizar exames de rotina. Note que, agora, os números de elementos do universo e da amostra são relativamente grandes. Assim, faz-se necessário utilizar-se da tabela de número aleatórios. Para obtermos esses 150 elementos da amostra, sorteamos um algarismo qualquer da tabela, a partir do qual iremos tomar números dois, três ou mais dígitos, de acordo com a necessidade, percorrendo as linhas e/ou colunas da tabela de números aleatórios da esquerda para direita (ou vice-versa), ou ainda de cima para baixo (ou vice-versa). Os números obtidos irão indicar os elementos da amostra.

II. Amostragem estratificada – Essa técnica de amostragem é empregada quando tivermos o universo subdividido em estratos. Assim, para que a amostra represente o universo, é interessante que ela leve em consideração cada estrato. Para entender melhor, veja o Exemplo 4.

Exemplo 4: Considere que, no Exemplo 2 dos 100 funcionários, 80 sejam do sexo masculino e 20 do sexo feminino, ou seja, temos dois estratos (sexo masculino e sexo feminino) e queremos escolher 15% do total de 100.

Solução: Nesse exemplo queremos respeitar a proporção dos funcionários do sexo masculino e feminino. Assim, temos:

Fonte: Elaborado pelos autoresQuadro 1.1 - Resolução do Exemplo 4

Ou seja, serão sorteados 12 homens e 3 mulheres. A segunda etapa dessa técnica de amostragem consiste em escolher os 12 homens entre os 80 e as 3 mulheres entre as 20. Podemos numerar esses funcionários de 1 a 100, sendo que os numerados de 1 até 20 correspondem aos funcionários do sexo feminino e os numerados de 21 até 100 correspondam aos funcionários do sexo masculino e, então, proceder um sorteio ou usar a tabela de números aleatórios.

III. Amostragem sistemática – Nessa técnica de amostragem, os membros do universo que participam da amostra são determinados a partir de intervalos fixos, e não há a utilização de tabelas de números aleatórios. Por exemplo, no caso do universo dos 100 funcionários do Banco Felicidade, para obtermos 10 amostras sistemáticas podemos escolher os números 10, 20, 30, e assim por diante, até completarmos 10 amostras sistematicamente colhidas.

DISTRIBUIÇÃO DE FREQUÊNCIA

Após a realização de uma pesquisa em que os dados foram coletados, faz-se necessária a organização e classificação desses. Esse procedimento é, em geral, feito por meio de tabelas. Essas tabelas são denominadas tabelas de distribuição de frequência.

Para entender esse conceito e outros que virão, vamos considerar que foram coletados os dados referentes aos preços de quarenta ações ordinárias em uma determinada Bolsa de Valores, como pode ser visto na Tabela 1.2.

33,50	30,38	48,38	31,13	29,63	9,25	32,25	38,00	8,63	29,63
9,00	18,00	18,00	1,25	37,88	10,00	25,24	52,00	9,25	53,38
8,75	34,00	7,63	14,00	43,25	16,50	11,38	25,02	18,50	16,63
9,38	8,00	35,25	21,63	19,38	11,50	28,50	78,38	38,88	33,63

Tabela 1.2 - Preços de quarenta ações ordinárias em uma Bolsa de Valores

Fonte: Elaborada pelos autores.

A Tabela 1.1 é um tipo de tabela em que os dados não estão organizados, é denominada tabela bruta e os dados são chamados de dados brutos. Ao organizar esses dados brutos, em tabela, em ordem crescente ou decrescente temos o rol, como apresentado na Tabela 1.3.

1,25	7,63	8,00	8,63	8,75	9,25	9,00	9,25	9,38	10,00
11,38	11,50	14,00	16,50	16,65	16,63	18,00	18,00	18,50	19,38
21,63	25,02	25,24	28,50	29,63	30,38	31,13	32,25	33,50	33,63
34,00	35,25	37,88	38,00	38,88	43,25	48,38	52,00	53,38	78,38

Tabela 1.3 - Rol crescente dos preços de quarenta ações ordinárias em uma Bolsa de Valores

Fonte: Elaborada pelos autores

Uma vez organizados os dados em rol, iremos agora resumir esses dados em uma tabela de tal forma que a leitura dos dados seja facilitada. Para isso, definimos:

I. Classe: É a subdivisão dos dados em intervalos ou faixas de valores.

II. Limite de classe: São os valores extremos de cada classe. Para uma classe temos o limitante inferior que é o menor número que pode pertencer à classe, e ainda o limitante superior, que é o maior número que pode pertencer à classe.

III. Ponto médio de uma classe: São os valores obtidos somando-se o limitante inferior de classe ao limitante superior e dividindo-se o resultado da soma por 2.

IV. Número de classes (I): Para construção de uma tabela de distribuição de frequência, a primeira coisa com que devemos nos preocupar é em determinar o número de classes. Para tal, fazemos uso da regra de Sturges, a qual é dada por:

Ou ainda, podemos fazer uso da regra da raiz, a qual é dada por:

Para essas regras, temos que n é o número de dados coletados.

V. Amplitude total da distribuição (AT): É a diferença entre o maior e o menor valor observado.

VI. Amplitude de classe (h): Calculado o número de classes a ser usado na construção da tabela de distribuição de frequência, devemos proceder ao cálculo da amplitude da classe, a qual é calculada fazendo-se a razão entre a amplitude total e o número de classes.

VII. Frequência absoluta: É o número de vezes que determinado elemento aparece na amostra ou, ainda, o número de vezes que um elemento aparece em uma classe.

VIII. Frequência relativa: É a razão entre a frequência absoluta da classe em questão e o número total de elementos na amostra. A frequência relativa é calculada usando-se a equação:

IX. Frequência relativa percentual: É obtida procedendo-se o produto da frequência relativa por 100, como mostrado abaixo:

X. Frequência acumulada: É obtida somando-se a frequência absoluta da classe considerada às frequências absolutas anteriores a esta classe. A equação a seguir mostra o procedimento do cálculo da frequência acumulada de uma classe.

Em que é a frequência absoluta da primeira classe, é frequência absoluta da segunda classe, e assim por diante até a n-ésima classe. O símbolo

denota a soma das frequências da primeira, segunda e até a n-ésima classe.

XI. Frequência relativa acumulada: É a razão entre a frequência acumulada de uma classe pelo número total de elementos na amostra, como mostra a equação a seguir:

XII. Frequência relativa acumulada percentual: É o produto da frequência relativa acumulada de uma classe por 100, como apresentado a seguir:

Já que definimos tanta coisa, vamos aplicá-las à Tabela 3. Digamos que nosso objetivo seja elaborar um relatório e queremos resumir as informações dos preços dessas quarenta ações ordinárias em uma tabela de distribuição de frequência. Embora existam tecnologias para gerar distribuições de frequência automaticamente, os passos para construí-las manualmente são os seguintes:

1º passo: Determinar o número de classes desejado. Este número deve estar entre 5 e 20, por questões práticas e ainda deve ser um número inteiro. Como temos n = 40 observações, podemos usar o critério de Sturges ou da raiz. Assim, temos pelo critério de Sturges o número de classes igual a:

2º passo: Calcular a amplitude total.

AT = Xmáx – Xmín

Em que:

Xmáx = maior valor do conjunto de dados.

Xmín = menor valor do conjunto de dados

No nosso exemplo, temos:

AT = Xmáx – Xmín

AT = 78,38 – 1,25 = 77,13

3º passo: Calcular a amplitude das classes. Se necessário, faça uso de arredondamentos e/ou mude o número de classes de modo que se use números convenientes.

Em que:

AT = amplitude total

k = número de classes (número de linhas, com valor arredondado, se necessário)

4º Passo: Para iniciar sua tabela, escolha ou o valor mínimo, ou um valor conveniente que seja um pouco menor do que esse valor mínimo para ser o primeiro limitante inferior de classe. Usando esse limitante inferior e a amplitude da classe, prossiga e liste os outros limites inferiores de classe, adicionando a amplitude de classe ao primeiro limite de classe inferior para obter o segundo limite inferior de classe e assim por diante. No nosso caso, como arredondamos os valores, iniciamos nossa tabela com o número 1.

5º Passo: Liste os limites inferiores de cada classe em uma coluna vertical e prossiga para preencher os limitantes superiores. Feito isso, percorra o conjunto de dados colocando uma marca apropriada para cada valor dado. Conte as marcas para encontrar a frequência total para cada classe.

Para construir a tabela, temos o menor valor da classe, chamado de Limite Inferior (Li), e o maior valor da classe, chamado de Limite Superior (Ls).

A. Para obtermos a primeira classe (primeira linha), tomar como Li o menor valor. Ao Li, somar o valor da amplitude do intervalo encontrado (h). Então, obtemos o Ls;

B. Para a construção da segunda classe, repetir o Ls da primeira classe, sendo que este, na segunda classe, passa a ser o Li. A este valor adicionar o valor da amplitude do intervalo (h), obtendo o Ls.

C. Para a terceira classe, repetir o procedimento, até termos o número de classes, encontrado pela raiz do número total de elementos do conjunto de dados.

É importante não se esquecer de obedecer à simbologia do limite entre as classes (limite inferior e limite superior). Esta simbologia é dada por:

Li |---- Ls: O limite inferior é incluído na contagem da frequência absoluta e o limite superior não.

Li ----| Ls: O limite superior está incluído na contagem da frequência absoluta e o limite inferior não.

Li ---- Ls: Os limites superiores e inferiores não estão incluídos na contagem da frequência absoluta.

Li |----| Ls: Os limites superiores e inferiores estão incluídos na contagem da frequência absoluta.

Agora, tendo como base a Tabela 1.4, vamos construir a tabela de distribuição de frequência.

Tabela 1.4 - Distribuição de frequência dos preços de quarenta ações ordinárias

Fonte: Elaborada pelos autores

Observe que na última classe (última linha) o limite superior, 79, está com as bordas abertas porque é maior do que o Xmáx, que neste caso é 78,38. Caso o nosso limite superior da última classe seja igual ao Xmáx, essa borda deveria estar fechada no limite superior.

De posse da tabela de distribuição de frequência, podemos calcular as frequências relativas e acumuladas, como apresentado na Tabela 1.5.

Tabela 1.5 - Preço das ações ordinárias em uma Bolsa de Valores (Distribuição de frequência relativa e acumulada)

Fonte: Elaborada pelos autores.

O cálculo da frequência relativa da primeira classe foi feito da seguinte maneira:

E esse procedimento foi usado para calcular as demais frequências relativas. As frequências relativas percentuais foram obtidas multiplicando por 100 as frequências relativas de cada classe.

O cálculo da frequência acumulada foi feito como apresentado a seguir:

E assim por diante até a sexta classe. As frequências relativas acumuladas foram calculadas como a seguir:

E assim por diante até a sexta classe. Já as frequências relativas percentuais foram obtidas multiplicando por 100 as frequências relativas acumuladas.

Em muitas situações é mais conveniente representar de forma gráfica uma distribuição de frequência, e isso pode ser feito usando o histograma, o polígono de frequência ou o

polígono de frequência acumulada.

O histograma é a representação gráfica da distribuição de frequência. Trata-se de um diagrama de colunas em que cada retângulo está associado com uma classe da distribuição de frequência. O histograma associado à Tabela 1.5 está representado na Figura 1.1.

Figura 1.1 - Histograma da distribuição de frequência dos preços de 40 ações ordinárias em uma bolsa de valores

Fonte: Elaborada pelos autores.

O polígono de frequência é o gráfico de configuração linear. Ele é obtido calculando-se o ponto médio de cada classe, e marca-se esse ponto no lado superior do histograma. O polígono de frequência é obtido ligando-se esses pontos médios. A Figura 1.2 mostra o polígono de frequência associado aos dados da Tabela 1.5.

Figura 1.2 - Polígono de frequência dos preços de 40 ações ordinárias em uma bolsa de valores

Fonte: Elaborada pelos autores.

O polígono de frequência acumulada ou ogiva de Galton é um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das classes, e, ordenadas suas respectivas frequências acumuladas. A Figura 1.3 apresenta o polígono de frequência acumulada para os dados distribuídos em classe da Tabela 1.5.

Figura 1.3 - Polígono de frequência acumulada dos preços de 40 ações ordinárias em uma bolsa de valores

Fonte: Elaborada pelos autores.

MEDIDAS DE POSIÇÃO

O que vimos até agora com a distribuição de frequência permite-nos descrever, de modo geral, um conjunto de dados. Precisamos, agora, encontrar maneiras de ressaltar as tendências da distribuição estudada. Para tal, vamos estudar as medidas de posição, que são média, moda e mediana.

Média Aritmética

A média aritmética é a mais importante de todas as medidas de posição existentes para descrever dados em geral.

A média aritmética é uma medida de tendência central determinada pela adição de todos os valores e divisão pelo número de valores. Esta definição nos permite escrever a equação a seguir:

Em que

são as variáveis que se está estudando, n é o número de valores estudados, denota a soma de todos os valores em estudo.

REFLITA

Note que a média é bem simples de ser calculada e faz parte do nosso dia-a-dia.

Fonte: Os autores.

Exemplo 5: A seguir, é apresentada a quantidade de negócios realizados pela BM&F Bovespa na última semana do mês de junho de 2013. Determine a média aritmética da quantidade de negócios realizados nesse período.

DATA	QUANTIDADE DE NEGÓCIOS
24/06	1.296.915
25/06	993.396
26/06	950.702
27/06	945.651
28/06	1.113.816
Total	5.300.480

Quadro 1.2 - Resolução Exemplo 5

Fonte: bm&F bovespa, on-line.

Solução:

Acabamos de calcular a média aritmética para o caso em que os dados não estão agrupados. Agora, vamos aprender a calcular a média aritmética para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, como as frequências são números indicadores da intensidade de cada valor, elas funcionam como fatores de ponderação e assim, calculados a média aritmética ponderada, como apresentado pela equação a seguir:

Exemplo 6: (CESGRANRIO) Uma pesquisa realizada pela Polícia Rodoviária Estadual a respeito do número de acidentes automobilísticos por dia, em determinado trecho de uma estrada, utilizando a observação de 200 dias, resultou na seguinte Tabela de Frequências:

Número de acidentes por dia	Frequência observada
0	20
1	40
2	80
3	50
4	10

Tabela 1.6 - Distribuição de frequência de número de acidentes observados pela Polícia Rodoviária Estadual

Fonte: Adaptado de Cesgranrio.

O valor esperado do número de acidentes automobilístico por dia, no trecho de estrada observado, é

(A) 1,00 (B) 1,95 X (C) 2,00 (D) 2,50 (E) 3,00

Tabela 1.7 - Resolução do exercício de média aritmética

Fonte: Elaborado pelos autores

Daí segue que

. Portanto, o valor esperado do número de acidentes automobilístico por dia, no trecho de estrada observado, é igual a 1,95.

Vejamos agora, o caso do cálculo da média aritmética quando os dados estão agrupados em classe. Nesse caso, convenciona-se que os valores incluídos em um determinado intervalo coincidem com seu ponto médio, e determinamos a média ponderada. Vejamos o exemplo seguinte.

Exemplo 7: No quadro a seguir temos a distribuição de frequência dos preços de quarenta ações ordinárias negociados em um dia em uma Bolsa de Valores. Determinar o preço médio dessas ações.

Quadro 1.3 - Resolução Exemplo 7

Fonte: Elaborado pelos autores.

Solução: Das informações dispostas no quadro anterior, montamos outra tabela para auxiliar-nos no cálculo da média aritmética. Assim:

Tabela 1.8 - Resolução do exercício preço das ações (auxílio)

Fonte: Elaborada pelos autores.

Daí, segue que 989/40 = 24,73. Portanto, o preço médio das ações negociadas é igual a R$ 24,73.

A média aritmética apresenta as seguintes propriedades:

I. Chamamos de desvio em relação à média a diferença entre cada elemento de um conjunto de valores e a média aritmética. A soma algébrica desses desvios tomados em relação à média aritmética é nula.

II. Somando ou subtraindo-se uma constante (k) qualquer a todos os valores da variável, a média aritmética fica aumentada ou diminuída dessa constante.

III. Multiplicando ou dividindo-se uma constante (k) qualquer a todos os valores da variável, a média aritmética fica multiplicada ou dividida dessa constante.

Moda

Moda (Mo) é o valor que ocorre com maior frequência em um conjunto de dados e esse( s) valor(es) é denominado “valor modal”. Um conjunto de dados poderá ser classificado em: (I) amodal – quando não apresentar valor modal (ou quando não há valores que se repetem); (II) unimodal – quando apresentar único valor modal; (III) bimodal – quando apresentar dois valores modais; (IV) trimodal – quando apresentar três valores modais; (V) polimodal – quando apresentar quatro ou mais valores modais.

Exemplo 8: Os dados a seguir correspondem às quantidades diárias de merendas escolares demandadas em 10 diferentes escolas: 200, 250, 300, 250, 250, 200, 150, 200, 150, 200. Calcule a moda.

Solução: Organizando os dados em rol, obtemos a seguinte distribuição 150 – 150 – 200 – 200 – 200 – 200 – 250 – 250 – 250 – 300. Note que na série há repetição dos valores 150 (2 vezes), 200 (4 vezes) e 250 (3 vezes). O valor modal será 250, pois é o que repete mais vezes.

Acabamos de calcular a moda para o caso em que os dados não estão agrupados. Agora, vamos aprender a calcular a moda para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, é muito fácil determinar o valor modal, bastando determinar a classe que apresenta maior frequência. Vejamos o exemplo a seguir.

Exemplo 9: Determinada carreira profissional, em um órgão público, apresenta 5 níveis de salários com uma distribuição demonstrada no quadro a seguir.

SALÁRIOS (R$)	1.500,00	2.000,00	2.500,00	3.000,00	3.500,00
QUANTIDADE DE FUNCIONÁRIOS	10	15	25	20	5

Quadro 1.4 - Resolução Exemplo 9

Fonte: Elaborado pelos autores.

Determine o salário modal desse órgão público.

Solução: O salário modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza o maior número de ocorrências (25 vezes).

Determine o salário modal desse órgão público.

Solução: O salário modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza o maior número de ocorrências (25 vezes).

Vejamos, agora, o caso do cálculo da moda quando os dados estão agrupados em classe. Nesse caso, é comum fazer uso da fórmula de Czuber, para o cálculo do valor modal:

Em que

é o limite inferior da classe modal; d1 é a diferença entre a frequência da classe modal e a frequência da classe anterior à classe modal; d2 é a diferença entre a frequência da classe modal e a frequência da classe posterior à classe modal; h é a amplitude da classe modal.

Vejamos o exemplo seguinte.

Exemplo 10: O quadro a seguir apresenta a distribuição de frequências das notas obtidas em um teste de Estatística, realizado por 50 estudantes universitários.

Quadro 1.5 - Resolução Exemplo 10

Fonte: Elaborado pelos autores

Determine a nota modal.

Solução: A classe modal corresponde à classe que apresenta maior frequência. É claro que essa frequência corresponde à terceira classe.

Portanto, a nota modal é 5,2.

A moda é, em geral, usada para medidas rápidas e aproximações de posição, ou ainda, quando medida de posição, deve ser o valor mais frequente da distribuição.

Mediana

A mediana (Md) é a medida de posição definida como sendo o número que divide o conjunto de dados analisado em duas partes iguais, com o número igual de elementos. Desta maneira, a mediana encontra-se no centro de uma série estatística organizada em rol.

Ao organizar os dados em rol e este apresentar um número de elementos ímpar, a mediana será o valor central. Caso o rol tenha um número par de elementos, a mediana será a média aritmética entre os dois termos centrais, nesse caso a mediana será um valor que não pertence à série de dados.

Exemplo 11: Suponha que certa Agência do Banco XYZ tenha 25 funcionários, cujas idades, em anos, são as seguintes:

24 −24 −24 −25 −25 −30 −32 −32 −32 −35 −36 −36 −40 −40 −40 −40− 46 – 48− 48 −50 −54 −54 −60 −60 −65

Quadro 1.6 - Exercício sobre mediana (em rol)

Fonte: Elaborado pelos autores

Determine a idade mediana dos funcionários do Banco XYZ.

Solução: Note que os dados estão organizados em rol crescente e que temos 25 valores. O 13º elemento é o que ocupa a posição central e este valor é a mediana do conjunto de dados. Assim sendo, a mediana das idades dos funcionários do Banco XYZ é 40 anos.

Exemplo 12 (CESGRANRIO): Uma turma do 2º período de Administração é composta de 20 alunos, que tiraram as seguintes notas no teste de Estatística:

Quadro 1.7 - Resolução exercício mediana em tabelas

Fonte: Adaptado de Cesgranrio

Qual é a mediana teórica da turma nesse teste?

(A) 6,0 (B) 6,5 (C) 6,75 (D) 7,0 (E) 7,25

Solução: Primeiramente, vamos organizar as notas em rol crescente. Assim, temos:

1,5 – 2,0 – 3,0 – 4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 8,5 – 8,5 – 9,0 – 9,0 – 9,5 – 10,0

Note que temos um número par de elementos e os dois termos centrais têm média aritmética igual a 7,0. Portanto, a mediana da nota desse grupo de alunos é igual a 7,0 pontos.

Acabamos de calcular a mediana para o caso em que os dados não estão agrupados.

Agora, vamos aprender a calcular a mediana para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, devemos executar os seguintes passos:

(I) calcular a frequência acumulada; (II) determinar um valor tal que divida a distribuição em dois grupos que contenha o mesmo número de elementos. Vejamos o exemplo a seguir.

Exemplo 13: Os salários dos 40 funcionários de uma empresa, em 31 de dezembro de 2016, estavam distribuídos conforme a tabela a seguir:

Tabela 1.9 - Mediana em tabelas de frequências sem intervalo de classes

Fonte: Elaborado pelos autores

Determine a mediana dos salários dos funcionários dessa empresa.

Solução: Para determinar o valor da mediana, primeiro vamos determinar a frequência acumulada para o conjunto de dados. Assim:

Tabela 1.10 - Resolução da mediana em dados agrupados sem intervalo de classes

Fonte: Elaborada pelos autores.

Daí, a posição da mediana será 40/2 = 20, ou seja, o valor pertence a 3ª classe e corresponde ao salário de R$ 2.000,00. Portanto, a mediana do salário é igual a R$ 2.000,00.

Vejamos, agora, o caso do cálculo da mediana quando os dados estão agrupados em classe. Nesse caso, usa-se a seguinte equação de interpolação linear:

Em que:

l_me = é o limitante inferior da classe mediana (encontrado na coluna Fac).

n = é o número de elementos coletados na pesquisa.

Fac_ant = é a frequência acumulada da classe anterior à classe mediana.

F_me= é a frequência absoluta da classe mediana.

h_me = é a amplitude da classe da mediana.

Vejamos o exemplo seguinte.

Exemplo 14: A tabela a seguir apresenta a distribuição de frequência dos preços de quarenta ações ordinárias negociados em um dia em uma Bolsa de Valores. Determinar a mediana do preço dessas ações.

Tabela 1.11 - Mediana em tabelas de frequências com intervalo de classe

Fonte: Elaborada pelos autores.

Solução: Vamos, primeiramente, reescrever a tabela com a coluna de frequência acumulada e identificar a classe mediana, como mostrado a seguir:

Tabela 1.12 - Resolução da Mediana em tabelas de frequências com intervalo de classe.

Fonte: Elaborada pelos autores.

Logo, o valor mediano das ações é igual a R$ 23,45.

MEDIDAS SEPARATRIZES

Estas medidas são valores que ocupam posições no conjunto de dados, em rol, dividindo- o em partes iguais e podem ser:

A. quartis – divide a série em quatro partes iguais. São assim representados Q1 (25%dos dados coletados são valores menores ou iguais ao valor do primeiro quartil), Q2 (50% dos dados coletados são valores menores ou iguais ao valor do segundo quartil e é evidente que Q2 coincide com a mediana) e Q3 (75% dos dados são valores menores ou iguais ao valor do terceiro quartil).

B. decis – divide a série em dez partes iguais. São assim representadas: D1(10% dos dados são valores menores ou iguais ao valor do primeiro decil), D2 (20% dos dados são valores menores ou iguais ao valor do primeiro decil), D3 (30% dos dados são valores menores ou iguais ao valor do primeiro decil), D4 (40% dos dados são valores menores ou iguais ao valor do primeiro decil), D5 (50% dos dados são valores menores ou iguais ao valor do primeiro decil), D6 (60% dos dados são

valores menores ou iguais ao valor do primeiro decil), D7 (70% dos dados são valores menores ou iguais ao valor do primeiro decil), D8 (80% dos dados são valores menores ou iguais ao valor do primeiro decil) e D9 (90% dos dados são valores menores ou iguais ao valor do primeiro decil).

C. Percentis – dividem o conjunto de dados em cem partes iguais. A seguir, são apresentados alguns dos percentis mais usados: P5 (5% dos dados são valores menores ou iguais ao valor do primeiro percentil), P10 (10% dos dados são valores menores ou iguais ao valor do décimo percentil), P25 (25% dos dados são valores menores ou iguais ao valor do percentil cinquenta), P50 (50% dos dados são valores menores ou iguais ao valor do primeiro percentil), P75 (75% dos dados são valores menores ou iguais ao valor do primeiro percentil), P90 (90% dos dados são

valores menores ou iguais ao valor do percentil noventa), P95 (95% dos dados são valores menores ou iguais ao valor do percentil noventa).

Estudemos os exemplos a seguir.

Exemplo 15: A seguir, é apresentada uma tabela com os valores das taxas de juros para cheque especial de pessoa física, segundo o Banco Central do Brasil.

Tabela 1.13 - Valores das taxas de juros para cheque especial de pessoa física

Fonte: banco Central do brasil, on-line.

Com base nessas informações, determine:

A. o primeiro quartil.

B. o segundo decil.

C. o octogésimo quinto percentil.

Solução: Primeiro, temos que organizar os dados em rol. Note que a tabela já está organizada em rol. Assim:

A. Para o primeiro quartil, temos que 25% dos valores são menores ou iguais ao valor do primeiro quartil. Daí,

Note que i não é inteiro, então arredondamos para cima. Assim, as taxas de juro dos bancos que ocupam entre a 1º e a 8º posição formam primeiro quartil, ou seja, Q1 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73; 4,03}.

B. Para o segundo decil, temos que 20% dos valores são menores ou iguais ao segundo decil. Daí,

Assim, as taxas de juro dos bancos que ocupam entre a 1º e a 6º posição formam o segundo decil, ou seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}.

C. Para o octogésimo quinto percentil, temos que 85% dos valores são menores ou iguais 85º percentil. Daí,

Note que i não é inteiro, então arredondamos para cima. Assim, as taxas de juro dos bancos que ocupam entre a 1º e a 26º posição formam o octogésimo quinto, ou seja, P₈₅ = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73; 4,03; 4,25; 4,4; 4,5; 5,18; 5,2; 5,3; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17; 7,33; 7,97; 8,1; 8,24; 8,39}.

Exemplo 16 (FCC): Considere o histograma da variável X a seguir, em que as frequências simples absolutas foram anotadas no interior dos retângulos.

Figura 1.4 - Histograma da variável X

Fonte: Elaborado pelos autores, adaptada de FCC.

O valor do terceiro quartil de X é:

A. 40

B. 35

C. 30

D. 25

E. 12

Solução: Temos um total de 5 + 15 + 25 + 8 + 7 = 60 elementos. Queremos o terceiro quartil. Assim, o terceiro quartil terá elementos. Daí, calculando a frequência acumulada F_AC = 5 + 15 + 25 = 45 e essa soma leva-nos à classe do 35. Portanto, o terceiro quartil é 35.

Exemplo 17 (CESGRANRIO): A tabela apresenta uma distribuição hipotética. Não há observações coincidentes com os limites das classes.

CLASSES	FREQUÊNCIA ABSOLUTA
de 0 a 10	4
de 10 a 20	10
de 20 a 30	50
de 30 a 40	100
Total	164

Tabela 1.14 - Distribuição de frequências - quartil

Fonte: Elaborada pelos autores.

A melhor estimativa para o terceiro quartil da distribuição é, aproximadamente, de:

A. 34,75

B. 34,9

C. 35

D. 35,75

E. 35,9

Solução: Primeiramente, vamos determinar a frequência acumulada da distribuição.

Tabela 1.15 - Resolução Distribuição de frequências - quartil

Fonte: Elaborada pelos autores.

Para o terceiro quartil temos a quantidade de elementos igual a ou seja, o terceiro quartil está na classe de 30 a 40. Usando interpolação linear, temos:

Daí, x = 35,9.

MEDIDAS DE DISPERSÃO

Agora, vamos discutir a dispersão ou variabilidade dos dados estudados. Essas medidas incluem

o estudo da amplitude total, da variância, do desvio-padrão e do coeficiente de variação.

Nossos objetivos aqui são determinar as medidas de dispersão, bem como sua interpretação.

Para iniciar nosso estudo, considere os seguintes conjuntos de dados:

A: 17, 17, 17, 17, 17

B: 15, 16, 17, 18, 19

C: - 48, - 38, - 3, 67, 107

A média aritmética de cada conjunto de dados é:

Note que, embora as médias aritméticas sejam iguais, existe diferença na dispersão desses

em relação à média. Temos que o conjunto de dados A é mais homogêneo que o conjunto de dados B que, por sua vez, é mais homogêneo que o conjunto de dados C. Ou seja, quando comparamos esses conjuntos de dados de A para C, temos aumento na dispersão dos dados por eles apresentados. Daí surge a necessidade em medir a dispersão ou variabilidade de um conjunto de dados.

Amplitude Total

A amplitude total (AT) de um conjunto de dados é a diferença entre o maior valor e o menor valor.

Amplitudetotal = (valor máximo dos dados) - (valor mínimo dos dados)

Trata-se de uma medida de dispersão muito sensível aos valores extremos e não é tão útil quanto as outras medidas de dispersão que estudaremos. Estudemos os exemplos a seguir.

Exemplo 18: Na Tabela a seguir estão apresentados os valores em rol do preço de quarenta ações negociadas em um dia por uma Bolsa de Valores. Esta tabela é mostrada a seguir.

____________________________________________________________________

1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25 9,38 10,00

11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38

21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63

34,00 35,25 37,88 38,00 38,88 43,25 48,38 52,00 53,38 78,38

____________________________________________________________________

Tabela 1.16 - Ações na bolsa de valores

Fonte: Elaborada pelos autores.

Determine a amplitude total dos preços das ações negociadas.

Solução: Antes de calcular a amplitude total, primeiro devemos escrever os dados em rol.

Assim sendo, temos que:

Logo, a amplitude dos preços das ações é igual a R$ 77,13.

Exemplo 19: No exemplo 6 foi apresentada uma pesquisa realizada pela Polícia Rodoviária Estadual a respeito do número de acidentes automobilístico por dia, em determinado trecho de uma estrada. A tabela de frequências é apresentada a seguir:

NÚMERO DE ACIDENTES POR DIA	FREQUÊNCIA OBSERVADA
0	20
1	40
2	80
3	50
4	10

Tabela 1.17 - Distribuição de frequências de uma pesquisa realizada pela Polícia Rodoviária

Estadual a respeito de número de acidentes automobilísticos diários

Fonte: Elaborada pelos autores..

Determine a amplitude total.

Solução: Nesse caso, a amplitude será dada por AT = 4 - 0 = 4, ou seja, a amplitude do número de acidentes por dia é igual a 4.

Exemplo 20: Organizamos, na tabela apresenta a seguir, os valores dos preços das quarenta ações negociadas por uma Bolsa de Valores em tabela de distribuição de frequência com dados agrupados em classe.

Tabela 1.18 - Resolução - Distribuição de frequências de uma pesquisa realizada pela Polícia Rodoviária Estadual a respeito de número de acidentes automobilísticos diários

Fonte: Elaborada pelos autores.

Determine a amplitude do valor dos preços das ações negociadas.

Solução: Nessa situação em que os dados estão organizados por classe, a amplitude é dada por: AT = 79 - 1 = 78. Logo, a amplitude dos preços das ações é igual a R$ 78,00.

Desvio em relação à média

A diferença entre cada valor observado e a média é denominada desvio e é dada se o conjunto de dados for um universo, ou se os dados são amostrais. Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação à média, o resultado é igual a zero. Isto significa que esta medida não mede a variabilidade dos dados. Para resolver este problema, consideramos o quadrado dos desvios em relação à média.

Quadro 1.8 - Variância (equações)

Fonte: Adaptado de Crespo (2009).

Em que:

σ²é a variância populacional;

s² é a variância amostral;

x_i é o valor da variável;

μ é a média aritmética dos elementos da população;

é a média aritmética dos elementos da amostra;

N é o número de elementos da população;

n é o número de elementos da amostra

Vejamos o procedimento para o cálculo da variância nos exemplos a seguir. Começaremos com os dados não agrupados.

Exemplo 21 (CESGRANRIO): Em uma amostra de cinco residências de uma determinada rua, registram-se os seguintes números de moradores em cada uma:

CASA A	CASA B	CASA C	CASA D	CASA E
3	6	2	7	2

Quadro 1.9 - Variância amostral

Fonte: Adaptado de Cesgranrio.

A variância amostral é:

A. 5,8

B. 5,5

C. 5,1

D. 4,8

E. 4,4

Solução: Primeiramente, vamos determinar a média aritmética da amostra. Assim,

. Para obter o quadrado dos desvios, montamos o quadro a seguir:

Quadro 1.10 - Resolução do cálculo da variância

Fonte: Elaborado pelos autores.

Daí segue que a variância amostral é

. Logo, a variância é 5,5 moradores².

Desvio-padrão

Vimos que a variância é calculada a partir dos quadrados dos desvios em relação à média e que ela é um número cuja unidade está ao quadrado em relação à variável estudada, o que sob o aspecto prático é inconveniente. O desvio-padrão é definido como a raiz quadrada da variância, o que do ponto de vista prático é mais conveniente, pois assim a medida de dispersão tem a mesma unidade da média.

Equação

Quadro 1.11 - Desvio padrão (equação)

Fonte: Adaptado de Crespo (2009).

Ou seja, podemos encontrar o desvio padrão, extraindo a raiz quadrada do valor encontrado da variância (independente se é amostral ou populacional)

O desvio-padrão apresenta as seguintes propriedades, entre elas:

I. Adicionando (ou subtraindo) uma constante k de todos os valores da variável em estudo, o desvio-padrão não se altera.

II. Multiplicando todos os valores da variável em estudo por uma constante k, tal que o desvio-padrão fica multiplicado por essa constante.

Exemplo 22: No exemplo 21 verificamos que a variância foi s²=5,5. Assim, o desvio-padrão

é s = √5,5= 2,35 moradores.

Coeficiente de variação

O coeficiente de variação (CV) é uma medida de dispersão relativa, o qual é definido como sendo a razão entre o desvio-padrão e a média aritmética. O coeficiente de variação é empregado na comparação do grau de concentração em torno da média para duas ou mais séries estatísticas distintas. Dizemos que uma série é mais homogênea que outra quando apresentar menor coeficiente de variação.

Exemplo 23: Uma administradora de imóveis realizou um estudo sobre todos os imóveis alugados em duas regiões, A e B, levantando o seguinte quadro:

REGIÃO	VALOR MÉDIO DO ALUGUEL	DESVIO-PADRÃO
A	R$ 500,00	R$ 100,00
B	R$ 500,00	R$ 150,00

Quadro 1.12 - Operações com coeficiente de variação Fonte: Elaborado pelos autores.

Qual das regiões apresenta mais homogeneidade nos dados?

Solução: Vamos calcular os coeficientes de variação das regiões A e B.

Como o coeficiente de variação da região A é menor que o da região B, segue que os preços dos aluguéis na região A são mais homogêneos que os preços dos aluguéis na região B.

Medidas de assimetria e curtose

A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de frequências e/ou um histograma, se está buscando, também, identificar visualmente a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de assimetria de Pearson (As) definido como:

Uma distribuição é classificada como:

A. Simétrica se média = mediana = moda ou As = 0. Graficamente, temos:

Figura 1.5 - Distribuição simétrica

Fonte: Elaborada pelos autores.

B. Assimétrica negativa se média ≤ mediana ≤ moda ou As < 0. O lado mais longo do polígono de frequência (cauda da distribuição) está à esquerda do centro.