domingo, 24 de abril de 2016

Aula 9 (25/4/2016)- Pivot Tables e Analise Multivariada (Cluster Analysis)








Cursos de Inglês Online Grátis (textos em inglês)
01 – English Online – é um curso bem estruturado. Traz conteúdo amplo para estudantes de nível básico, intermediário e avançado. Apresenta vídeos.
02 – Learn English Online – Este site apresenta um amplo conteúdo focado exclusivamente para estudantes de nível básico. É bem organizado.
03 – Learn American English Online – o foco do site é inglês americano. Há vídeos. Na seção de “reading”, você pode gravar sua voz para comparar sua leitura com a de um nativo.
04 – 1-Language – Curso de inglês com 70 lições para atender estudantes de nível básico e intermediário.
05 – BBC – Curso de inglês bem estruturado, com material de texto e vídeo excelentes.
06 – USA Learns – Curso de inglês americano voltado para o público adulto. Ele melhora sua habilidade de escrever, ler e falar em inglês.
Cursos de Inglês Online Grátis (textos em português)
07 – Curso de Inglês Grátis – esse site apresenta gramática inglesa para estudantes de nível básico e intermediário. Também há textos exclusivos para “phrasal verbs”, compreensão oral e expressões idiomáticas.
08 – Zap English – como os demais, esse site dá um foco em gramática. Como diferencial, ele dedica um espaço para traduzir músicas inglesas e ensina expressões idiomáticas. Há também uma seção exclusiva para pronúncia de palavras.
09 - livemocha
10 - Duolingo
11 - Busuu

Um abraço e até a próxima

Divulgue este art





Salários para Teste  T e ANOVA


Cidade
Estado
Salario na Industria Tatico/Operacional
E
MS
1678
T
SP
1850
B
MS
1650
F
MS
1890
O
SP
1950
Q
SP
2050
S
SP
2320
P
SP
1800
G
MS
1789
C
MS
1890
A
MS
1700
D
MS
1950
R
SP
2150
U
SP
1680




data salarios;
input Cidade $ Estado $ Salario;
cards;
T SP 1850
O SP 1950
Q SP 2050
S SP 2320
P SP 1800
R SP 2150
U SP 1680
E MS 1678
B MS 1650
F MS 1890
G MS 1789
C MS 1890
A MS 1700
D MS 1950
W   RR  1345
Z   RR  1420
Y   RR  1380
;
proc anova;
class Estado;
model Salario = Estado;
means Estado / tukey lines;
run;







Aula 9 - Pivot Tables (Tabela Dinâmica) e Analise Multivariada (Cluster Analysis)



Tabela Dinâmica e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.

Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big Data) e Pesquisa Cientifica.

No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:




                      Tabela Dinâmica em Excel

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    AT      20.475       54.35  3100
    PR      25.175  2.55  2662.5
    SE       25.575  2.925  2700
    SEM   23.05         16.6  2950
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;











    Exemplo do Julio Natalino
    data  alface;
    input cat $ diam peso fibras;
    cards;
    crespa    30 210 2.5
    lisa    27 160 1.7
    americana 25 175 1.65
    mimosa   28 180 2.0

    ;
    proc cluster data=alface outtree = arvore method = average;
    var diam peso fibras;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;

    Exemplo do Helio Prado
    data iusp; 
    input Unidade $ FutCampo  Handebol Basquete Xadrez Natacao;
    cards;
    ESALQ 4 6 5 2 3
    FARMA 3 2 3 4 4
    ODONTO 3 3 4 6 5
    FEA 5 4 5 3 4
    POLI 5 5 3 5 4
    ;

    proc cluster data=iusp outtree = arvore method = average;
    var FutCampo  Handebol Basquete Xadrez Natacao;
    id Unidade;
    run;
    PROC TREE DATA = arvore;

    RUN;


    Exemplo da 
    Vanessa  Beatriz 

        Lovadine 


    data  alunos;
    input alunos $ hum exa bio;
    cards;
    BEA 5 5 5
    CARL 2 1 5
    GAB 2 1 3
    ERIc 4 5 2
    ;
    proc cluster data=alunos outtree = arvore method = average;
    var hum exa bio;
    id alunos;
    run;
    PROC TREE DATA = arvore;

    RUN;


    segunda-feira, 18 de abril de 2016

    Aula 8 - (18/04/2016) Sedimentar teste T e Iniciar ANOVA em SAS

    Aula 8 - (18/04/2016) Sedimentar Teste T e Iniciar ANOVA em SAS

    Teste T - Exemplos dos Alunos e Como Escrever: Sumario Executivo, Relatório Técnico em Empresa e Resultados e Discussão em Academia
    Ver em postagem anterior.

    Quando temos mais de duas categorias para comparar (No Teste T tínhamos somente 2 categorias)



    - Tarefa montar um banco de dados para rodar ANOVA – Rodar e elaborar um relatório.
    Anexos do Teste ANOVA na Linguagem SAS:

    SAS programa mais importante do mundo para t. d. no âmbito corporativo
    O programa R é o mais importante no âmbito acadêmico.
    O segundo no meio corporativo (especialmente para matrizes europeias) é o SPSS




    Programa SAS :

    data SUCOS;
    input suco $ NaOH;
    cards;
    Maca    8
    Maca    11
    Maca    10
    Maca    8
    Maca    9
    Uva 8
    Uva 6
    Uva 7
    Uva 9
    Laranja 5
    Laranja 4
    Laranja 5
    Manga   2
    Manga   1
    Manga   1
    ;
    proc ANOVA;
    class suco;
    model NaOH=suco;
    means suco/ tukey lines;
    run;







    Resultado da Análise:




    Dependent Variable: NaOH
    Source
    DF
    Sum of Squares
    Mean Square
    F Value
    Pr > F
    Model
    3
    129.8000000
    43.2666667
    36.24
    <.0001
    Error
    11
    13.1333333
    1.1939394


    Corrected Total
    14
    142.9333333





    O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
    No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula ou Hipótese de Igualdade. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho.
    Assim os sucos tem diferenças na quantidade de NaOH.
    Mas onde estão as diferenças?
    Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.







    Box and wisker plot - Wikipedia











    Relatório de ANOVA (SAS):

    Resultados e Discussão
    O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro).
    O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg). Esses dois sucos diferiram estatisticamente dos sucos de laranja e manga que apresentaram as menores medias aritméticas de Na OH.
    Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).









     Estrutura Programa SAS









     Fim Estrutura Programa SAS


    Exercício na Aula

    • Digitar no SAS  para refletir em cada linha digitada. 
    • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, quarta geração) e na língua inglesa.
    • Discutir os resultados com base em postagem da aula anterior. Reescreva ou copie interpretando cada paragrafo.
    Programa SAS com Problemas de Prerrequisitos de ANOVA:
    data SUCOS_B;
    /* Outlier e Escala (homocedasticidade) */
    input suco $ NaOH;
    cards;
    Maca    8
    Maca    50
    Maca    7
    Maca    60
    Maca    7
    Uva 2
    Uva 4
    Uva 12
    Uva 13
    Laranja 14
    Laranja 2
    Laranja 3
    Manga   2
    Manga   3
    Manga   89
    ;
    proc ANOVA;
    class suco;
    model NaOH=suco;
    means suco/ tukey lines;
    run;

    Arquivo de Telas SAS para Diagnostico ANOVA:

    Telas_Dianostico



    SAS Students Remoto Servidor LCE:
    143.107.212.50:10080