segunda-feira, 18 de maio de 2020

Prova com pouco peso data proposta 8/6/2020

Teoria nota 10 máximo
Nota extra Excel


Aula de 18/5/2020 - Sequência

Sequência da Aula:

- Problemas para se cadastrar no SAS? Podemos resolver nos horários de consulta ou durante a aula;

- Aplicar Machine Learning não Supervisionado (Cluster Analysis) ao exemplo da aula de Tabela Dinâmica. Programação, lado esquerdo do cérebro, um pouco desagradável mas muito poderoso. Linguagem de 4ta geração, distante do programador, próxima do usuário;

- Verificar onde estão as diferenças entre as categorias ( Atleta, Semi-atleta, Sedentário e Professor) utilizando ANOVA em SAS;

- Convite para treinamento gratuito em Ciência de Dados e Gestão Sistêmica, quem estiver gostando da disciplina e quiser investir mais (tempo);

- Mostrar outro exemplo de SAS para ANOVA;

- Conversar sobre SAS e Weka para avaliação (tal vez somente exercícios teóricos e Excel), porem aumentam muito empregabilidade e competitividade. Dificuldades com acesso a Internet, as vezes por celular. Quem tiver problemas de acesso a Internet por favor me escreva a gasarrie@usp.br ou mande whatsapp ou SMS para meu celular: 019-988-627-438, vamos conversar e encontrar solução para acompanhar a disciplina.


Convite para Treinamento em Ciência de Dados e Gestão Sistêmica - Em elaboração!

Prezados Colegas,

Estamos iniciando o treinamento virtual do Laboratório de Ciência de Dados e Gestão Sistêmica da USP em Piracicaba, no dia 6/6/2020 das 15 às 18 horas, mandaremos e-mail com o link da reunião no Google Meet. Já fizemos alguns treinamentos presenciais,  reuniões para organização e realizamos vários trabalhos nessas áreas, coloco no Anexo 1 alguns slides ilustrando.

Como poderão ver nos slides estamos realizando trabalhos há três anos utilizando machine learning (inteligência artificial), em diversas áreas como produção de alimentos, ecologia aplicada, economia e administração, agora estamos entrando na área de medicina, por causa da Covid-19, tentando colaborar com o combate à pandemia. Nas áreas de estatística aplicada, computação e gestão trabalhamos há mais de 25 anos, com centenas de trabalhos realizados.

Estamos percebendo que a área de machine learning é muito versátil, podendo ser aplicada em praticamente todos os trabalhos de pesquisa. Logicamente a estamos utilizando com prudência, sempre checando resultados com a estatística. Já fizemos varias apresentações em congressos, publicamos artigos, estamos orientando três trabalhos e coorientando outros dois de pós-graduação  e ganhamos um premio no final do ano passado, primeiro premio em autenticidade de qualidade de alimentos da revista Food Chemistry, de impacto 5,4 (titulo: .....). O primeiro de machine learning, já tínhamos seis premiações ou menções honrosas na área de gestão sistêmica. No Anexo 2 colocamos links de blogs onde podem visualizar mais informações de nosso trabalho, como videoaulas, apostilas, tutoriais, etc. Aplicamos os conhecimentos do Laboratório em 4 disciplinas de graduação e 3 de pós-graduação da USP de Piracicaba.

Estamos buscando aumentar a massa critica para incorporar novas experiências de aplicação, podermos estudar em maior profundidade e acompanhar as novidades dessa área que acontecem o tempo todo, como também acontece na área de gestão sistêmica e estatística. Nosso enfoque é aplicado, estudamos a teoria necessária para utilizar com critério as tecnologias.

Partiremos do zero nos treinamentos nas duas áreas, não é necessária nenhuma base previa, pretendemos ter uma sequencia de aprendizado gradual. Em paralelo organizaremos treinamentos para diferentes níveis de qualificação.

A sequencia de treinamentos gradual será gratuita, podemos montar cursos extra pagos, para poder remunerar colaboradores e comprarmos hardware e software. No momento estamos bem equipados.

O laboratório é um produto da inteligência coletiva e colaborativa, com espirito solidário. O sistema organizacional depende da vontade dos colaboradores, gostamos da gestão participativa e do estilo de gestão Y de Douglas Mc Gregor.

Esperamos contar com sua participação.

Prof. Gabriel Sarriés

LCE/ESALQ/USP

 

Anexo 2 - Blogs onde podem encontrar mais informações de nosso trabalho:

- Blog do Laboratório de Ciência de Dados e Gestão Sistêmica

- Blog da Disciplina LCE0137 – Para todos os cursos de graduação da USP em Piracicaba (7)

- Blog da Disciplina LCE5736 – Para todos os cursos de pós-graduação da USP em Piracicaba (mais de 20)

##

Anexo 1 – Slides Ilustrativos

##

 


Outro Exemplo de SAS para ANOVA com Videoaulas e Detalhes de Estrutura do Programa SAS

Videoaulas do Programa SAS para ANOVA



12/4/2019





Programas Análogos ao SAS





Videoaulas do Programa SAS para ANOVA


Primeira Videoaula - Rodando um Programa SAS para ANOVA:


https://youtu.be/Z2K_WBG86OY


Segunda Videoaula - Interpretando o Resultado de um Programa SAS para ANOVA

https://youtu.be/1EebI4y72iA





Programa SAS :

data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/ tukey lines;
run;







Resultado da Análise:






Dependent Variable: NaOH
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
3
129.8000000
43.2666667
36.24
<.0001
Error
11
13.1333333
1.1939394


Corrected Total
14
142.9333333





O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula (ou Hipotese de Nulidade) ou Hipótese de Igualdade, ou seja que todos os sucos contem igual quantidade (concentração) de OHNa. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho, em favor de H1: Hipótese Alternativa, assim existe alguma diferença de concentração de OHNa entre os sucos.
Assim os sucos tem diferenças na quantidade de NaOH.
Mas onde estão as diferenças?
Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.




Box and wisker plot - Wikipedia











Relatório do Teste de Tukey no 
SAS Comercial









Relatório de ANOVA (SAS):

Resultados e Discussão
O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro). Assim o experimento mostra diferenças altamente significativas (quando o p valor e < 0,01) (se estive-se o p valor entre 0,01 e 0,05, as diferenças seriam simplesmente significativas) e por ultimo se o p valor for > do que 0,05 então não se rejeita a hipótese de igualdade.
O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg), por que as medias dos 2 sucos são precedidas pela letra "A". Esses dois sucos diferiram estatisticamente dos sucos de laranja (letra "B") e manga que apresentaram as menores medias aritméticas de Na OH (letra "C").
Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).
O texto em verde é somente para esclarecimentos, não deve ser colocado na tese.









 Estrutura Programa SAS






Diferentes Cores de Letras Atribuídas pelo SAS



Veja que você poderá mudar o que esta em fonte cor preta, as palavras em azul, são palavras reservadas do SAS, isso não poderá ser mudado. Tambem veja que o banco de dados, que seguramente você digitou no Excel esta com uma sobra cor amarelo-marrão.





 Fim Estrutura Programa SAS


Como Gravar os 2 Arquivos Gerados pelo SAS
1) O arquivo de programa SAS e dados tem exetencao ".sas"
2) O arquivo de resultados tem extencao " .mht".
Esse dois arquivos podem ser lidos pelo Word, clicando no nome do arquivo com o botão direito do mouse e escolhendo a opção "Abrir com" do Microsoft Explorer.

Verificando a Saída de Machine Learning Não Supervisionada (Cluster Analysis) Utilizando ANOVA

SAS para ANOVA

ANOVA - Análise da Variança
Para comparar mais de duas Categorias
(Para comparar duas trabalhamos com o Teste T em Excel)


Temos as categorias:
AT : Atleta
SEM: Semi-atleta
SED : Sedentário
PR: Professor

São 4 categorias, se o numero de categorias é maior que 2 temos que usar o SAS (o Excel não resolve)



Programa SAS para ANOVA

data imc_dat;
input cat $ imc corr kcal;
cards;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SED  27.3 2.5 2700
SED 23.4 4.3 2300
SED  25.2 2.3 2600
SED 26.4 2.6 3200
PR 26.2 4.1 2600
PR 24.2 2.1 2700
PR 25.4 1.9 2650
;
proc print;
run;
proc glm;
 class cat;
 model imc corr kcal  = cat;
 means cat / duncan lines;
run;




Saída do Programa SAS para ANOVA



Obscatimccorrkcal
1AT20.260.73200
2AT21.354.83100
3AT19.349.62800
4AT21.152.33300
5SEM22.414.92600
6SEM21.917.82700
7SEM23.818.63200
8SEM24.115.13300
9SE27.32.52700
10SE23.44.32300
11SE25.22.32600
12SE26.42.63200
13PR26.24.12600
14PR24.22.12700
15PR25.41.92650

The GLM Procedure

Class Level Information
ClassLevelsValues
cat4AT PR SE SEM
Number of Observations Read15
Number of Observations Used15

The GLM Procedure

 

Dependent Variable: imc

SourceDFSum of SquaresMean SquareF ValuePr > F
Model363.9923333321.3307777814.230.0004
Error1116.491666671.49924242  
Corrected Total1480.48400000   
R-SquareCoeff VarRoot MSEimc Mean
0.7950945.2148021.22443623.48000
SourceDFType I SSMean SquareF ValuePr > F
cat363.9923333321.3307777814.230.0004
SourceDFType III SSMean SquareF ValuePr > F
cat363.9923333321.3307777814.230.0004
Fit Plot for imc by cat

The GLM Procedure

 

Dependent Variable: corr

SourceDFSum of SquaresMean SquareF ValuePr > F
Model36829.1585002276.386167300.25<.0001
Error1183.3975007.581591  
Corrected Total146912.556000   
R-SquareCoeff VarRoot MSEcorr Mean
0.98793513.604102.75346920.24000
SourceDFType I SSMean SquareF ValuePr > F
cat36829.1585002276.386167300.25<.0001
SourceDFType III SSMean SquareF ValuePr > F
cat36829.1585002276.386167300.25<.0001
Fit Plot for corr by cat

The GLM Procedure

 

Dependent Variable: kcal

SourceDFSum of SquaresMean SquareF ValuePr > F
Model3497333.333165777.7781.950.1801
Error11935000.00085000.000  
Corrected Total141432333.333   
R-SquareCoeff VarRoot MSEkcal Mean
0.34721910.18210291.54762863.333
SourceDFType I SSMean SquareF ValuePr > F
cat3497333.3333165777.77781.950.1801
SourceDFType III SSMean SquareF ValuePr > F
cat3497333.3333165777.77781.950.1801
Fit Plot for kcal by cat

The GLM Procedure

Distribution of imc by cat

The GLM Procedure

 

Duncan's Multiple Range Test for imc

Note:This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha0.05
Error Degrees of Freedom11
Error Mean Square1.499242
Harmonic Mean of Cell Sizes3.692308

Note:Cell sizes are not equal.

Number of Means234
Critical Range1.9832.0752.129
#LN00264

The GLM Procedure

 

Distribution of corr by cat

The GLM Procedure

 

Duncan's Multiple Range Test for corr

Note:This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha0.05
Error Degrees of Freedom11
Error Mean Square7.581591
Harmonic Mean of Cell Sizes3.692308

Note:Cell sizes are not equal.

Number of Means234
Critical Range4.4604.6654.788
#LN00284

The GLM Procedure

 

Distribution of kcal by cat

The GLM Procedure

 

Duncan's Multiple Range Test for kcal

Note:This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha0.05
Error Degrees of Freedom11
Error Mean Square85000
Harmonic Mean of Cell Sizes3.692308

Note:Cell sizes are not equal.

Number of Means234
Critical Range472.3494.0507.0