segunda-feira, 27 de março de 2023

Exemplo de Regressão no Excel com Outlier - Ciência de Dados Robusta

   Exemplo de Regressão no Excel com Outlier - Ciência de Dados Robusta


 Colocando Outlier no Exemplo - Cuidado !!!

          Outlier - Dado Fora de Contexto:

·        Destrói Tudo o que pode ser feito em Excel;

·       Destrói tudo o que aprenderão na Graduação e Pós-graduação nos Programas Atuais da USP em Piracicaba (tirando minhas disciplinas).

·        Difícil visualizar Outlier em Big Data:

o   Como Resolver

o   CD Robusta – Em SAS, R ou Python. Rodar antes da IA, critério de seleção de Variáveis Preditoras, por exemplo antes de rodar no Weka.


 

 

Dados para Importar:

Programa SAS para Rodar Ciência de Dados Robusta

(Regressão Robusta)

 Propaganda - Vendas 
Sem Outlier

X

Y

30

430

21

335

35

520

42

490

37

470

8

195

17

270

35

400

25

480

12

258

10

205




X            Y

2          858     Cuiabá


Data Propagan;

Input X Y;

Cards;

30 430

21 335

35 520

42 490

37 470

2 858

8 195

17 270

35 400

25 480

;

Proc Robustreg;

      Model Y = X;

Run;

 






















Conventional and Robust Data Science for SML to Prediction or Regression

  Conventional and Robust Data Science for SML to Prediction or Regression 

SAS Program


Data Customer;

Input Bu_Unit  Sales  Price Qu_level Claims NPS Satisfac;

Cards;

1 65.98107775 97.8021978 96.77419355 13.58024691 98.9010989 97.82608696

2 15.83710407 98.9010989 98.38709677 12.34567901 97.8021978 98.91304348

3 8.885232415 100 100 11.11111111 100 100

4 12.46400658 98.9010989 95.16129032 12.34567901 96.7032967 96.73913043

5 80.66639243 21.97802198 19.35483871 100 2.197802198 21.73913043

6 32.16783217 23.07692308 22.58064516 97.5308642 3.296703297 23.91304348

7 23.44714109 24.17582418 24.19354839 96.2962963 2.747252747 25

8 89.9629782 24.17582418 19.35483871 95.0617284 2.197802198 26.08695652

9 31.42739613 64.83516484 56.4516129 50.61728395 65.93406593 65.2173913

10 11.22994652 65.93406593 51.61290323 49.38271605 71.42857143 66.30434783

11 77.45783628 70.32967033 53.22580645 46.91358025 63.73626374 68.47826087

12 23.89962978 68.13186813 51.61290323 45.67901235 61.53846154 67.39130435

13 7.404360346 86.81318681 80.64516129 25.92592593 90.10989011 86.95652174

14 0.287947347 87.91208791 79.03225806 24.69135802 85.71428571 85.86956522

15 83.42245989 87.91208791 77.41935484 22.22222222 90.10989011 88.04347826

16 100 86.81318681 75.80645161 25.92592593 84.61538462 84.7826087

;

proc print; run;

/* Input Bu_Unit  Sales  Price Qu_level Claims NPS Satisfac; */

proc reg;

   model  Satisfac = Sales  Price Qu_level Claims NPS;

Run;

proc robustreg;

model Satisfac = Sales  Price Qu_level Claims NPS;

Run;


Machine Learning para Predição - Regressão - Biodiversidade Animal

 Machine Learning para Predição -

     Regressão - Biodiversidade

                  Animal


Quais Variáveis Preditoras - IA (Variáveis Independentes ou Causa para a Estatística) impactam na Biodiversidade Animal?








Dados para Rodar no Weka
Arquivo

Autor: Gabriel Sarriés



Variáveis Preditoras (Total = 5)

DBO – Demanda Bioquímica de Oxigênio

ICobV – Índice de Cobertura Vegetal

ICArb – Índice de Cobertura Arbórea

IBCont – Bioindicador de Contaminação (agrotóxicos)

Dis_Pl – Distancia do plantio de grãos.


Modelo Matemático:

Biodiversidade Animal = a + b*DBO +c*ICobV+ d*ICArb+e*IBCont+f*Dis_Pl









Exemplo de Biomonitor





Área de Cultivo de Grãos 

Soja - Milho - Algodão - Trigo - Aveia



Banco de Dados para Desenvolver Algoritmo de MLS para Previsão

DBO

ICobV

ICArb

Bcont

Dis_Pl

IBD_A

1,604

89

60

11

9

90

0,385

90

61

10

8,9

91

0,216

91

62

9

9,1

92

0,303

90

59

10

8,8

89

1,961

20

12

81

0,2

20

0,782

21

14

79

0,3

22

0,57

22

15

78

0,25

23

2,187

22

12

77

0,2

24

0,764

59

35

41

6

60

0,273

60

32

40

6,5

61

1,883

64

33

38

5,8

63

0,581

62

32

37

5,6

62

0,18

79

50

21

8,2

80

0,007

80

49

20

7,8

79

2,028

80

48

18

8,2

81

2,431

79

47

21

7,7

78




Selecionou 3 Variaveis Preditoras


Machine Learning Supervisionado para Predição - Regressão - Biodiversidade Animal


Arquivo Biodiversidade Animal (do Weka):


                   Arquivo Biodiversidade Animal  (arff)













Resultado do Weka

Linear Regression Model

Ibd_A =

      0.2508 * ICob_V +
      0.1578 * ICArb +
     -0.4855 * BCont +
      1.147  * Dist_Pla +
     52.8115

Resultado do Weka (MLS para Previsão)


 

bd_A =

 

      0.2508 * ICob_V + Diferença com o Excel

      0.1578 * ICArb +  OK Excel

     -0.4855 * BCont +   OK Excel

      1.147  * Dist_Pla +    OK Excel

     52.8115



Resultado do Excel 3 Variáveis Preditoras
Para MLS Previsão foram 4




















Material Complementar






Arquivo excel para Download:



Script do SAS Regressao Multipla

data bda;
input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
cards;
1.604 89 60 11 9 90
0.385 90 61 10 8.9 91
0.216 91 62 9 9.1 92
0.303 90 59 10 8.8 89
1.961 20 12 81 0.2 20
0.782 21 14 79 0.3 22
0.57 22 15 78 0.25 23
2.187 22 12 77 0.2 24
0.764 59 35 41 6 60
0.273 60 32 40 6.5 61
1.883 64 33 38 5.8 63
0.581 62 32 37 5.6 62
0.18 79 50 21 8.2 80
0.007 80 49 20 7.8 79
2.028 80 48 18 8.2 81
2.431 79 47 21 7.7 78
;
/*
input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
*/
proc reg;
model IBD_A = DBO ICobV ICArb Bcont Dis_Pl;
run;


Saida do SAS


Regressao Robusta Multipla
Comando do SAS: 







Arquivo para Weka (.arff)

@RELATION biodiv_Animal

@ATTRIBUTE dbo REAL

@ATTRIBUTE  ICob_V REAL

@ATTRIBUTE ICArb REAL

@ATTRIBUTE BCont REAL

@ATTRIBUTE Dist_Pla REAL

@ATTRIBUTE Ibd_A REAL

@DATA

6.416555198,60,99,99,5,90
1.538176272,61,98,99,6,91
...