segunda-feira, 28 de abril de 2025

Inteligência artificial indutiva não supervisionada (Machine Learning) para classificação - Cluster analysis

 Inteligência artificial indutiva não supervisionada (Machine Learning) para classificação  - Cluster analysis



Tipos de Machine Learning



                                   ML UL Clustering






Fonte de Dados Sebrae

Cidade: Caxias do Sul








Tabela Excel dos Dados
 

Cidade

Regiao

Cid_reg

Habitantes

IDH

Rend_Cap

Cap_Empr

Teci_Emr

Gov_Descn

Org_Prod

Ins_Compet

Edu_Empr

Piracicaba

SE

Pir_SE

439

0,785

1,14

0,54

0,695

0,796

0,598

0,761

0,004

Sao_Car

SE

SC_SE

252

0,805

1,08

0,686

0,653

0,812

0,564

0,788

0,002

Sao_Jose

SE

SJ_SE

461

0,797

1,17

0,613

0,73

0,648

0,597

0,769

0,011

Mon_Clar

SE

MC_SE

409

0,77

0,65

0,481

0,651

0,696

0,549

0,666

0,124

Rondono

CO

Ron_CO

232

0,755

0,84

0,452

0,509

0,626

0,567

0,651

0

Anápolis

CO

Aná_CO

387

0,737

0,79

0,481

0,645

0,695

0,562

0,708

0

Camp_Gra

NE

CG_NE

410

0,72

0,63

0,458

0,565

0,683

0,571

0,59

0,584

Petroli

NE

Pet_NE

349

0,697

0,61

0,419

0,43

0,678

0,528

0,57

0,009

Rio_Bran

Norte

RB_Norte

407

0,727

0,74

0,342

0,47

0,663

0,486

0,503

0,0009

Boa_Vista

Norte

BV_Norte

399

0,752

0,79

0,338

0,458

0,538

0,502

0,585

0,082

Maringa

S

Mar_S

424

0,808

1,2

0,652

0,753

0,791

0,611

0,765

0,01

Cax_Sul

S

CS_S

347

0,75

0,95

0,446

0,715

0,654

0,559

0,715

0,046

 

 

Kruskal Wallis

NS

*

*

*

*

NS

*

*

NS

 






  Inteligência artificial indutiva (Machine Learning) não supervisionada para classificação - Cluster analysis


Cluster e Dendrograma de todas as cidades, programa SAS: ver banco de dados

data cidades;

input Cid_reg $ IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Comp;

cards;

Pir_SE 0.785 1.14 0.54 0.695 0.598 0.761

SC_SE 0.805 1.08 0.686 0.653 0.564 0.788

SJ_SE 0.797 1.17 0.613 0.73 0.597 0.769

MC_SE 0.77 0.65 0.481 0.651 0.549 0.666

Ron_CO 0.755 0.84 0.452 0.509 0.567 0.651

Ana_CO 0.737 0.79 0.481 0.645 0.562 0.708

CG_NE 0.72 0.63 0.458 0.565 0.571 0.59

Pet_NE 0.697 0.61 0.419 0.43 0.528 0.57

RB_Norte 0.727 0.74 0.342 0.47 0.486 0.503

BV_Norte 0.752 0.79 0.338 0.458 0.502 0.585

Mar_S 0.808 1.2 0.652 0.753 0.611 0.765

CS_S 0.75 0.95 0.446 0.715 0.559 0.715

;

proc print;

run;

proc cluster data=cidades outtree = arvore method = average;

var IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Comp;

id Cid_reg;

run;

PROC TREE DATA = arvore;

RUN;



Cluster e Dendrograma de todas as regiões e Piracicaba, programa SAS:

data regioes;

input Local $ IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Compet;

cards;

CO 0.746 0.815 0.4665 0.577 0.5645 0.6795

NE 0.7085 0.62 0.4385 0.4975 0.5495 0.58

Norte 0.7395 0.765 0.34 0.464 0.494 0.544

S 0.779 1.075 0.549 0.734 0.585 0.74

SE 0.78925 1.01 0.58 0.68225 0.577 0.746

Piracic 0.785 1.14 0.54 0.695 0.598 0.761

;

proc print;

run;

proc cluster outtree = arvore method = average;

var IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Compet;

id Local;

run;

PROC TREE DATA = arvore;

RUN;


Apostila Box Plot - Histograma e Polígono de Frequência

Apostila Box Plot - Histograma e Polígono de Frequência 


Apostila para Download

Apostila Box Plot e Histograma


Progrma SAS para Box and Wisker Plot

data peixes;

input Posiçao Peso;

cards;

1 1.01

2 1.18

3 1.34

4 1.59

5 2.11

6 2.48

7 2.76

8 3.11

9 4.26

10 4.42

11 4.73

12 5

13 5.13

14 12.39

;

proc sgplot ;

vbox Peso;

run;

segunda-feira, 7 de abril de 2025

Segundo Exemplo IA Indutiva Não Supervisionada para Classificação - Linguagem SAS - Pivot Tables

   Segundo Exemplo IA Indutiva Não Supervisionada para Classificação - Linguagem SAS - Pivot Tables



UML - Unsupervised Machine Learning: Machine Learning Não Supervisionado


Dados:

    - Categoria: Variável Classificatória

    - IMC: Primeira Variável Preditora - Indice de Massa Corporal

    - Movim: Segunda Variável Preditora - Movimentação caminhando ou correndo por semana (Km)

    - KCal: Quilocalorias consumidas por dia. Terceira Variavel Preditora


Categ

IMC

Movim

KCal

ATL

20,9

60,9

3259

ATL

21,3

54,8

3100

ATL

19,3

49,6

2800

ATL

21,1

52,3

3300

SEMI

22,4

14,9

2600

SEMI

21,9

17,8

2700

SEMI

23,8

18,6

3200

SEMI

24,1

15,1

3300

SEDE

27,3

2,5

2700

SEDE

23,4

4,3

2300

SEDE

25,2

2,3

2600

SEDE

26,4

2,6

3200

PROF

26,2

4,1

2600

PROF

24,2

2,1

2700

PROF

25,4

1,9

2650


Obter as Médias por Data Crunching - Pivot Table


Categor

IMC

Movim

Kcal

ATL

20,65

54,4

3114,75

PROF

25,27

2,7

2650

SEDE

25,58

2,925

2700

SEMI

23,05

16,6

2950



 



 Dinâmica IA Indutiva Não Supervisionada para Classificação - Linguagem SAS


Programa SAS - Rodaremos esse programa numa versão gratuita muito poderosa na Nuvem.

 

A linguagem de menor custo de aprendizagem para Ciência de Dados e Inteligência Artificial, também a mais respeitada e valorizada. 

 



Codificação para rodar IA Indutiva Não Supervisionada para Classificação em Linguagem SAS

data  pessoas;
input cat $ imc corr kcal;
cards;

AT 20.5 54.4 3100

PR 25.3 2.7 2650

SE 25.6 2.9 2700

SEM 23.1 16.6 2950

;
proc cluster data=pessoas outtree = arvore method = average;
var imc corr kcal;
id cat;
run;
PROC TREE DATA = arvore;
RUN;








 ML Não Supervisionado para Clasifiação - Cluster Analysis - ANOVA and MANOVA




\t para trocar o tab por espaço em Linux

    - No Editor

Caractere de Tabulação em Word (Windows)



Obtaining Cluster Analysis

data  People;
input Categ $ IMC Movim Kcal;
cards;

DADOS TABELA DINÁMICA

;
proc cluster outtree = Dendrog method = average;
var IMC Movim Kcal;
id Categ;
run;
PROC TREE DATA = Dendrog;

RUN; 







Program to do ANOVA


data People;

/* BMI: body mass index --> Índice de M. Corporal = Peso / (Altura * Altura)
     Movm: Movement (Km por semana)
     KCal : Kilocalories (ingeridas por dia)
     ATL: Athletes
     SEMI: Semi-athletes
     SEDE: Sedentary
     PROF: Professor

*/
input Categ $ IMC Movim Kcal;
cards;
ATL 20.2 60.7 3200
ATL 21.3 54.8 3100
ATL 19.3 49.6 2800
ATL 21.1 52.3 3300
SEMI 22.4 14.9 2600
SEMI 21.9 17.8 2700
SEMI 23.8 18.6 3200
SEMI 24.1 15.1 3300
SEDE  27.3 2.5 2700
SEDE 23.4 4.3 2300
SEDE  25.2 2.3 2600
SEDE  26.4 2.6 3200
PROF 26.2 4.1 2600
PROF 24.2 2.1 2700
PROF 25.4 1.9 2650
;
Proc ANOVA;
     Class Categ;
      Model IMC Movim Kcal = Categ;
     Means Categ / Duncan Lines;
Run;




Arithmetic Averages of Categories

Categ IMC Movim Kcal

AT 20.5 54.4 3100

PR 25.3 2.7 2650

SE 25.6 2.9 2700

SEM 23.1 16.6 2950