segunda-feira, 27 de maio de 2024

Max QDA

 MAXQ.DA é um software para análise de dados qualitativos e métodos mistos em pesquisas acadêmicas, científicas e comerciais. O software está disponível como uma aplicação universal para sistemas operacionais Windows e macOS e é desenvolvido pela empresa VERBI Software em Berlim, Alemanha.

O software é desenvolvido para ser usado tanto em pesquisas qualitativas quanto quantitativas e métodos mistos.[1] A ênfase em ir além da pesquisa qualitativa pode ser observada na presença de ferramentas estatísticas e na habilidade do software em lidar de forma relativamente rápida com uma grande quantidade de entrevistas.

Fonte Wikipedia.


Mineração de Texto: Conceitos e Fundamentos

 

Mineração de Texto: Conceitos e Fundamentos

Fonte Gemini (IA)

A mineração de texto, também conhecida como análise de texto, descoberta de conhecimento em texto ou text mining, é um campo interdisciplinar que utiliza técnicas de processamento de linguagem natural (PLN), aprendizado de máquina, estatística e outras áreas para extrair informações valiosas de grandes volumes de dados textuais não estruturados.

Em outras palavras, a mineração de texto permite que você transforme um mar de palavras em conhecimento acionável.

Fundamentos da Mineração de Texto:

A mineração de texto se baseia em três pilares principais:

1. Pré-processamento de texto:

  • Limpeza de texto: Remover ruídos como pontuação, caracteres especiais e HTML.
  • Normalização: Converter texto para minúsculas, remover acentos e lidar com abreviações.
  • Tokenização: Dividir o texto em unidades menores, como palavras ou frases.
  • Lemação: Reduzir palavras à sua forma raiz (por exemplo, "correndo" para "correr").
  • Partículas de fala: Identificar a classe gramatical de cada palavra (por exemplo, substantivo, verbo, adjetivo).

2. Extração de informações:

  • Entidades nomeadas: Identificar e classificar entidades como pessoas, lugares, organizações e datas.
  • Termos-chave: Identificar as palavras e frases mais importantes em um documento.
  • Relações: Identificar relações entre entidades e termos-chave (por exemplo, "João trabalha no Google").
  • Tópicos: Agrupar documentos com base em tópicos comuns.
  • Sentimento: Determinar a opinião geral de um texto (por exemplo, positivo, negativo, neutro).

3. Análise e modelagem:

  • Aprendizado de máquina: Utilizar algoritmos para aprender com os dados e fazer previsões ou classificações.
  • Agrupamento: Agrupar documentos ou termos com base em similaridades.
  • Modelagem de tópicos: Descobrir os tópicos latentes em um conjunto de documentos.
  • Visualização: Criar gráficos e tabelas para visualizar os resultados da análise.

Aplicações da Mineração de Texto:

A mineração de texto tem um amplo espectro de aplicações em diversos setores, como:

  • Análise de sentimento: Monitorar a opinião pública sobre produtos, marcas ou eventos.
  • Detecção de fraude: Identificar atividades fraudulentas em transações financeiras ou documentos de seguro.
  • Segmentação de clientes: Agrupar clientes com base em características e comportamentos para campanhas de marketing direcionadas.
  • Desenvolvimento de produtos: Extrair insights de avaliações de clientes e mídias sociais para melhorar produtos e serviços.
  • Descoberta de medicamentos: Identificar novos compostos com potencial terapêutico a partir de literatura científica.
  • Análise de pesquisas: Extrair informações de artigos científicos e relatórios para informar pesquisas futuras.

Ferramentas e Recursos:

Existem diversas ferramentas e recursos disponíveis para realizar mineração de texto, desde ferramentas de código aberto até plataformas comerciais. Algumas opções populares incluem:

  • RapidMiner: Uma plataforma completa de mineração de dados e aprendizado de máquina com recursos para mineração de texto.
  • Weka: Uma ferramenta de código aberto para mineração de dados e aprendizado de máquina com suporte para mineração de texto.
  • MALLET: Uma biblioteca de código aberto para modelagem de tópicos e análise de texto.
  • Stanford CoreNLP: Uma biblioteca de código aberto para processamento de linguagem natural com recursos para mineração de texto.
  • NLTK: Uma biblioteca de código aberto para processamento de linguagem natural em Python.

Considerações Finais:

A mineração de texto é uma ferramenta poderosa para extrair conhecimento de grandes volumes de dados textuais. Ao combinar técnicas de PLN, aprendizado de máquina e estatística, a mineração de texto pode ser utilizada para resolver problemas complexos em diversos setores.

É importante ressaltar que a mineração de texto é um processo iterativo que requer experiência e conhecimento em PLN e análise de dados. A escolha das ferramentas e técnicas adequadas dependerá do tipo de dados e do objetivo da análise.

Se você está interessado em aprender mais sobre mineração de texto, existem diversos recursos disponíveis online e em bibliotecas. Você também pode participar de cursos e workshops para aprofundar seus conhecimentos.



segunda-feira, 20 de maio de 2024

Link para o Horário de Consultas

 

Link para o Horário de Consultas:

 (Sábados das 15 às 16) 

https://meet.google.com/xgf-jman-pyv

WatsApp: 019 – 988 – 627 – 438

 

Blog

https://mercado-gestao-empeend.blogspot.com/

Site

https://sites.google.com/view/lce137-usp-gabriel/in%C3%ADcio

gasarrie@usp.br

 

Exercícios

 Exercícios

 

Enviar todos os exercícios para e-mail de Exercícios: gestao.estat.cert@gmail.com

        Colocar o número e tipo (teorico ou pratico) do exercício e o nome do autor no assunto do e-mail.

 

 


Vamos fazer em sala de aula todos os práticos, eu resolverei como se fosse um aluno. Colocando meu número de RG, vocês colocam os seus e fica tudo resolvida na sala de aulas.

 

Exercícios Práticos

Exercício Pratico 1 - Fazer Data Cruching - Pivot Table do exemplo do blog com os últimos dígitos de seu RG. Elaborar gráficos equalizados e com lay out adequado.

Dead Line: 13/5/2024

Categ

IMC

Km_Seman

Kcal_Dia

ATL

20,?

60,?

32??

ATL

21,3

54,8

3100

ATL

19,3

49,6

2800

ATL

21,1

52,3

3300

SEMI

22,4

14,9

2600

SEMI

21,9

17,8

2700

SEMI

23,8

18,6

3200

SEMI

24,1

15,1

3300

SEDE

27,3

2,5

2700

SEDE

23,4

4,3

2300

SEDE

25,2

2,3

2600

SEDE

26,4

2,6

3200

PROF

26,2

4,1

2600

PROF

24,2

2,1

2700

PROF

25,4

1,9

2650

 

 

Exercício Pratico 2 - Criar um sistema de almoxarifado utilizando Pivot Tables. Optativo.

Dead Line: 20/5/2024

 

Exercício Pratico 3 - Rodar IA Indutiva Não S para Classificação. Somente trocar os sinais de interrogação por ultimos digitos do RG.  DL: 27/5

data  pessoas;

input cat $ imc corr kcal;

cards;

AT 20.? 54.? 31??

PR 25.3 2.7 2650

SE 25.6 2.9 2700

SEM 23.1 16.6 2950

;

/* Observar que os dados são a saída da operação Tabela Dinâmica do Exercício Prático 1 */

proc cluster data=pessoas outtree = arvore method = average;

var imc corr kcal;

id cat;

run;

PROC TREE DATA = arvore;

RUN;

 

Exercício Pratico 4 - Rodar ANOVA para seleção de variáveis preditoras, trocando sinais de interrogação. DL: 3/6. Optativo

 data People;

/* BMI: body mass index --> Índice de M. Corporal = Peso / (Altura * Altura)

     Movm: Movement (Km por semana)

     KCal : Kilocalories (ingeridas por dia)

     ATL: Athletes

     SEMI: Semi-athletes

     SEDE: Sedentary

     PROF: Professor

*/

input Categ $ IMC Movim Kcal;

cards;

ATL 20.? 60.? 32??

ATL 21.3 54.8 3100

ATL 19.3 49.6 2800

ATL 21.1 52.3 3300

SEMI 22.4 14.9 2600

SEMI 21.9 17.8 2700

SEMI 23.8 18.6 3200

SEMI 24.1 15.1 3300

SEDE  27.3 2.5 2700

SEDE 23.4 4.3 2300

SEDE  25.2 2.3 2600

SEDE  26.4 2.6 3200

PROF 26.2 4.1 2600

PROF 24.2 2.1 2700

PROF 25.4 1.9 2650

;

Proc ANOVA;

     Class Categ;

      Model IMC Movim Kcal = Categ;

     Means Categ / Duncan Lines;

Run;

 

 

 Exercício Pratico 5, O TECEIRO OBRIGATORIO  - Rodar o exemplo de propaganda e vendas com seu numero de RG. DL: 10/6/2024.

 

 

X

Y

30

4??

21

3??

35

520

42

490

37

470

8

195

17

270

35

400

25

480

12

258

10

205

 

 

 

X            Y

2          858     Cuiabá


 

 - Elaborar 5 slides sobre ML Não Supervisionado para Clasificação - Cluster Analysis