@MastersThesis{Santana:2018:DaScAp,
author = "Santana, Thiago Lu{\'{\i}}s Viana de",
title = "A data science approach to Lattes CV data analysis",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2018",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2018-09-20",
keywords = "data analysis, data science, Lattes Platform, bibliometrics,
artificial intelligence, an{\'a}lise de dados, ci{\^e}ncia de
dados, Plataforma Lattes, bibliometria, intelig{\^e}ncia
artificial.",
abstract = "A Plataforma Lattes {\'e} uma das principais bases de dados da
comunidade acad{\^e}mica brasileira. Esta plataforma web foi
criada pelo Conselho Nacional de Desenvolvimento Tecnol{\'o}gico
e Cient{\'{\i}}fico (CNPq) e {\'e} atualizada pelos
pr{\'o}prios pesquisadores e alunos, sendo de grande valor
n{\~a}o s{\'o} para a documenta{\c{c}}{\~a}o das
publica{\c{c}}{\~o}es e outros dados acad{\^e}micos sobre os
usu{\'a}rios e sua avalia{\c{c}}{\~a}o pela comunidade, mas
tamb{\'e}m para a an{\'a}lise de seus dados em diferentes
aplica{\c{c}}{\~o}es, por exemplo, para criar relat{\'o}rios,
avaliar grupos de pesquisa, programas educacionais de
n{\'{\i}}vel superior, institui{\c{c}}{\~o}es etc. Para
realizar estas an{\'a}lises, os curr{\'{\i}}culos devem ser
baixados a priori. Todos os dados sobre o CV Lattes s{\~a}o
p{\'u}blicos at{\'e} certo ponto: para baixar os
curr{\'{\i}}culos {\'e} necess{\'a}rio conhecer o nome
completo da pessoa de interesse ou o identificador exclusivo da
plataforma Lattes. Al{\'e}m disso, n{\~a}o h{\'a} ferramentas
nativas na plataforma que permitam a an{\'a}lise
espec{\'{\i}}fica de grupos de pesquisadores e estudantes.
Assim, deve-se fazer o download de um conjunto de Curriculum
Lattes e extrair os dados requeridos desse conjunto. Este trabalho
pretende preencher essa lacuna atrav{\'e}s de uma ferramenta que
processa e limpa o conjunto de dados Lattes CVs, permitindo seu
uso por usu{\'a}rios com pouco conhecimento de linguagens de
programa{\c{c}}{\~a}o. S{\~a}o apresentados os relat{\'o}rios
que esta ferramenta gera e que est{\~a}o relacionados {\`a}
An{\'a}lise Explorat{\'o}ria de Dados - como relat{\'o}rios
gerados com dados de Lattes CV - nuvens de palavras e
gr{\'a}ficos que exibem rela{\c{c}}{\~a}o entre pesquisadores.
Tamb{\'e}m {\'e} discutida a extens{\~a}o dessa ferramenta com
algoritmos de classifica{\c{c}}{\~a}o n{\~a}o supervisionados,
mostrando sua integra{\c{c}}{\~a}o com m{\'e}todos de
intelig{\^e}ncia artificial. ABSTRACT: The Lattes Platform is the
de facto database of the Brazilian academic community. This
web-based platform was created by the Brazilian National Council
of Technological and Scientific Development (CNPq) and is updated
by the researchers and students themselves, being of great value
not only to store information about publications and other
academic data about the users and their evaluation by the
community but also for analysis of its data in different
applications, such as to create reports, to evaluate research
groups, higher-level educational programs and institutions. All
data on the Lattes CV is public to a certain extent: CVs can be
downloaded provided one knows the full name of the person of
interest or its Lattes platform unique identifier. Also, there are
no native tools on the platform that allow specific analysis of
groups of researchers and students; one must either browse or
download a set of CVs and extract the required data from that set
for posterior analysis. This work intends to fill this gap by
presenting a tool that processes and cleans up a Lattes CVs data
set, that was developed with focus on users with little knowledge
of programming. In this work we present the reports that this tool
generates and that are related to Exploratory Data Analysis such
as reports generated with Lattes CV data word clouds and graphs
that exhibit relationship between researchers. This work also
discusses extensions of this tool capabilities with unsupervised
classification algorithms, showing its integration with artificial
intelligence methods.",
committee = "Vijaykumar, Nandamudi Lankalapalli (presidente) and Santos, Rafael
Duarte Coelho dos (orientador) and Queiroz, Gilberto Ribeiro de
and Chalhoub, Ezzat Selim",
englishtitle = "Uma abordagem de ci{\^e}ncia de dados para an{\'a}lise de dados
de Curriculum Lattes",
language = "en",
pages = "74",
ibi = "8JMKD3MGP3W34R/3S3AQHH",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/3S3AQHH",
targetfile = "publicacao.pdf",
urlaccessdate = "03 jun. 2024"
}