Construcción de recursos de texto para la identificación automática de información clínica en narrativas no estructuradas

Pablo Báez; Fabián Villena; Karen Zúñiga; Natalia Jones; Gustavo Fernández; Manuel Durán; Jocelyn Dunstan

Autores/as

Pablo Báez Universidad de Chile
Fabián Villena Universidad de Chile
Karen Zúñiga Universidad de Chile
Natalia Jones Universidad de Chile
Gustavo Fernández Universidad de Chile
Manuel Durán Universidad de Chile
Jocelyn Dunstan Universidad de Chile

Palabras clave:

Data Curation, Data Mining, Medical Informatics, Natural Language Processing, Supervised Machine Learning

Resumen

Background: A significant proportion of the clinical record is in free text format, making it difficult to extract key information and make secondary use of patient data. Automatic detection of information within narratives initially requires humans, following specific protocols and rules, to identify medical entities of interest. Aim: To build a linguistic resource of annotated medical entities on texts produced in Chilean hospitals. Material and methods: A clinical corpus was constructed using 150 referrals in public hospitals. Three annotators identified six medical entities: clinical findings, diagnoses, body parts, medications, abbreviations, and family members. An annotation scheme was designed, and an iterative approach to train the annotators was applied. The F1-Score metric was used to assess the progress of the annotator’s agreement during their training. Results: An average F1-Score of 0.73 was observed at the beginning of the project. After the training period, it increased to 0.87. Annotation of clinical findings and body parts showed significant discrepancy, while abbreviations, medications, and family members showed high agreement. Conclusions: A linguistic resource with annotated medical entities on texts produced in Chilean hospitals was built and made available, working with annotators related to medicine. The iterative annotation approach allowed us to improve performance metrics. The corpus and annotation protocols will be released to the research community.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Pablo Báez, Universidad de Chile

Doctor en Ciencias Biomédicas. Centro de Informática Médica y Telemedicina, Facultad de Medicina, U. Chile Postdoc

Fabián Villena, Universidad de Chile

Cirujano Dentista. Centro de Informática Médica y Telemedicina, Facultad de Medicina, U. Chile Graduado del Magister en Informática Médica, Facultad de Medicina, Universidad de Chile. Centro de Modelamiento Matemático, Facultad de Ciencias Físicas y Matemáticas, U. Chile Asistente de investigación

Karen Zúñiga, Universidad de Chile

Estudiante de Medicina, Universidad de Chile.

Natalia Jones, Universidad de Chile

Estudiante de Medicina, Universidad de Chile.

Gustavo Fernández, Universidad de Chile

Estudiante de Medicina, Universidad de Chile.

Manuel Durán, Universidad de Chile

Médico Cirujano Centro de Informática Médica y Telemedicina, Facultad de Medicina, U. Chile Estudiante de Magíster en Informática Médica, Facultad de Medicina, Universidad de Chile.

Jocelyn Dunstan, Universidad de Chile

Doctora en Matemática Aplicada y Física Teórica con un posdoctorado en Salud Pública. Centro de Informática Médica y Telemedicina, Facultad de Medicina, U. Chile Profesora Adjunta Centro de Modelamiento Matemático, Facultad de Ciencias Físicas y Matemáticas, U. Chile Científica de datos

Construcción de recursos de texto para la identificación automática de información clínica en narrativas no estructuradas

Autores/as

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Pablo Báez, Universidad de Chile

Fabián Villena, Universidad de Chile

Karen Zúñiga, Universidad de Chile

Natalia Jones, Universidad de Chile

Gustavo Fernández, Universidad de Chile

Manuel Durán, Universidad de Chile

Jocelyn Dunstan, Universidad de Chile

Descargas

Publicado

Cómo citar

Número

Sección

ISSN

Enviar un artículo

Indexaciones

Indicadores

Google Scholar 2021

SOCIEDAD MÉDICA DE SANTIAGO