Desarrollan un sistema que oculta información confidencial de documentos de texto

Seguridad

28 ABR 2017

El método ofrece una precisión equiparable al proceso manual que han de hacer actualmente los expertos en privacidad, e incluso es más exhaustivo, según sus creadores.

La investigadora Montserrat Batet, del grupo de investigación KISON de la UOC, y el investigador David Sánchez, del grupo de investigación CRISES-Cátedra UNESCO de Privacidad de Datos, del Departamento de Ingeniería Informática y Matemáticas de la URV, han diseñado un sistema que detecta y oculta automáticamente la información confidencial de documentos de texto. De este modo, los archivos se pueden enviar a terceros sin comprometer la privacidad y manteniendo el anonimato de las entidades a que hagan referencia.

Quizá te interese...

Barómetro del emprendimiento de éxito en España

Aumenta la colaboración en DevOps y mejora el rendimiento

Informe sobre la responsabilidad ante el fraude electrónico

La transformación de Big Data: por qué el cambio es bueno para tu negocio

Actualmente, los datos personales son de gran utilidad en muchos ámbitos, tanto de investigación como de negocios o de planificación. Por ejemplo, los datos de pacientes almacenados en historiales son fundamentales para hacer investigación médica, las operaciones bancarias son la base para hacer análisis financieros, y el análisis de las transacciones comerciales sirve para mejorar la personalización de los servicios que se prestan. Dado que muchos de esos datos son confidenciales, hay que proteger los documentos que los contienen antes de enviarlos a los investigadores que los usarán. Utilizar mecanismos de protección adecuados es, por lo tanto, esencial para garantizar la privacidad y/o el anonimato de los individuos.

Hasta ahora, la protección de documentos confidenciales requería de uno o varios expertos que, manualmente, identificaban y eliminaban palabras, sintagmas o frases que podían revelar información sensible o potencialmente discriminatoria. En cambio, el método presentado automatiza todo este proceso, lo que permite manejar y proteger eficientemente el gran volumen de datos que se usa actualmente en investigación. Para hacerlo, el sistema analiza la información disponible en Internet, que es la que un tercero podría usar como base de conocimiento para deducir información confidencial de un documento protegido; y, a continuación, protege aquellos términos que podrían facilitar esas deducciones.

Las pruebas han demostrado que este método es más exhaustivo y ofrece una precisión equiparable a la de un experto humano. Además, a diferencia de éste, el sistema no se limita a eliminar términos peligrosos, sino que también intenta, siempre que se pueda, reemplazarlos por conceptos más generales que resulten más ambiguos. De momento, el método se ha implementado en un prototipo de software que se ha probado sobre documentos clínicos en inglés. Se prevé que en un futuro próximo pueda aplicarse a otros ámbitos de conocimiento y establecerse como una herramienta de uso profesional de especial utilidad para la investigación.