Semi-automatic generation of a corpus of Wikipedia articles on science and technology

Autores/as

  • Julià Minguillón El profesional de la información
  • Maura Lerga
  • Eduard Aibar
  • Josep Lladós-Masllorens
  • Antoni Meseguer-Artola

DOI:

https://doi.org/10.3145/epi.2017.sep.20

Palabras clave:

Wikipedia, Ciencia y tecnologí­a, Corpus, Infomap, Detección de comunidades, Taxonomí­a Unesco.

Resumen

A pesar de la gran cantidad de contenido cientí­fico y tecnológico disponible en la World Wide Web, su mayorí­a se encuentra encerrado tras sistemas de pago, como las revistas académicas, o es casi invisible, como los repositorios institucionales. Wikipedia puede actuar como un agente de transferencia, proporcionando una estructura organizada y accesible conteniendo tanto contenidos como enlaces a las fuentes originales. En Wikipedia las categorí­as se han cread colaborativamente y por lo tanto son más una folksonomí­a que una verdadera taxonomí­a. Consecuentemente, las categorí­as no son una herramienta válida para identificar la organización de los contenidos. En este artí­culo se describe un método semi-automático, basado en paseos aleatorios, para determinar un subconjunto de páginas con contenido cientí­fico y tecnológico de la Wikipedia española. Usando la taxonomí­a Unesco, se determina la estructura subyacente del grafo del corpus y se detectan grupos de páginas fuertemente enlazadas, estableciendo las relaciones entre las áreas de conocimiento. Finalmente, se presenta la distribución de artí­culos de Wikipedia de acuerdo con la taxonomí­a Unesco y el mapa resultante de contenido cientí­fico y tecnológico.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

Publicado

2017-09-14

Cómo citar

Minguillón, J., Lerga, M., Aibar, E., Lladós-Masllorens, J., & Meseguer-Artola, A. (2017). Semi-automatic generation of a corpus of Wikipedia articles on science and technology. Profesional De La información Information Professional, 26(5), 995–1005. https://doi.org/10.3145/epi.2017.sep.20

Número

Sección

Análisis / Analysis