miércoles, 23 de noviembre de 2011

ARCA DE NOE DIGITAL :Tema 2.- Esquema del tema y referencia a los contenidos

El catálogo tradicional ha sido el instrumento bibliográfico por antonomasia. se partía de la descripción del documento (Descripción Bibliográfica), se elegían los puntos de acceso (personales, corporativos, títulos, temáticos y sistemáticos) y se añadía la transcripción de los datos locales (signatura y registro), con el fin de localizarlo dentro de la biblioteca. La localización es lo que distingue a un catálogo de una bibliografía.
 El análisis documental se centraba en el contenido. Son las operaciones intelectuales que conducen a representar el contenido del documento de modo distinto al original (descripción analítica) que es una operación técnica que, condensa el contenido y las materias del documento en un resumen y/o una lista de palabras clave.
                                                       Operaciones técnicas que se realizan con el documento
Los llamados tradicionalmente puntos de acceso temáticos son el producto de la indización. Indizar es,  registrar ordenadamente datos e informaciones para elaborar su índice con vistas a una posterior búsqueda y recuperación de la información. Se puede considerar la indización como una operación dirigida a representar, por medio de un lenguaje documental o natural, los datos resultantes del contenido intelectual del documento. La indización se encuentra, por tanto, en el punto de unión entre la catalogación como creadora de puntos de acceso temáticos al catálogo y el análisis documental, esto es, la descripción del contenido intelectual del documento.
La clasificación ha sido el método de indización por excelencia

La indización automática,  los sistemas expertos y los nuevos lenguajes que aportan una estructura semántica a los documentos de la Word Wide Web como RDF, OWL, Topic Maps o XFML que permite definir, distribuir e intercambiar metadatos en forma de taxonomías o clasificaciones facetadas, son los avances más recientes.


Pero además de la descripción formal del documento y del análisis del contenido, existe una tercera función relacionada con la metainformación de un documento, se trata de la función referencial. Esta función se ha llevado a cabo, tradicionalmente, mediante la elaboración bibliografías o listas de referencias.
La utilización de metadatos para los recursos digitales ha sustituido a  las tradicionales labores de catalogación y clasificación, ya que se trata de una nueva forma de describir los recursos  digitales en línea. Y, de igual forma, estos lenguajes de clasificación pueden ser aplicados a los documentos de la Web.

Por su parte, los tesauros se utilizan para producir índices y bases de datos, y para la indización mediante descriptores que permitirán la búsqueda y recuperación de los documentos previamente indizados, lo que favorece unas búsquedas mucho más precisas gracias al uso de un lenguaje controlado. Los lenguajes libres y las listas de palabras clave, aunque transcienden las restricciones de los tesauros, priman la exhaustividad sobre la precisión y son útiles para búsquedas amplias. La  indización automática y los sistemas expertos, junto con el desarrollo de una serie de lenguajes semánticos legibles por máquina (OWL, Topic Maps, XFML, etc,) y el uso de bases de conocimiento y ontologías que definen una semántica para construir documentos estructurados basados en XML, suponen también una evolución y no una sustitución de unos métodos por otros, y en muchos casos, todos estos métodos contribuyen y cooperan dentro de un sistema integrado de recuperación y búsqueda, sea en línea o fuera de ella.
 Clasificaciones y categorías:
 Listas de términos:
        Ficheros de autoridades: se trata de listas de los términos utilizados para controlar las distintas denominaciones que se le dan a una entidad, ya sean países, individuos, organizaciones, materias, etc. También se incluyen los términos no autorizados haciendo referencia a los autorizados.  .  También puede existir cierta jerarquía que permita una navegación simple.
Glosarios: es una lista de términos con definiciones, generalmente sobre un campo específico y limitado del saber.

 Diccionarios: se trata de listas alfabéticas de términos y de sus varios sentidos y definiciones. Su alcance es más general que el de un glosario. Aunque también pueden proporcionar sinónimos o antónimos, al contrario que los tesauros, los términos relacionados no muestran ninguna estructura jerárquica.
Índices: por índice se entiende cualquier lista de términos generalmente sobre un tema específico o un trabajo concreto. Así tenemos Índice de autores, Índice de temas, Índice de tablas, figuras, etc. Pueden estar organizados alfabéticamente o siguiendo un esquema de clasificación, utilizando categorías de materias, etc.
* Un ejemplo de índice es el Índice de Autores de esta tesis.
 Encabezamientos de materia: ofrecen un sistema de términos controlados para representar las materias de los documentos en una colección.

Sistemas de clasificación, Taxonomías, Categorías Temáticas: en general persiguen la misma idea que es categorizar en clases y sub-clases, esto es, clasificar en entidades separadas un dominio o subdominio del conocimiento. 
     Listas relacionadas:
Tesauros: sistema de organización del conocimiento basado en un vocabulario de términos que recogen conceptos y las relaciones entre dichos términos. Esas relaciones pueden ser de jerarquía, equivalencia o asociación.
 
Ontologías: sistema de organización que define el vocabulario de un ámbito específico del conocimiento por medio de un conjunto de términos básicos y de las relaciones entre ellos, y que incluye las reglas y axiomas para combinar esos conceptos y relaciones. Las ontologías permiten representar relaciones más complejas entre los conceptos que las que pueden establecer los tesauros.

 Redes semánticas: se trata de sistemas que estructuran los conceptos no como una jerarquía, sino como una red. 
 
     Mapas de conocimiento: aunque no se trata de una forma de organización en sí misma, sino de una representación visual de ésta, los mapas de conocimiento son una forma de representación del conocimiento no en forma de lista, sino en forma de diagrama o mapa. Tiene un gran desarrollo como sistema de organización de la información contenida en la World Wide Web.

 El uso de diagramas y el diseño de mapas conceptuales es una práctica corriente en numerosas disciplinas

Las partes de una red semántica son:
  •  nodos: es un concepto y se encierra e un círculo o elipse.
  •  relaciones: es una propiedad del concepto y pueden ponerse de dos formas:
    •  implícitas: es una flecha que no especifica su contenido
    •  explícitas: es una flecha en donde se especifica su contenido

A la hora de elegir los descriptores o palabras clave para describir un documento de la Web, podemos hacer una primera distinción entre:
  •  indización libre: la identificación se realiza a través de una lista o conjunto abierto de términos.
  •  indización controlada: la identificación se realiza por medio de una lista o conjunto cerrado de términos.
    Si elegimos una indización controlada, hay que destacar las siguientes herramientas o conjuntos cerrados de donde extraer los términos:

         Vocabulario controlado: esto es, una lista de términos que tienen asignado un significado concreto. Si se utilizan estos términos para la clasificación e indización, esto facilitará la posterior búsqueda y recuperación de información. Podemos echar mano de un fichero de autoridades, glosario, diccionario o índice ya creados, o crear nuestro propio vocabulario.

         Taxonomía: es una lista estructurada en forma de árbol, organizada de manera jerárquica partiendo de los términos más generales a los más específicos. Incluye también términos relacionados. Así pues, una taxonomía añade una jerarquía a un vocabulario controlado.


     Para la construcción de estas herramientas de indización (tesauros, ontologías, taxonomías, etc), existen numerosos paquetes de software y aplicaciones tanto gratuitas como de pago. Por ejemplo, http://publish.uwo.ca/~craven/freeware.htm ofrece varios programas, entre ellos un extractor de palabras y frases, un indizador de cadenas de texto, un asistente para la escritura de resúmenes, un asistente para la creación, modificación y gestión de tesauros, y un indexador de documentos de la Web.
     

No hay comentarios:

Publicar un comentario