Etiquetado de datos

Este artículo está orientado a programadores y analistas informáticos. Trata del eterno problema de la clasificación de datos, y por tanto se aparta un poco del ámbito del coleccionismo, aunque en buena medida es el catalogado de colecciones, la inspiración para el mismo. Se trata, pues, de una serie de pensamientos expresados en voz alta para intentar llegar a una solución final, o al menos lo suficiente buena como para satisfacer las necesidades expresadas.


Objetivo
: categorizar de forma múltiple un registro utilizando etiquetas abitrarias.


El uso de etiquetas se contempla en diversos sistemas de jerarquización, clasificación y ordenación de datos, como la folcsonomía o la clasificación facetada (o colonada). En todos ellos existen diversas ventajas y desventajas de su uso.


Las desventajas o mejor dicho, las posibles incidencias que pueden ocurrir con una etiqueta son:

- Sinonimia, es decir, utilizar etiquetas que son sinónimos entre sí. Múltiples etiquetas para el mismo concepto.
- Homonimia. La misma etiqueta puede tener distintos significados.
- Polisemia. La misma etiqueta con múltiples significados relacionados.

¿De quién es la responsabilidad de eliminar o evitar estos posibles conflictos?


Una posible solución es contar con un Editor/Auditor de listas de etiquetas, que además pueden ser diferenciadas por campos o por tipo de atributos. Así, el responsable eliminaría duplicados o etiquetas que lleven a una mala interpretación.
Otra, contar con un Tesauro completo del idioma elegido y tratar de fijar los posibles conflictos. Wikipedia llama a éstos ambigüedades, lo cual es con seguridad lo más acertado. El usuario habitual de Wikipedia conocerá el término, ya que al buscar un concepto demasiado generalista suele aparecer una lista de posibles para evitar la ambigüedad.

La intermedia es que el Editor fabrique el Tesauro específico para cada disciplina y/o atributo a tratar.


¿Quién crea entonces el vocabulario propuesto?


Filosofía Wiki


Volviendo a la folcsonomía, qué duda cabe que lo mejor es que el usuario lo haga todo, y lo haga bien. Pero hay que saber filtrar los conflictos y ambigüedades.

Lo mejor es meterse en harina y trabajar con ejemplos reales, y así se ven las carencias del sistema y sus virtudes.


Uso mis propias colecciones para poner los ejemplos, ya que son los territorios que conozco mejor.


Item 1: Autógrafo de Edward J Olmos firmado en directo durante la Basauri Con 1.0 (Bilbao) (la foto le muestra en su papel de Gaff en Blade Runner).


Categorías posibles: Collectibles > Cine > Actores > Autógrafos


Etiquetas posibles: CINE, ACTOR, AUTOGRAFO, EDWARD J OLMOS, EJO, BASAURI, BILBAO, CON, COA, BLADE RUNNER, GAFF, B/N, 2010, ESPAÑA


Motivo de cada etiqueta:

CINE, el autógrafo pertenece a un actor de cine
ACTOR, el autógrafo pertenece a la profesión actor
EDWARD J OLMOS, el autógrafo está firmado por Edward J Olmos
EJO, es el acrónimo de Edward J Olmos, utilizado de forma común
BASAURI, localidad donde se celebró el evento
BILBAO, provincia donde pertenece Basauri, para mejor referencia
CON, Basauri Con es una Convención, quizás es ambiguo usar "CON"
COA, en inglés, Certify Of Authenticy, indica que es auténtico*
BLADE RUNNER, forma parte del universo o hipercolección Blade Runner
GAFF, es el personaje que aparece en la foto
B/N, la foto está en blanco y negro
2010, año del evento Basauri Con 1.0
ESPAÑA, país donde se celebró el evento

¿Sobra alguna? ¿Falta alguna?


*El uso de acrónimos o abreviaturas es muy frecuente en el idioma inglés (y más en el inglés americano). Puede ser una desventaja para quien no conozca cada una de ellas, pero también una ventaja para el etiquetaje de datos de forma resumida.


Una problemática que me ronda por la cabeza es cómo establecer relaciones entre etiquetas, ya sean jerárquicas -en árbol-, punto a punto, punto a múltiples, o cualquier otra combinación. Es decir, cómo saber qué etiquetas pueden colgar de una en particular, como si una etiqueta cualquiera pudiera tener ascendientes y descendientes, padres e hijos, ancestros, etc. En alguna parte debe existir un diccionario, una relación de etiquetas que nos informen de sus relaciones entre sí, de sus dependencias.


Por ejemplo, siguiendo en el ámbito del cine. Si tenemos una etiqueta llamada ACCION para determinar que el ítem etiquetado pertenece al cine de acción, esta etiqueta tiene una relación directa con la etiqueta CINE, sin duda. Pero, ¿sólo con ella? ACCION es un término general, que puede aplicarse a otras tantas disciplinas. ¿Se os ocurren algunas, aparte de CINE? ¿Qué tal la etiqueta VINTAGE? La podemos usar para referirnos a DISEÑO, CINE, MODA, MOBILIARIO, etc. ¿Cómo relacionamos las anteriores propuestas con VINTAGE de forma directa?


Estoy pensando en un usuario que busca por el término VINTAGE (como etiqueta, no como parte del texto) y quiere llegar a MODA VINTAGE. Lo lógico sería qué, además, seleccionara la etiqueta MODA, ¿no? Una solución es que el motor de búsquedas presente una lista de posibles etiquetas relacionadas con VINTAGE (como la lista anterior) y el usuario marque aquellas que crea convenientes para su búsqueda:


El usuario indica VINTAGE


Aparece una lista tal que: CINE, AUTOMOVILES, DISEÑO, ESTETICA, FOTOGRAFIA, JUEGO, MOBILIARIO, MODA ...


Y aquí el usuario marca una o más de estas etiquetas para acotar la búsqueda.


Seguimos con el mismo camino, y CINE puede tener toda una serie de propuestas en forma de una segunda lista:

ACCION, ANIMACION, COMEDIA, CIENCIA-FICCION, DOCUMENTAL, DRAMA, ENSAYO, MUSICAL, SUSPENSE ...

Y el usuario seguiría marcando criterios.


El mismo proceso puede eternizarse. Por tanto es conveniente limitar a unos cuantos niveles la profundidad a la que se puede llegar por este método.

Observemos que el ejemplo empieza por VINTAGE para llegar quizás a cine dramático. Puede que no sea el mejor camino. Pero el interés primero del usuario es VINTAGE, no CINE. He aquí la potencia y flexibilidad de búsqueda y filtrado de información que puede ofrecer el método de etiquetas con subetiquetas (o ámbitos, espacio de nombres, territorios, disciplinas, cualquier término que se nos ocurra).

Siguiendo con el ejemplo, ¿qué pasa con los sinónimos no ambiguos? Vintage puede entenderse como retro*, de época, raro, selecto, original, maduro, superior, venerable, etc. Cada término tiene su propio matiz, por supuesto. ¿Cuáles aceptaremos como sinónimos indiscutibles de vintage?


*Una definición de vintage nos la ofrece Wikipedia: Vintage es el término empleado para referirse a objetos o accesorios de calidad que presentan cierta edad, los cuales sin embargo no pueden aun catalogarse como antigüedades. En la actualidad, el término se ha generalizado y se utiliza para designar instrumentos musicales, automóviles, libros o fotografías.


Diccionarios y subdiccionarios


Con lo visto tenemos más o menos claro que hay que evitar la ambigüedad y la inexactitud de significados en cada etiqueta (mediante listas de sinónimos o equivalentes que sean intercambiables entre sí a todo nivel). Luego, cada etiqueta puede disponer de una serie de nexos de unión con una lista de otras etiquetas. Sólo con estas dos premisas el sistema se vuelve lo suficientemente flexible como para realizar búsquedas complejas, con filtro paso a paso si se quiere, para ir escarbando en la montaña de arena que son nuestros datos, y encontrar el escarabajo de oro bajo ella.

Redes neuronales


Si somos un espíritu libre, quizás todo lo anterior no nos sirva. Sin límites, diríamos. Pues... hay una alternativa, usar redes neuronales o lo más parecido a ellas. Una aplicación como TheBrain, pensada para organizar ideas, nos permite crear nodos interconectados con niveles jerárquicos (modelo padre-hijo) y niveles en paralelo (enlaces, conexiones), con lo que los límites del árbol se desvanecen. Eso sí, el resultado puede convertirse en un auténtico embrollo, una maraña de conexiones digna de cualquier cerebro (de ahí el nombre del programa seguramente). Para que se vea un poco qué puede suceder si nos dejamos llevar, valga más una imagen que mil palabras. ¿Alguien se atreve a tirar de un hilo cualquiera? Sin embargo, TheBrain posee características muy útiles que facilitarán su uso. La búsqueda, por ejemplo, nos permite encontrar cualquier término sin necesidad de navegar por toda la nube de pensamientos.Cada nodo puede contener información adicional como etiquetas, notas, enlaces a carpetas, a páginas, a imágenes, etc. Por tanto, aparte del esquema en pantalla contamos con datos conectados y físicamente dispuestos en nuestro ordenador como documentos habituales.

Es sólo uno de los muchos programas usados para esquemas mentales. Y luce así:





Formación


Sea el sistema o método elegido para implementar en el tratamiento de la información, es necesario que el usuario tenga una cierta formación. Formación orientada a la búsqueda, a saber cómo localizar un dato preciso a partir de palabras clave, términos, listas, etc. No es poca la gente que dice "yo no encuentro nada en Internet" (o en Google, dado que es frecuente la confusión entre Internet y Google como si éste fuera todo Internet). El problema radica en no estar familiarizado con la búsqueda. Para compararlo con el mundo de los átomos, el analógico, el físico, el real, digamos que a cualquiera le pasaría lo mismo si no está familiarizado con el abecedario, y por tanto con el orden alfabético, y tiene que localizar una palabra o cualquier otro concepto en una lista ordenada (diccionario, catálogo, etc.). En el caso de Internet la complejidad es mayor, pero se basa en cuatro conceptos base. Vale la pena entretenerse un poco con la ayuda de Google para conocer las opciones disponibles, y también formarse un cierto criterio para elegir los mejores términos (palabras) y exclusiones o inclusiones. En lugar de obtener 10.000.000 de resultados conseguiremos un centenar o menos, un conjunto de resultados práctico. 10 millones de resultados resultan inútiles.

Es un tópico, pero la formación es básica para muchas cosas, y para el tratamiento de datos, de información, es más que necesaria. Trataré este aspecto en otro artículo.


Bibliografía en la Wiki


Taxonomía de Linneo
Clasificación colonada de Ranganathan
Folcsonomía
Ontología
Búsqueda y operadores simples en Google
Redes neuronales