Alzado.org

Un ejemplo de Google CSE

¿Qué es un CSE (Custom Search Engine) de Google?

Todos tenemos la experiencia de realizar búsquedas en Internet y sentirnos defraudados con los resultados. Esto es algo particularmente cierto cuando se realizan búsquedas poco específicas o con términos que se utilizan de formas diferentes según qué entorno.

Tarde o temprano, echamos de menos una “mano amigaÓ que filtre los resultados de una búsqueda para mostrarnos sólo los más relevantes.

Aunque ya ha habido múltiples y serios intentos de crear tecnología para buscadores que utilice de una forma u otra un filtro humano, los resultados dejan bastante que desear debido a la ingente cantidad de información que es necesario analizar.

Los CSE o buscadores personalizados de Google tienen objetivos algo más modestos, pero de más fácil implementación: mejorar los resultados de búsqueda para un campo específico utilizando información aportada por seres humanos y no sólo por robots.

Estos buscadores personalizados dependen de:

Estos ficheros de anotaciones incluyen listados de URLs (o patrones del tipo *.ac.uk/*) que nos permiten:

Desgraciadamente, todo lo que necesita de participación humana es siempre más complejo y con frecuencia costoso de gestionar. Pero con algo de paciencia y buena voluntad, uno puede obtener resultados interesantes.

Para ilustrar el proceso, imaginemos primero que queremos incluir en nuestra web un buscador personalizado que limite los resultados de búsqueda a páginas web asociadas a la prensa diaria española.
Primero debemos, si todavía no lo hemos hecho, registrarnos en Google, solicitar un buscador personalizado (http://www.google.com/cse/) y darle un buen nombre, por ejemplo: "Prensa española (y Olé)".

A continuación, debemos recopilar las direcciones web relevantes, que incluirían entre otras:

  1. *.elpais.com/*
  2. *.elmundo.es/*

Los comodines (*) indican al CSE que cualquier contenido asociado a una URL que contenga esa cadena debe ser considerado (lo que incluye, en este caso, los subdominios correspondientes).

Si somos vagos y la lista es corta, podemos introducir una a una esas direcciones en las cajas de texto que Google pone a nuestra disposición para inclusión (o exclusión) en el CSE.

También podemos escoger las opciones:

Si la lista es más completa y/o necesitamos afinar más los parámetros asociados a las diferentes opciones de búsqueda, es necesario generar un archivo de anotaciones.

Aunque está fuera de nuestros objetivos dar una explicación detallada del proceso, incluimos a continuación, a modo meramente ilustrativo, un archivo de anotaciones que restringiría las búsquedas a los medios digitales anteriormente citados:


?xml version=’1.0′ encoding=’UTF-8′ ?
Annotations
Annotation about=’*.elpais.com/*’ score=’1′
Label name=’_cse_prensa_espanola_default’/
Comment El Pais /Comment
/Annotation


Se necesita generar también el denominado archivo de contexto, en el que se especifica que optamos por filtrar (opción "filter") o limitar exclusivamente a esos dos websites e incluirlos bajo una sola "pestaña" (es posible generar múltiples pestañas o "subespacios de búsqueda"):


?xml version=’1.0′ encoding=’UTF-8′ ?
CustomSearchEngine
Title
Buscador Prensa Española/Title
Description
Busca entre las webs de los periódicos más destacados
/Description

Context
Facet
FacetItem title=’Prensa Española’
Label name=’_cse_prensa_espanola’ mode=’FILTER’ weight=’1.0′
/Label
/FacetItem
/Facet
/Context
/CustomSearchEngine


Una vez "cargados" estos archivos a través de la interfaz de Google (también se puede indicar al CSE que busque el archivo en una dirección web, algo que es obligatorio si el archivo excede un determinado tamaño o número de anotaciones).

A continuación, uno debe incluir un código javascript en la página web de nuestra elección (que nos es proporcionado a través de la interfaz de Google), lo que en principio completa el proceso.

¿Cómo se hizo el Buscador I+D para la Fundación General CSIC?

Es evidente que el interés o valor añadido de un buscador personalizado reside en el trabajo previo de filtrado de direcciones web.

En el caso que nos interesa, desde 2mdc.com propusimos a la Fundación General CSIC generar un buscador personalizado con dos principales objetivos:

¿Cómo se procedió?

Como resultado se generó, a través de una herramienta de gestión de la BBDD asociada, un archivo de anotaciones con unas 5.000 entradas que cubren prácticamente el 100% de las direcciones asociadas con centros de investigación que produjeron alguna publicación de carácter científico en la última década.
Esta información se completó con:

Y "voilà": http://www.fgcsic.es/buscadorid

Salir de la versión móvil