¿Qué es un CSE (Custom Search Engine) de Google?
Todos tenemos la experiencia de realizar búsquedas en Internet y sentirnos defraudados con los resultados. Esto es algo particularmente cierto cuando se realizan búsquedas poco especÃficas o con términos que se utilizan de formas diferentes según qué entorno.
Tarde o temprano, echamos de menos una “mano amigaÓ que filtre los resultados de una búsqueda para mostrarnos sólo los más relevantes.
Aunque ya ha habido múltiples y serios intentos de crear tecnologÃa para buscadores que utilice de una forma u otra un filtro humano, los resultados dejan bastante que desear debido a la ingente cantidad de información que es necesario analizar.
Los CSE o buscadores personalizados de Google tienen objetivos algo más modestos, pero de más fácil implementación: mejorar los resultados de búsqueda para un campo especÃfico utilizando información aportada por seres humanos y no sólo por robots.
Estos buscadores personalizados dependen de:
- La base de datos de Google habitualmente utilizada por su motor de búsqueda.
- “Ficheros de anotacionesÓ, facilitados por el gestor del CSE, que permiten añadir información adicional a la ya almacenada por Google.
Estos ficheros de anotaciones incluyen listados de URLs (o patrones del tipo *.ac.uk/*) que nos permiten:
- Restringir las búsquedas a diferentes “universos temáticos".
- Promocionar unos resultados de búsqueda frente a otros: una especie de "incremento del PageRank" para ciertos websites.
Desgraciadamente, todo lo que necesita de participación humana es siempre más complejo y con frecuencia costoso de gestionar. Pero con algo de paciencia y buena voluntad, uno puede obtener resultados interesantes.
Para ilustrar el proceso, imaginemos primero que queremos incluir en nuestra web un buscador personalizado que limite los resultados de búsqueda a páginas web asociadas a la prensa diaria española.
Primero debemos, si todavÃa no lo hemos hecho, registrarnos en Google, solicitar un buscador personalizado (http://www.google.com/cse/) y darle un buen nombre, por ejemplo: "Prensa española (y Olé)".
A continuación, debemos recopilar las direcciones web relevantes, que incluirÃan entre otras:
- *.elpais.com/*
- *.elmundo.es/*
- …
Los comodines (*) indican al CSE que cualquier contenido asociado a una URL que contenga esa cadena debe ser considerado (lo que incluye, en este caso, los subdominios correspondientes).
Si somos vagos y la lista es corta, podemos introducir una a una esas direcciones en las cajas de texto que Google pone a nuestra disposición para inclusión (o exclusión) en el CSE.
También podemos escoger las opciones:
- "Boost", promover esa URL en la lista de resultados.
- "Filter", restringir la búsqueda a las URLs seleccionadas.
Si la lista es más completa y/o necesitamos afinar más los parámetros asociados a las diferentes opciones de búsqueda, es necesario generar un archivo de anotaciones.
Aunque está fuera de nuestros objetivos dar una explicación detallada del proceso, incluimos a continuación, a modo meramente ilustrativo, un archivo de anotaciones que restringirÃa las búsquedas a los medios digitales anteriormente citados:
?xml version=’1.0′ encoding=’UTF-8′ ?
Annotations
Annotation about=’*.elpais.com/*’ score=’1′
Label name=’_cse_prensa_espanola_default’/
Comment El Pais /Comment
/Annotation
Se necesita generar también el denominado archivo de contexto, en el que se especifica que optamos por filtrar (opción "filter") o limitar exclusivamente a esos dos websites e incluirlos bajo una sola "pestaña" (es posible generar múltiples pestañas o "subespacios de búsqueda"):
?xml version=’1.0′ encoding=’UTF-8′ ?
CustomSearchEngine
Title
Buscador Prensa Española/Title
Description
Busca entre las webs de los periódicos más destacados
/Description
Context
Facet
FacetItem title=’Prensa Española’
Label name=’_cse_prensa_espanola’ mode=’FILTER’ weight=’1.0′
/Label
/FacetItem
/Facet
/Context
/CustomSearchEngine
Una vez "cargados" estos archivos a través de la interfaz de Google (también se puede indicar al CSE que busque el archivo en una dirección web, algo que es obligatorio si el archivo excede un determinado tamaño o número de anotaciones).
A continuación, uno debe incluir un código javascript en la página web de nuestra elección (que nos es proporcionado a través de la interfaz de Google), lo que en principio completa el proceso.
¿Cómo se hizo el Buscador I+D para la Fundación General CSIC?
Es evidente que el interés o valor añadido de un buscador personalizado reside en el trabajo previo de filtrado de direcciones web.
En el caso que nos interesa, desde 2mdc.com propusimos a la Fundación General CSIC generar un buscador personalizado con dos principales objetivos:
- Proporcionar una herramienta de búsqueda especializada para la comunidad cientÃfica.
- Facilitar el acceso del mundo empresarial a las diferentes capacidades y recursos ofrecidos por los sistemas de I+D español e internacional.
¿Cómo se procedió?
- Se recopilaron más de 250.000 direcciones de email asociadas a autores de publicaciones cientÃficas.
- Se extrajeron los dominios asociados a dichas cuentas de email.
- Se eliminaron aquellos dominios asociados a servidores gratuitos de correo electrónico (una cifra sorprendentemente alta de ellos).
- Se extrajeron patrones generales asociados a dominios de carácter educativo (*.edu, *.ac.uk, etcétera) para simplificar el proceso.
- Se filtraron semiautomáticamente las direcciones restantes:
- Eliminación de códigos de respuesta 404.
- Comprobación manual.
Como resultado se generó, a través de una herramienta de gestión de la BBDD asociada, un archivo de anotaciones con unas 5.000 entradas que cubren prácticamente el 100% de las direcciones asociadas con centros de investigación que produjeron alguna publicación de carácter cientÃfico en la última década.
Esta información se completó con:
- Una recopilación de miles de direcciones web asociadas a editoriales cientÃficas y repositorios “Open AccessÓ (que permiten la descarga directa de una publicación cientÃfica de forma gratuita).
- Listados de administraciones y organismos públicos disponibles en diferentes sitios web de carácter oficial.
Y "voilà ": http://www.fgcsic.es/buscadorid