British National Corpus & SARA

Proyecto de investigación DGES PB97-0507


Instrucciones para acceder al British National Corpus (BNC) mediante SARA

0. Introducción
Como ya sabes, el BNC es un corpus de inglés británico contemporáneo de más de 100 millones de palabras. Además de texto 'crudo', el BNC contiene una buena cantidad de anotaciones de tipo textual y gramatical. Por todo ello, no es difícil comprender que instalar el corpus en un ordenador personal no es factible (aunque perfectamente posible): necesitaríamos grandes discos duros y además procesadores muy potentes que nos permitiesen acceder al BNC con la rapidez deseable. Y los problemas no terminarían ahí: la anotación empleada en el BNC sigue el estándar SGML, lo cual supone que cada usuario/a que instalase el corpus en su ordenador tendría además que disponer de un programa específico que 'entienda' marcaje SGML. Los programas gratuitos que manejan SGML son muy primitivos y bastante complejos. Por el contrario, las utilidades más user-friendly (Panorama, Author/Editor, etc.) son excesivamente caras.
Por todo lo anterior, los/as responsables del BNC decidieron desarrollaron un sistema de acceso al corpus más sensato, aunque bastante particular. La filosofía es la siguiente: si instalamos el BNC en un servidor Unix (o Linux, como en nuestro proyecto), cualquier usuario/a cuyo ordenador (PC o no) esté conectado a Internet podría acceder al corpus, solucionando así el problema de la instalación stand-alone del BNC. Si además el software que acompaña al corpus incluye un programa (SARA) que permite realizar búsquedas sobre el marcaje SGML del BNC de una manera sencilla, el/la usuario/a final ya dispone de una utilidad gratuita user-friendly con la que efectuar búsquedas en el BNC.
SARA es una utilidad para Windows 9x que ha de ser instalada en tu ordenador. Al ejecutarse, esta accede mediante Internet al servidor en el que se halla instalado el BNC. En nuestro caso, este servidor se llama fifa1.uvigo.es, "gentileza" del Vicerrectorado de Investigación de la Universidade de Vigo. En lo que sigue, te indicaré cómo conseguir acceder desde tu ordenador al servidor del BNC. El procedimiento es muy sencillo; aún así, he intentado simplificarlo al máximo. Te pido disculpas por si en algún momento la explicación es excesivamente básica.

1. Grabación de sara.exe en tu ordenador
Con el fin de simplificar el proceso, he comprimido todos los archivos de SARA en uno solo (sara.exe) de carácter autoejecutable, que sólo ocupa 442 KB. Al ejecutar sara.exe, se creará automáticamente un subdirectorio /sara/ en tu disco duro, en el que se almacenarán todos los ficheros necesarios para que SARA funcione correctamente.
La pregunta del millón de dólares es pues ... ¿cómo conseguir sara.exe?
(i) Puedes solicitármelo a jperez@uvigo.es. Te lo enviaré como attachment en mi respuesta.
(ii) Puedes bajártelo mediante alguna herramienta FTP del servidor de la Facultade de Humanidades de Vigo (ftp://chomsky.uvigo.es).
(iii) Puedes bajártelo directamente desde aquí, pulsando con el ratón en sara.exe. Posiblemente tu navegador te pregunte si quieres abrir directamente el archivo o si prefieres grabarlo en tu disco. Lo mejor será que lo grabes en tu disco duro (en cualquier directorio) y que lo ejecutes más tarde.
A partir de aquí asumiré que ya dispones de sara.exe en tu equipo. Mediante el Explorador de Windows, sitúate en el directorio en el que lo has grabado y pulsa dos veces sobre sara.exe. [Importante: Dependiendo de la configuración de tu Explorador de Windows, quizás no veas la extensión .exe del archivo, y simplemente visualices sara. No importa: continua con el proceso.]

2. Ejecución de sara.exe
Como ya te había indicado, al pulsar sobre sara o sara.exe estás ejecutando un programa cuya misión es descomprimir un conjunto de archivos, los cuales quedan grabados por defecto en el subdirectorio /sara/ de tu disco duro. Comprueba mediante el Explorador de Windows que así es: busca un subdirectorio /sara/, en el cual deberás hallar los siguientes archivos: bnc1.dsc, sara32.exe, pagefmt.txt, linefmt.txt, default.col, buildid.txt, bugs and changes.doc, server32.dll y sara32.hlp. De todos estos archivos, sara32.exe es el elemento principal, pues contiene el programa que te permitirá acceder al BNC remotamente. No lo ejecutes todavía... sé paciente.

3. Creación de un acceso directo a sara32.exe
Para el futuro, sería muy conveniente que pudieses ejecutar sara32.exe desde el escritorio de Windows. En otras palabras, lo que necesitas es... un 'acceso directo' de sara32.exe. [Nota: Si no quieres tener este acceso directo, puedes pasar directamente a la sección 4.] Para crear un acceso directo a SARA, desde el Explorador de Windows pulsa una vez con el botón derecho (sí, el derecho) del ratón sobre sara32.exe o sara32. Se abrirá una ventana que incluirá la opción 'Crear acceso directo'. Pulsa sobre esa opción con el botón izquierdo. Con ello habrás creado un acceso directo a sara32. Si mueves ese acceso al escritorio (arrastra el icono con el ratón), en el futuro podrás ejecutar SARA simplemente pulsando dos veces sobre el icono depositado en el escritorio.

4. Ejecución de sara32.exe
Para ejecutar el programa SARA, pulsa dos veces sobre el icono sara32.exe o sara32 del escritorio (si has creado el acceso directo explicado en la sección 3) o del subdirectorio /sara/ del disco (mediante, por ejemplo, el Explorador de Windows). Al hacerlo, obtendrás esta pantalla:

Se trata de una pantalla de presentación. Al pulsar OK, visualizarás la siguiente ventana:

Aquí tendrás que definir la dirección del servidor en el que se halla instalado el BNC. Para ello, escribe en Address bien el nombre completo de la máquina, esto es, fifa1.uvigo.es (sin espacios en blanco) o bien su dirección IP (193.146.42.238). [Nota: Escribir la dirección IP sólo tiene sentido si, por alguna razón, fifa1.uvigo.es no está definido en el servidor de nombres o DNS de tu Universidad, o este no está funcionando correctamente. En condiciones normales, escribir fifa1.uvigo.es será la mejor opción.] El resto de las opciones de la pantalla no precisan modificación alguna -- el puerto (Port) de comunicación con fifa1.uvigo.es será el 7000; si SARA no consigue conectar con fifa1.uvigo.es en 60 segundos (Timeout), cancelará la petición de acceso; la conexión no es local, por lo que la opción local no estará activada.
Cuando hayas cubierto el campo Address, pulsa OK. Si todo ha ido bien, SARA accederá a fifa1.uvigo.es en cuestión de segundos (el proceso de negociación entre las dos máquinas está reflejado por una luz roja en la parte inferior de la ventana). La pantalla siguiente tendrá este aspecto:

El hecho de que hayas accedido correctamente a esta pantalla indica que tu máquina y fifa1.uvigo.es, en principio, se 'están llevando bien'. Es en este momento en el que el servidor necesita conocer tu identidad, con el fin de darte acceso (o no) al corpus. Recuerda que, al contrario que SARA, el BNC es un producto comercial y no una aplicación abierta. Mientras que cualquiera puede bajarse una copia de SARA, sólo los miembros (o personas autorizadas por su Dirección) del proyecto pueden acceder al corpus. [Nota: Para solicitar autorización, ponte en contacto con la investigadora principal del proyecto, Dra. Teresa Fanego, en iafanego@usc.es.]
Introduce tu nombre (username) y contraseña (password) en la ventana y pulsa OK. [Advertencia: El resumen de todas las acciones que realices, intentos de acceso fallidos, etc. así como la información de la máquina desde donde los has hecho quedarán grabados en el servidor.] [Nota: Para modificar el nombre de tu cuenta o ampliar el periodo de duración de tu permiso de acceso, ponte en contacto con el administrador del servidor en jperez@uvigo.es, pues SARA no permite realizar estos cambios a los/as usuarios/as finales. Por el contrario, podrás modificar directamente tu contraseña en el menú Preferences de SARA, en la opción Password.]
Si al acceso ha sido aceptado, obtendrás la siguiente pantalla:


SARA te permite tener varias pantallas de búsqueda abiertas simultáneamente. En este momento la ventana bnc1 está minimizada en la parte inferior de la pantalla. Si la maximizas o la mueves a la parte central de la pantalla, podrás comenzar a realizar todo tipo de búsquedas.

5. Manejo de las opciones de búsqueda de SARA
El manual de SARA, en formato de hipertexto) se encuentra en el subdirectorio /sara/ de tu disco duro. En él encontrarás el archivo sara32.hlp. Si pulsas dos veces sobre este archivo, visualizarás la pantalla de acceso a las instrucciones de búsqueda en el BNC:

Para empezar, te recomiendo que explores e imprimas las siguientes páginas del capítulo Getting Started with SARA:
Creating a word query
Búsqueda directa de palabras en el BNC
Creating a phrase query
Búsqueda de una cadena léxica en el BNC
Creating a part of speech query
Búsqueda de palabras según su categoría gramatical
Look for words matching a pattern
Búsqueda de estructuras
 
6. Resultados de la investigación
La licencia del BNC requiere que en aquellas investigaciones en las que se haya hecho uso del BNC se haga constar tanto esta circunstancia como la indicación de la licencia del corpus. Sobre este particular, ponte en contacto con la Dra. Teresa Fanego (iafanego@usc.es).



Página realizada por Javier Pérez Guerra
Volver a la página personal de Javier Pérez Guerra