Blog de Joan Miquel-Vergés. Informática: Semana 5 del 07/10/2019 al 13/10/2019

SEMANA NÚMERO 05

PRIMERA CLASE

En esta clase disponéis de 2 horas para subir el sitio web al hostal gratuito y comprobar que todo funciona correctamente.

Si a algunos/as de vosotros/as NO OS FUNCIONA el sitio web de hospedaje de páginas web "https://www.awardspace.com" que es el que usamos para el encargo-2 sin una causa lógica aparente, os propongo diversas soluciones:

1) Insistir con "https://www.awardspace.com" diversos días y con ordenadores diferentes. Puede suceder que al final os funcione.

2) Entrar en "https://www.awardspace.com" vía Google+. Y vais cerrando todos los botones del tipo "x Close" que vayan apareciendo hasta que lleguéis a la interfaz del programa.

3) Podéis usar un hostal gratuito diferente a "https://www.awardspace.com". En cursos precedentes usamos el hostal gratuito "http://galeon.com" pero, aunque la interfaz del mismo sigue diciendo que se pueden crear registros gratis, lo cierto es que, al intentarlo, te dicen que: “actualmente no se permiten nuevas altas”.

En esta tesitura, he encontrado un artículo en la web donde habla del "Mejor hosting gratuito - 9 alternativas" (https://www.hostingexperto.es/hosting-gratuito/). Podéis probar con alguno de los sitios propuestos para almacenar vuestro sitio web.

La mayoría de webs, sin embargo, exigen tener un dominio registrado o comprarlo o, simplemente, son de pago. Sin embargo, el hostal gratuito "000webhost" (https://es.000webhost.com) sí funciona. El único problema es que en el no se ven los acentos de la página web en español u otra lengua que uséis "con acentos" (por ejemplo, el francés). Sin embargo esto se puede solucionar de manera (relativamente) fácil; os explico cómo hacerlo.

SINTETIZANDO: SI VÁIS A ALMACENAR VUESTRO SITIO WEB EN https://es.000webhost.com DEBERÍAIS CAMBIAR LA CODIFICACIÓN DE LAS 2 PÁGINAS DE VUESTRO SITIO WEB DE ISO-8859-1 A UTF-8; POR SI EN ALGUNA DE LAS 2 PÁGINAS WEB TENÉIS "CARACTERES NO INGLESES" (TILDES, "ñ", "ç", ETC.).

Para ello tenéis que cambiar la codificación de vuestra página web en español (supongo que en muchos casos será "index.htm") de la codificación actual ISO-8859-1 a la codificación UTF-8.

Abrís primero en Kompozer la página web en español (o en la lengua "con acentos" que sea); supongo que en muchos casos será la página principal "index.html" (o la que sea).

Seleccionáis "Formato > título y propiedades de la página".

Observaréis que, en el apartado de "Internacionalización", el conjunto de caracteres empleado es el de ISO-8859-1.

Cambiamos la "dirección de escritura a "De izquierda a derecha" (por si acaso).

Cambiamos el "Idioma" a "Español [es]". En el supuesto de que uséis otra lengua "con acentos" (por ejemplo, el "francés") seleccionaremos la lengua correspondiente. También tenéis que hacer lo mismo en la página secundaria (aunque esté en inglés) si en la misma aparecen acentos o caracteres no ingleses "ñ" (por ejemplo en el enlace "En español").

Y, finalmente, cambiamos la codificación actual del "Conjunto de caracteres", de la ISO-8859-1 a la codificación "Unicode (UTF-8)". También tenéis que hacer lo mismo en la página secundaria (aunque esté en inglés) si en la misma aparecen acentos o caracteres no ingleses "ñ" (por ejemplo en el enlace "En español")

El resultado final tiene que ser el que aparece a continuación (obviamente con el "Título (de vuestra página web)".

Por último, os registráis en https://es.000webhost.com . El nombre del sitio web que os pide será el subdominio de vuestra URL; que será de la forma "traduccionesvigotrans.000webhostapp.com".

A partir de ese momento ya estáis registrados/as y podéis acceder a vuestro espacio web a través del "login" del programa.

A continuación, accedéis al "administrador de ficheros", y subís vuestro espacio web (los 6 archivos) seleccionando "cargar archivos ahora". Podéis cambiar, si queréis, la interfaz al español. Para subir los archivos, simplemente, "arrojáis" los archivos de vuestra carpeta encima del administrador de archivos.

Por último, comprobáis que el sitio (en mi caso "traduccionesvigotrans.000webhostapp.com") funcione. Como podéis observar, los acentos en español funcionan.

Un consejo para los que ya hayáis subido vuestra página en español y no se vean los acentos: antes de subir vuestra nueva página web (supongo que "index.htm") con la nueva codificación, ELIMINAD LA PÁGINA ANTIGUA YA SUBIDA. he comprobado que, por razones que desconozco, muchas veces "NO SOBREESCRIBE" la página web ya existente.

***

CON ESTE APARTADO DE ENTREGA PODEMOS DAR POR ACABADO EL ENCARGO-2 DE LA PRÁCTICA-1.

***

SEGUNDA CLASE

PRÁCTICA1-ENCARGO3

1) PRELIMINARES

Toda la documentación relacionada con el encargo está disponible en la web http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/p1-e3.htm
El enunciado del encargo está disponible en el archivo PDF siguiente: http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/practica1-encargo3.pdf
Este encargo está personalizada para cada uno/a de los/as alumnos/as de la materia. El listado del asignaciones del alumnado es este: http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/asignacion.pdf. Si vuestro nombre no aparece en el listado, por favor, poneros en contacto con el profesor de la materia para que os asigne las tareas correspondientes.
En este encargo nos centraremos en las fases de "análisis" y "preparación" del modelo tecnológico de la traducción que estamos siguiendo en todos los encargos.
En encargo consiste en un doble encargo de traducción: por una parte un texto literario y por otra parte un texto especializado. En el primero de los casos, el texto literario, nos detendremos en la fase de análisis y utilizaremos un programa lexicográfico para obtener un listado de las palabras a traducir y, en el caso de no saber cómo se traduce alguna de ellas, solicitaremos del programa que nos la enseñe en su contexto (lo que en lexicografía se denomina como "concordancia"). En el segundo de los casos, el texto especializado, trabajaremos con bases de datos terminológicas para poder conocer la traducción de los términos del texto especializado (para ello haremos uso de diversos programas relacionados, directa e indirectamente, con las bases de datos terminológicas).
Un programa lexicográfico es, básicamente, un programa que analiza el léxico de un determinado texto y elabora "listas de palabras y sus frecuencias" del mismo (ordenadas dichas listas por frecuencias o bien alfabéticamente), el listado de contextos donde aparecen dichas palabras (denominados "concordancias"); y, algunas veces (no es el caso del programa que usaremos) estadísticas relacionadas con el texto.
Una base de datos es, a grandes rasgos, una tabla compuesta por columnas y filas. Las filas se denominan "campos" y las columnas "registros". La información contenida en los registros se almacena de manera ordenada y estructurada en los diversos campos de la base de datos. para acceder a dicha información es necesario "consultar/preguntar" a la base de datos; y la base de datos nos "responde" a la/s pregunta/s efectuadas. Como sea que el lenguaje (máquina) que emplean (entienden) las bases de datos y el lenguaje (humano) que emplea (entiende) el/la usuario/a humano, los/as usuarios/as acostumbran a usar un "formulario (amigable)" para crear las consultas/preguntas a la base de datos. Estas consultas se transforman al lenguaje de las bases de datos (normalmente se usa el Structured Query Language o "lenguaje de consulta estructurado", conocido mayoritariamente por sus siglas en inglés SQL), un lenguaje específico del dominio utilizado en programación, diseñado para administrar sistemas de gestión de bases de datos relacionales. De la misma manera la base de datos responde a la consulta/pregunta en lenguaje SQL el cual, a través de un "informe (amigable)", es mostrado al/a la usuario/a.

2) ENCARGO A REALIZAR

Un/a traductor/a profesional recibe un doble encargo de traducción: un texto literario y un texto especializado:

En lo referente al “texto literario”, las 2 obras literarias son anteriores a la segunda mitad del siglo XIX. Sus mayores problemas traductológicos radican en que el/la traductor/a no conoce ni al autor ni la obra en cuestión; y, al no ser de autores coetáneos, desconoce también el significado específico y/o traducción de muchas de las palabras que en ellas aparecen (son “palabras arcaicas”). Es por ello que deberá analizar el texto a traducir y preparar toda la documentación al respecto que pueda para facilitar la traducción.

En lo referente al “texto especializado”, deberá mejorar la traducción de la interfaz de un programa informático y la plataforma/consola en que se va a ejecutar, traducida ya previamente, pero con graves errores de traducción. Sus mayores problemas traductológicos radican en que no domina el tema o área de especialización; y, por ello, desconoce el significado y traducción de muchos de los términos. Es por ello que deberá hacer uso de bases de datos terminológicas especializadas del ámbito del software/plataformas para optimizar el resultado final, de manera que se asegure la calidad última de la traducción (Quality Assurance o QA). Es el caso, por ejemplo, de las bases de datos de terminología del software de Microsoft® y de las consolas de PlayStation®.

Todos los materiales de este encargo debes guardarlos en una única carpeta que debes llamar “encargo3” y que deberás comprimir y mandar a través de FaiTIC con el nombre de “encargo3.zip”. Son, en total 17 archivos y 2 carpetas que debes copiar en una carpeta, comprimir y “subir” a FaiTIC.

1) Tenéis que guardar todos los archivos generados en el PRIMER APARTADO (texto literario) en una subcarpeta denominada “texto-literario”.

2) Tenéis que guardar todos los archivos generados en el SEGUNDO APARTADO (texto especializado) en una subcarpeta denominada “texto-especializado”.

3) PRIMER APARTADO: “TEXTO LITERARIO”

Un/a traductor/a profesional recibe el encargo de traducir dos textos literarios. Sus mayores problemas traductológicos al respecto radican en que, al ser autores y obras anteriores a la 2ª mitad del s. XIX, no conoce ni los autores ni las obras en cuestión. Al no ser autores coetáneo, además, desconoce el significado específico y traducción de muchas de las palabras que aparecen en las obras (por ser “palabras arcaicas” o en desuso). El/la alumno/a-traductor/a debe realizar el encargo con dos autores y obras diferentes: (1) TEXTO-1: la obra literaria “El Quijote” (s. XVII) del autor “Miguel de Cervantes Saavedra”; y (2) TEXTO-2: otra obra literaria y autor que le será asignada de manera personalizada (ver el enlace de asignaciones anterior)

SUBAPARTADO "1.1)" Busca en la Base de datos del ISBN (acrónimo inglés de International Standard Book Number; que en español vendría a ser "Número Estándar Internacional de Libros" o "Número Internacional Normalizado del Libro"), en línea, el listado abreviado de títulos que de las ediciones que de dichas obras y autores se han publicado en España; usa la “opción de búsqueda” (sencilla o avanzada) que consideres más adecuada. Guarda los resultados obtenidos para cada obra (en Internet Explorer con la opción de guardado tipo “página web, sólo HTM/HTML; en Mozilla Firefox o Google Chrome con la opción de guardado tipo “página web completa”) en un archivo HTM/HTML denominado “ediciones1.htm” o "ediciones.html" y “ediciones2.htm” o "ediciones2.html", respectivamente. Una vez descargados los archivos verifica con tu navegador que puedes ver el contenido de las páginas web descargadas.

La "traducción literaria" es uno de los ámbitos dentro de la traducción que cuenta con una mayor tradición desde tiempo inmemoriales. Cuando un/a traductor/a quiere traducir una obra literaria, lo primero que debería tener en cuenta es si dicha obra tiene "derecho de autor" (en inglés "copyright") o no (https://es.wikipedia.org/wiki/Derecho_de_autor); y, si lo tiene, debería ponerse en contacto con el autor/a o con quien tenga sus derechos (herederos, editor, empresa, etc.). Como en esta materia pretendemos ser siempre profesionales y legales, para no incumplir con esta premisa, vamos a trabajar/traducir obras que no tengan derechos de autor. La implantación del derecho de autor en el mundo ha sido muy diferente y dispar a lo largo de la historia. Podemos considerar, a groso modo, la segunda mitad del siglo XIX como una fecha común para la mayoría de los países (por los menos en Europa); así, en en la legislación española, el Real Decreto Legislativo 1/1996, de 12 de abril, aprueba el texto refundido de la Ley de la Propiedad Intelectual que regula en su art. 146 los símbolos o indicaciones de reserva de derechos. Es por ello que el alumnado de esta materia tiene asignados para su traducción dos obras literarias anteriores a la segunda mitad del siglo XIX.

Es por ello que, lo más seguro, es que el alumnado no conozca ni los autores ni las obras en cuestión. Al no ser autores coetáneo, además, lo más seguro es que desconozca el significado específico y traducción de muchas de las palabras que aparecen en las obras (por ser “palabras arcaicas” o en desuso en el español actual). Así, el/la alumno/a-traductor/a debe realizar el encargo con dos autores y obras diferentes: (1) TEXTO-1: la obra literaria “El Quijote” (s. XVII) del autor “Miguel de Cervantes Saavedra”; y (2) TEXTO-2: otra obra literaria y autor que le será asignada de manera personalizada (ver el enlace de asignaciones anterior, al inicio de la entrada del blog para esta segunda clase).

Una vez sabemos las obras que debemos traducir, el segundo paso es conocer las diferentes ediciones que se han publicado de la misma. En el ámbito de la edición literaria es muy común que una misma obra se haya publicado en diferentes ediciones, con algunas (pequeñas o grandes) diferencias entre las misma, según el tipo de público para el que estén asignadas. Así, por ejemplo, aunque la obra "El ingenioso hidalgo don Quijote de la Mancha" de Miquel de Cervantes Saavedra sea, a priori (no vamos a entrar en detalles sobre el posible echo de que una obra literaria nos llegue a nosotros/as a partir de su manuscrito original o bien a través de una o varias posibles copias de la misma), al publicarlas para un determinado público (especialistas en Cervantes, alumnado de universidad, alumnado de bachillerato, público infantil, etc.) la obra puede sufrir múltiples variaciones. Por ello nos interesa saber cuáles son las posibles diferentes ediciones de un a misma obra original que se han publicado, antes de proceder a su traducción. Por suerte, a partir del 1966, los libros publicados cuentan con un identificador único, el ISBN ("International Standard Book Number", en inglés; "Número Estándar Internacional de Libros" o "Número Internacional Normalizado del Libro," en español). Es un identificador único para libros, previsto para uso comercial. Fue creado en el Reino Unido en 1966 por las librerías y papelerías británicas W. H. Smith y llamado originalmente "Standard Book Numbering"(en español, ‘numeración estándar de libros’), abreviado SBN. Fue adoptado como estándar internacional ISO 2108 en 1970.

Por lo tanto, el número ISBN (https://es.wikipedia.org/wiki/ISBN) es único para cada libro publicado en el mundo; y, por lo tanto, identifica unívocamente a cada uno de ellos (viene a ser lo mismo que la matrícula para los coches). Cada país guarda en una base de datos (la conocida como "base de datos del ISBN) el listado de los libros publicados en dicho país (independientemente de en qué lengua hayan sido publicados). Empezamos usando el buscador Google para buscar "ISBN", ya que es de suponer que no conocemos la URL de la base de datos en cuestión. hay que tener en cuenta que nuestro buscador buscará, por defecto (no se le indicamos el país), "la base de datos del ISBN de España".

Seleccionamos la opción "Base de datos de libros" del menú de la izquierda.

Seleccionamos la opción central "Base de datos de libros editados en España".

Nos aparece el formulario del buscador de consultas/preguntas de la base de datos.

Dicho buscador dispone de una opción de "búsqueda sencilla o básica", que permite normalmente la búsqueda en un pequeño número de campos de la base de datos y en un solo campo a la vez (es este caso "autor" o "fecha de edición" o "título").

Ello hace que, al igual que ocurrió con el buscador Google en el encargo-2 y la búsqueda del texto "bandera de España", si buscamos el texto "quijote" en el campo "TÍTULO", el buscador nos da muchísimas respuestas/resultados; ya que no sólo busca la obra cuyo título contenga la palabra "quijote" del autor "Cervantes", sino cualquier obra (sea de Cervantes o no) que contenga el texto "quijote". Por eso da un error de búsqueda (demasiados resultados hallados).

Para solucionar este problema la mayoría de buscadores disponen también de una opción de "búsqueda avanzada o especializada" que permite la búsqueda en un mayor número de campos y, también, usando más de un campo a la vez. Para ello, en este caso, hemos de seleccionar la opción "Búsqueda avanzada de títulos". Nos detendremos en la opción de buscar por más de un filtro de búsqueda (por defecto aparecen sólo 2 filtros de búsqueda, pero podemos añadir más pulsando el botón "más filtros"), que combina la posibilidad de buscar de manera combinada en más de un campo, usando para ello diferentes "operadores" ("Y", en español, o "AND", en inglés; "O" en español o "OR" en inglés; y "NO" en español o "NOT" en inglés). Usaremos los campos "TITULO" y "AUTOR" y el operador "Y" entre ambos campos; y como textos de búsqueda en los dos campos usaremos "quijote" para "TITULO" y "cervantes" para "AUTOR". A diferencia de lo que uno pueda pensar es conveniente no usar "demasiado texto" en el texto de búsqueda de los campos, ya que uno/a no sabe a priori cómo estará entrado el texto en los respectivos campos; por ello es mejor escribir "poco texto" en los campos de búsqueda, pero que el mismo sea significativo (por ejemplo, en vez de escribir "Miguel de Cervantes Saavedra" en el campo "AUTOR", es mejor escribir "cervantes"; notad también que, en la mayoría de los casos, los buscadores son "insensibles" a las mayúsculas, los acentos, etc.).

Obtenemos 811 resultados/respuestas (libros impresos de "El Quijote" de "Cervantes") a nuestra consulta.

Si queremos guardar la información que el navegador nos muestra en pantalla para, de una manera tranquila y sosegada seleccionar "en casa" cuál es la edición de la obra que vamos a traducir, es suficiente con pulsar "botón derecho del ratón" y seleccionar la opción "guardar como".

Como siempre, no guardaremos nuestros archivos directamente en el escritorio sino en una carpeta del mismo. Podemos salir al escritorio y crear la carpeta o usar la opción de "crear carpeta" de la opción "guardar como". Creamos una carpeta de trabajo en el escritorio del ordenador con un nombre que cumpla con las reglas que ya hemos nombrado más de una vez (caracteres sólo ingleses, sin tildes, sin mayúsculas, sin espacios, etc.)

Guardaremos la información en nuestra carpeta, con el nombre de "ediciones1" (como extensión dejaremos la que nos propone el navegador; esto es, ".html" o "htm"). Y, como formato usaremos "página web (completas)" o "página web (solo HTML)" (una guarda sólo el formulario de consulta, sin los datos; y otra guarda el formulario de consulta y todos los datos). Queremos guardar el formulario de consulta y todos los datos. El formato dependerá del navegador que usemos. Para Internet Explorer usaremos la opción "página web (sólo HTM/HTML)"; mientras que para todos los demás navegadores usaremos la opción "página web (completa)". En cualquier caso, una vez guardada la página web, es mejor abrir la versión guardad y comprobar que, efectivamente, se guardó el formulario y todos los datos.

Cabe observar que, al guardarse la página web con el nombre de "ediciones1.html" (o "ediciones1.htm"), aparece también una carpeta con el nombre de "ediciones1_files". Esta carpeta contiene los elementos de la página web que no son texto. Si usamos la opción de "vista detallada" y clasificamos los archivos por "tipo/clase" veremos que los archivos de la carpeta son del tipo imagen (GIF o PNG), estilos de texto en cascada (CSS) o programas o scripts en lenguaje JavaScript (JS). Las imágenes se corresponden con las banderas, fotos o gifs animados del encargo-2; los estilos de texto en cascada serían los estilos que dijimos no haríamos en el encargo-2, que permiten fijar el formato del texto de la página web; y, los programas o scripts serían, por ejemplo, el calendario que aparece en el margen inferior izquierdo de mi página web de horarios (http://jmv.webs.uvigo.es/horario.htm). El archivo de la página web está directamente asociado a la carpeta, de manera que si movemos, copiamos o borramos dicho archivo, a la carpeta le sucede la misma acción. Y, si borramos o cambiamos el nombre de la carpeta, las imágenes, estilos, y programas de la página web no se visualizarán/activarán.

Con ello tendremos parcialmente acabado el apartado "1.1)" del encargo, en cuanto a la primera obra (la común para todos/as: "El Quijote"). Sólo os faltará realizar los mismos pasos con la segunda obra que tenéis asignada cada uno/a de vosotros/as. Con ello podemos dar por rematado la totalidad del apartado "1.1)" del encargo-3.

SUBAPARTADO "1.2)" Busca en el Project Gutenberg las dos obras literarias en (http://www.gutenberg.org/browse/languages/es). Descarga las versiones en formato HTML en un archivo con el nombre de “obra1.htm” y “obra2.htm”, respectivamente. Puedes descargar la “obra1.htm”, directamente, de http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/obra1.htm.

Observación: la disposición en “falsa red” del aula Newton-17 hace que, aunque cada ordenador tenga a priori su propia IP (o “matrícula), en realidad, cuando sale al servidor central de la UVIGO y de ahí a Internet, sale con “una sola IP común para los 24 ordenadores del aula”. Esto hace que el servicio web gratuito del "Proyecto Gutenberg" lo cataloguen como un “abuso de servicio”, ejecuta una “denegación de servicio” y se bloquea la página web en cuestión. Por eso deberás descargar la segunda obra desde un ordenador que no esté en el aula Newton-17.

Después de habernos cerciorado de si la obra que queremos traducir tiene derechos de autor o no ("no", en nuestro caso), haber buscado las diferentes ediciones que de dicha obra se han publicado, y haber seleccionado una de ellas; el siguiente paso a llevar a cabo es buscar el texto de la obra para poder traducirlo. Si la obra tiene derechos de autor parece evidente que la obra no estará (o no debería estar "legalmente") en Internet; mientras que, si la obra no tiene derechos de autor, seguramente sí estará en Internet. Igual que sucedió con el encargo-2 cuando buscamos la "bandera de España", es muy mala política buscar cosas en Internet usando directamente el buscador (en nuestro caso el buscador Google) porque la información encontrada, además de ser mucha, no ofrece muchas veces la calidad esperada. Por ello, siempre es mejor usar "portales web" donde la información está agrupada por ámbitos y donde la información está explicada y, por ello, cuenta con unos mínimos de garantía de calidad. La cuestión es, por tanto, saber si existen portales de libros en Internet. La respuesta, obviamente, es que sí; y muchos. Veremos 3 de los más significativos por lo que en sí representan:

El portal de libros "Project Gutenberg" o "Proyecto Gutenberg". Este portal de libros, creado en el 1971, es el más antiguo de los tres; fue creado en una época en que Internet acababa de surgir (cuando no existía el lenguaje HTM o HTML; y el uso de escáneres y programas de OCR era muy escaso, por no decir prácticamente nulo). Por tanto, todo se hacía manualmente (se entraban los textos de las obras directamente desde el teclado) con la ayuda inapreciable de "voluntarios/as". Buscamos con Google "proyecto gutenberg" y accedemos al buscador de libros de la base de datos de dicha base de datos de libros. Podemos buscar por el apellido del autos, el nombre de la obra, por lengua de la obra, o, directamente, usar el buscador que aparece en la esquina superior izquierda de la página web. Si usamos esta última opción, buscaremos el texto "quijote". Navegamos por las opciones encontradas hasta acceder a la "ficha bibliográfica del libro" en cuestión y seleccionamos la pestaña "download o descargar" de la misma. A la izquierda de la tabla nos aparecen los diferentes formatos del libro existentes y, a la derecha de la tabla, los lugares donde están guardados en Internet (Dropbox. GoogleDrive y OneDrive). El formato "UTF-8" es el formato inicial, de "sin formato o solo texto" en que se entraron (a través del teclado, sin ayuda de escáneres ni ocr) inicialmente los textos; el formato "HTM o HTML" apareció cuando se introdujeron las etiquetas HTM o HTML al texto UTF-8 con lo que, automáticamente, se dotó a los textos de formato; y, los formatos EPUB y Kindle son formatos de libros electrónicos ("ebooks", en inglés) abierto y cerrado (de Amazon), respectivamente. Procederemos a descargar la versión en HTM o HTML (con o sin imágenes de ser el caso, como queramos) usando el "botón izquierdo del ratón" y "guardar como". Guardamos con el nombre (como extensión dejamos la que nos aparece por defecto) de "obra1.htm". Notad que para las explicaciones de este encargo-3 estoy usando el MacOS, para variar, por lo que las imágenes que véis en esta entrada del blog pueden diferir un poco de las obtenidas por vosotros/as al realizar el encargo con el SO Windows. Salimos a la carpeta de trabajo de nuestro escritorio y abrimos con el navegador por defecto el archivo "obra1.htm" u "obra1.html" (dependiendo del sistema operativo y/o del navegador que uséis, puede ser que el formato de etiquetas se guarde en formato HTM o HTML; vosotros/as dejad los archivos en el formato por defecto en que se guarde, da igual si es HTM o HTML. Yo he usado MacOS y lo ha guardado en HTML; Windows lo guardará normalmente como HTM) anteriormente descargada para comprobar que se descargó perfectamente y que podemos leer perfectamente el texto de "El Quijote". Nos fijamos que, al principio y al final de la obra, aparecen (en letra "Courier", muy diferente al tipo de letra empleado para el texto de la obra, para que se vea, que no forma parte de la obra y es un añadido a posteriori) sendos comentarios del "Proyecto Gutenberg". Notad que se especifican las personas que han colaborado en la elaboración del texto ("voluntarios anónimos" para su introducción inicial en formato UTF-8 y un "voluntario identificado" para la ulterior inserción de las etiquetas HTM o HTML). Y, notas también, porque es muy importante para la fase de análisis del texto con el programa lexicográfico TextSTAT, que la codificación del texto es "ISO-8859-1" (cuando analicemos dicho texto con dicho programa, nos aseguraremos que la codificación usada para el análisis en el programa lexicográfico sea la misma usada para introducir el texto). Con ello podemos dar por rematado la totalidad del apartado "1.2)" del encargo-3.

El portal de libros "Google Books o Google libros". El portal de libros "Google Books" es el segundo proyecto más antiguo; es un proyecto de la empresa privada Google. En realidad se trata de un servicio de Google que busca el texto completo de los libros que Google digitaliza, convierte el texto por medio de reconocimiento óptico de caracteres y los almacena en su base de datos en línea. El servicio era conocido como Google Print cuando fue introducido en la Feria del Libro de Fráncfort en octubre de 2004. Por tanto fue creado también en una época en que el uso de escáneres y OCR estaba ya muy extendido; y con el soporte económico inagotable de una gran empresa como es Google. Buscamos con Google "google books" o "google libros", hasta llegar al buscador de libros. Al realizar una búsqueda allí, se abre una interfaz en la cual el usuario puede visualizar páginas del libro, así como anuncios publicitarios relacionados con el contenido y enlaces a la página web de la editorial y librerías que lo venden. A través de una serie de limitaciones de acceso y medidas de seguridad, algunas basadas en seguimiento de usuarios, Google limita el número de páginas visibles y se intenta impedir la impresión de páginas y la copia de material con derechos de autor. Si la obra no tiene derechos de autor, como es el caso de "El Quijote", visualizaremos el texto íntegro digitalizado/escaneado de la obra y, en la esquina superior derecha, tendremos a nuestra disposición una "rueda" desde donde podemos descargar la versión en formato TXT o PDF de la obra. No sucede así con los textos con derechos de autor; donde no se muestra la totalidad del texto digitalizado/escaneado ni está disponible la opción de descargarlo en formato TXT o PDF.

El portal de libros "Europeana". Por último, el portal de libros "Europeana" es el proyecto más tardío de los tres; es del 2008, en una época en que el uso de escáneres y OCR estaba ya muy extendido. Fue creado por la CEE (Comunidad Económica Europea) como portal de la "cultura europea". Aunque inicialmente pretendía ser una base de datos de libros, al final, ha quedado como un recopilatorio de contribuciones (enlaces) de digitalizaciones (gratuitas) de reconocidas instituciones culturales. Buscamos con Google "europena" y accedemos a la documentación a través de los diferentes enlaces que aparecen. Si buscáis "El Quijote", por ejemplo, observad que muchos de los documentos encontrados no son la obra literaria en sí; sino, por ejemplo, como vimos en clase, un mapa de los viajes de El Quijote.

SUBAPARTADO "1.3)" Busca Elimina cualquier comentario ajeno a las obras literarias “obra1.htm” y “obra2.htm” (previo o posterior al texto de la obra en cuestión), así como cualquier tipo de introducción, dedicatoria y/o prólogo incluido en las obras por el propio autor. Con la ayuda del programa lexicográfico TextSTAT v. 2.9 crea un corpus (o “nueva unidad de análisis”) con el nombre de “corpus1.crp” y “corpus2.crp” y elabora un listado de las palabras o formas (con sus correspondientes frecuencias) que aparecen en las obras literarias en cuestión (ordenado alfabéticamente y sin distinción de mayúsculas o minúsculas). Guarda (exporta) el listado (de frecuencias) en el formato abierto CSV (comma-separated values o “valores separados por comas”) con el nombre de “listado1.csv” y “listado2.csv”, respectivamente.

Observación: Antes de usar TextSTAT lee las observaciones a tener en cuenta al respecto del uso de dicho programa en http://webs.uvigo.es/jmv/docs/practicas/practica1/observaciones-textstat.pdf. Así, por ejemplo, es muy importante que [sic] “Antes de añadir documentos al corpus hay que seleccionar la codificación ISO-8859-1 (Latin-1) o bien ISO-8859- 2 (Latin-2) para que reconozca correctamente los caracteres con tilde [p. 2]”. Si con esta codificación te siguen saliendo “símbolos raros” en la acentuación puedes probar con el formato de codificación “UTF-8 (Unicode)”.

Antes de poder analizar con el programa lexicográfico TextSTAT las obras descargadas en formato HTM es necesario eliminar de las mismas los comentarios que los promotores del "Proyecto Gutenberg" han insertado al principio y al final de los documentos. Dichos comentarios se distinguen fácilmente porque están en un tipo de letra muy diferente ("Courier") al texto de las obras. Para eliminar dichos comentarios usaremos el programa Kompozer que usamos para la creación de las páginas webs en el encargo-2 anterior.

En el caso de la obra "El Quijote", común para todos/as vosotros/as, si pretendéis descargarla en el aula informática Newton-17, recordad que no podéis hacerlo por la falsa configuración de la red de dicha aula. Por ello os he dejado un enlace en la web del encargo-2 (http://jmv.webs.uvigo.es/docs/practicas/practica1/encargo3/p1-e3.htm) para que descarguéis de la misma dicha "obra1.htm"; concretamente en el enlace web http://webs.uvigo.es/jmv/docs/practicas/practica1/encargo3/obra1.htm.

Una vez abierta las obras literarias en Kompozer procedemos a seleccionar y borrar las anotaciones iniciales y finales de dicha obras. Salimos y guardamos los cambios. Por último, comprobamos abriendo el archivo guardado con un navegador que los comentarios han sido efectivamente borrados.

El siguiente paso a realizar es descargar de la página web de la materia el programa lexicográfico TextSTAT. Para ello lo descargamos del enlace correspondiente (http://jmv.webs.uvigo.es/docs/practicas/practica1/textSTAT-2.9.zip) en nuestra carpeta de trabajo, lo descomprimimos (con 7-zip con la opción "extraer aquí") y verificamos que en la carpeta resultante "TextSTAT" está ele ejecutable del programa "TextSTAT.exe" (con un icono amarillo muy característico y las letras "TS")

Activamos el programa "TextSTAT" haciendo "doble clic" con el botón izquierdo del ratón encima del archivo "TextSTAT.exe". Se abrirá el programa lexicográfico. Es de suponer que se abra la versión en español del mismo. Dicha interfaz está "muy mal traducida/localizada" (lo cual nos servirá de ejemplo y acicate en la segunda parte de este encargo para "animarnos" a traducir/localizar correctamente la interfaz original de este programa, que está en inglés, al español).

Para darnos cuenta de ello abriremos nuevamente el programa pero con su interfaz (original) en inglés. Para ello seleccionaremos la opción "Lenguaje > English" del menú del programa, aceptaremos el cambio, saldremos del programa, y volveremos a entrar. Nos aparecerá ahora la interfaz en inglés del programa. Nos fijamos especialmente en las diferentes opciones del menú "corpus" en inglés.

Volvemos a cambiar a la interfaz en español. El siguiente paso a llevar a cabo es, según consta en el enunciado del encargo-3, "elaborar un listado de las palabras o formas (con sus correspondientes frecuencias) que aparecen en las obras literarias en cuestión (ordenado alfabéticamente y sin distinción de mayúsculas o minúsculas)."

Para ello, los pasos a seguir son los siguientes:

1) En primer lugar, crear un "nuevo corpus" con la opción "Corpus > Nuevo corpus ("Nueva unidad de análisis")", con el nombre de "corpus1.crp" para la "obra1.htm" y "corpus2.crp" para la "obra2.htm" (aquí solo mostraremos los pasos para la "obra1.htm"). Estos archivos creados son simples receptáculos para la información que crearemos después; por ello, de hecho, no están asociados a ningún programa en concreto.

2) A continuación cargar el "archivo guardado en el ordenador a analizar" ("obra1.htm" u "obra2.htm", según corresponda) a través de la opción "Corpus ("Unidad de análisis") > Añadir archivo local ("Adicionar archivo local")". Notad al respecto que la opción "Añadir archivo local ("Adicionar archivo local")" del menú "corpus ("Unidad de análisis")" permite analizar archivos o páginas web en línea, sin necesidad de descargarlos previamente. Y, la ventana final resultante después de cargar el archivo en cuestión, nos da idea de que el programa permite cargar otros nuevos archivos (por ejemplo, todas las obras de un mismo autor) y analizar todos ellos, al unísono.

Para proceder al listado de las palabras por frecuencias, listadas alfabéticamente y sin distinción de mayúsculas y minúsculas, procedemos a seleccionar la pestaña "Formas" y las opciones "ordenar alfabéticamente" y "ordenar sin distinción de tipo (letras mayúsculas o minúsculas)". Por último pulsamos el botón "lista de frecuencia(s)". En cuestión de segundos obtenemos el listado solicitado. Tened en cuenta que, con anterioridad a la existencia de los programas lexicográficos, este proceso, con la obra "El Quijote", por ejemplo, requería de 6 meses de trabajo por parte de 3 personas; ya que requería la elaboración de 22.942 fichas de trabajo (que es el número de palabras diferentes de la obra), previo análisis de 383.552 palabras, y la anotación en las mismas de los contextos en las cuales aparecían. Ahora, con el programa lexicográfico, este proceso tarda ¡2 segundos!

En el supuesto caso de que no aparezcan o aparezcan mal los acentos de las palabras, ello se debe a la diferente codificación entre el texto analizado y la configuración del programa TextSTAT. Debemos asegurarnos que la codificación que aparece en la obra a analizar (que aparece en la obra en el comentario superior del "Proyecto Gutenberg", antes de limpiar dichos comentarios) coincide con la opción seleccionada a través de "Codificación". ¡Ojo; la codificación del programa TextSTAT, por defecto, está en consonancia con la lengua de la propia interfaz del programa! Si usáis la interfaz en español la codificación será "ISO-8859-1", y si esta codificación coincide con la codificación de las obras a analizar, se verán los acentos. Por contra, si usáis la interfaz del programa en inglés, la codificación del programa será "UTF-8 (Unicode)" y probablemente no se verán los acentos de las obras literarias si están en la codificación "ISO-8859-1".

Observación: uso del programa lexicográfico TextSTAT para la localización de "candidatos a términos" en un texto especializado. Aunque aquí no vamos a hacerlo por tratarse de un texto literario, TextSTAT también puede usarse para la "localización de candidatos a términos" en textos especializados (por ejemplo, para la realización del trabajo de terminología de la materia del mismo nombre del grado, si es el caso). Para ello basta con usar las opciones "ordenar por frecuencia", "frecuencia mínima" y "frecuencia máxima". La idea básica es que, en un texto especializado, de un determinado ámbito X, una palabra candidata a ser un buen término de dicho ámbito X sería, por ejemplo, una palabra que aparezca un mínimo de ¿10 veces en el texto y un máximo de 15 veces en el texto? (los parámetros me los he inventado yo; vosotros/as podríais usar los parámetros que creyeseis más ajustados). Por debajo del umbral de 10 veces es de suponer que dicha palabra no sería del ámbito X; y, por encima del umbral de 15 veces, es de suponer que la palabra sería ya demasiado genérica para ser un término especializado y formaría parte ya del lenguaje general. Hemos hecho la prueba con nuestra obra1 (aunque, repito, es un texto literario y no un texto especializado) y el resultado ha sido el que aparece a continuación. Serían 982 palabras "candidatas a términos"; todavía demasiadas (es "normal" que esto suceda en un texto de tipo literario, ya que en dicho texto no hay términos por no tratarse de un texto especializado; en un texto especializado el número de palabras obtenidas a buen seguro sería muchísimo menor), por lo que (de tratarse de un texto especializado; cosa que repito no ocurre en este caso) deberíamos seguir especulando con los intervalos mínimo y máximo de las palabras en función del número de candidatos que quisiéramos obtener.

Por último, solo nos falta guarda (exporta) el listado (de frecuencias) en el formato abierto CSV (comma-separated values o “valores separados por comas”) con el nombre de “listado1.csv” y “listado2.csv”, respectivamente.

El programa TextSTAT permite exportar las "listas de frecuencias" en formato CSV (formato abierto) o bien en formato XLS o XSLX (formato cerrado, propietario, de Microsoft Excel).

El formato CSV, del inglés "Comma Separated Values" o "valores separados por comas" (https://es.wikipedia.org/wiki/Valores_separados_por_comas), es un formato de archivo, de formato abierto, muy sencillo, para representar datos en forma de tabla, en las que las columnas se separan por comas y las filas por saltos de línea (o <intros>). Como sea que las comas pueden forman parte del texto de los datos, los datos se incluyen entre comillas ("") o bien se usan otros delimitadores para separar las columnas (como puedan ser, por ejemplo, los tabuladores); manteníendose para estos casos el nombre de "formato CSV", aun no siendo las comas los delimitadores de dichos archivos.

Exportar el listado de frecuencias a formato CSV mediante la opción "Exportar > Lista de frecuencias: Archivo CSV". Guardamos el archivo generado con el nombre de "listado1.csv" (en el caso de la "obra1.htm") o de "listado2.csv" (en el caso de la "obra2.htm"). Para abrir el archivo ".csv" basta saber que dicho formato es un formato de "solo texto" y, por tanto, basta seleccionarlo con el botón izquierdo del ratón, pulsar el botón derecho del ratón, seleccionar la opción "Abrir con", y elegir el programa "bloc de notas " (o cualquier otro editor de textos). Con ello podemos dar por rematado la totalidad del apartado "1.3)" del encargo-3.

SUBAPARTADO "1.4)" Con la ayuda del programa lexicográfico TextSTAT v. 2.9 busca el listado de contextos o concordancias de las obras literarias en las cuales aparezca la palabra “hombre”, con las opciones: coincidir solamente con una palabra entera, no diferenciar letras mayúsculas y minúsculas, y ordenar alfabéticamente. Procura también que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”). Guarda (exporta) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente (0,40 puntos; 0,20 puntos por cada autor/obra).

El problema del listado de palabras es que, si bien a priori nos debería ayudarnos a poder traducir las palabras (o los términos) de los cuales desconocemos su traducción; en la práctica, resulta que muchas veces no es posible conocer su traducción porque el hecho de no conocer el contexto en el cual se insiere dificulta poder conocer su traducción. Para poder ir un poco más allá en estos casos, el programa lexicográfico TextSTAT incorpora la posibilidad de ver las palabras en su contexto. Para ello basta con hacer "doble clic" sobre la palabra que queremos ver en su contexto (en la pestaña "formas"); o bien usar la pestaña "concordancias" y ahí buscar el contexto de la palabra que queramos. Por ejemplo, podemos probar con las palabras "abindarráez" o "agora" que aparecen diversas veces en "El Quijote". El contexto nos ayuda a "deducir" fácilmente que "abindarraéz" es, en realidad, el "moro Abindarráez" y, por tanto, no debería traducirse por ser un nombre propio. El contexto nos ayuda también a "deducir" fácilmente que "agora" es "ahora" en el español actual. Como "contexto a izquierda" y "contexto a la derecha" podéis dejar el número de caracteres que el programa os deje por defecto (40 o 50, normalmente).

Se nos pide buscar el listado de contextos o concordancias de las obras literarias en las cuales aparezca la palabra “hombre”, con las opciones: coincidir solamente con una palabra entera, no diferenciar letras mayúsculas y minúsculas, y ordenar alfabéticamente. Procura también que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”). Guarda (exporta) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente.

Podríamos hacerlo desde la pestaña "Formas" y desplazarnos en el listado hasta encontrar la palabra "hombre"; pero, lo más rápido, es usar la pestaña "concordancias" y el buscador de palabras que dicha pestaña contiene. No debemos olvidar modificar las "opciones" de búsqueda, si es el caso, para que cumplan con las condiciones de: 1) No diferenciar letras mayúsculas y minúsculas; 2) Ordenar alfabéticamente; y, 3) Que la palabra “hombre” aparezca destacada EN MAYÚSCULAS en cada uno de los contextos (con la opción “destacar de la palabra consultada”)

Nos falta solo guardar (exportar) la lista de concordancias a un archivo de texto en formato abierto TXT llamado “concordancias1.txt” y “concordancias2.txt”, respectivamente. TextSTAT permite exportar las concordancias a archivos de formato TXT (formato abierto; denominado coloquialmente como "sin formato") y a archivos de formato DOC o DOCX (formato cerrado, propietario, de Microsoft Word). Usaremos la opción "Exportar > Lista de concordancias: Archivo TXT". Guardamos el archivo generado con el nombre de "concordancias1.txt" (en el caso de la "obra1.htm") o de "concordancias2.txt" (en el caso de la "obra2.htm"). Para abrir el archivo ".txt" basta saber que dicho formato es un formato de "solo texto" y, por tanto, basta seleccionarlo con el botón izquierdo del ratón, pulsar el botón derecho del ratón, seleccionar la opción "Abrir con", y elegir el programa "bloc de notas " (o cualquier otro editor de textos). Con ello podemos dar por rematado la totalidad del apartado "1.4)" del encargo-3.

Recuerda que tenéis que guardar todos los archivos generados en este PRIMER APARTADO (texto literario) en una subcarpeta denominada “texto-literario”.

Blog de Joan Miquel-Vergés. Informática

jueves, 3 de octubre de 2019

Semana 5 del 07/10/2019 al 13/10/2019

No hay comentarios:

Publicar un comentario