Disponible la nueva versión "donationware" 7.3 de OrganiZATOR
Descubre un nuevo concepto en el manejo de la información.
La mejor ayuda para sobrevivir en la moderna jungla de datos la tienes aquí.

Notas sobre Internet

[Home]  [Inicio]  [Índice]


6.7  Volatilidad de la información

§1  Sinopsis

A estas alturas (2002) casi nadie discute que Internet, y más específicamente la Web, constituyen una fuente inagotable de información, que incluso logra sorprendernos un poco más cada día a los que llevamos algunos años de "navegación" y muchos más en esto de la informática.

Por supuesto hay también mucha, ¿demasiada? basura, o para ser más precisos, demasiado ruido en la línea  (nos hemos referido tangencialmente a ello cuando hablábamos de "La rana digital" 6.1).  A veces es necesario cribar mucha paja para conseguir algún trigo, pero aún así, hoy día la Red es, con mucho, la mejor enciclopedia que puede concebirse; es seguro que dentro de poco albergará todo el saber humano [1].

Aparte del problema de su localización, al que dedicaremos un capítulo, otro de los problemas de la información en Internet es su ubicuidad, que se traduce en una cierta "volatilidad".  Nos referimos concretamente al hecho de que cierta información que hoy está en un "sitio" (una URL  Ap. G), mañana ya no aparece.  Es el motivo principal del famoso y fatídico mensaje:  "404 page not found"  (se ha estimado que la información contenida en la Web tiene un periodo medio de permanencia de 75 días).

Las razones pueden ser muy diversas.  Mucha información está albergada en páginas más o menos "personales";  son publicadas por aficionados o profesionales de ciertas materias que cambian de criterio o sencillamente de servidor, ya que muchos de ellos se hospedan en "Sitios" gratuitos.  En algunas ocasiones nos hemos encontrado con que una magnífica información sobre tal o cual materia, publicada en una dirección que corresponde a la página de un profesor asociado en la Universidad X, que sencillamente ya no aparece porque ha pasado a la Universidad Y.  Quizás era profesor visitante o invitado en algún departamento;  o sencillamente un doctorando que una vez terminado su trabajo ya no es localizable en el mismo sitio.  Pasado un tiempo esta persona es ya historia en la institución, y los responsables del departamento sencillamente borran sus ficheros.

Es muy frecuente, especialmente en empresas e instituciones, que determinada información desaparezca porque los responsables del sitio ya no la consideran relevante, o quizás porque haya cambiado la política de publicación de sus gerentes.  En las empresas muy grandes, del tipo Microsoft o Intel por ejemplo, determinada información suele desaparecer porque quizás corresponda a productos que se consideran obsoletos o son retirados del mercado.  También es muy frecuente que los Web master realicen reestructuraciones de los sitios Web, lo que origina que la información no esté en el sitio esperado (con suerte quizás la encontremos todavía en algún otro rincón de la misma Web).  Por esta razón, a menos que se encuentren en una Web muy grande, las referencias no deben ser demasiado precisas.  Por ejemplo esta página que está leyendo tiene la siguiente dirección: http://www.zator.com/Internet/A6_7.htm; sin embargo cualquier reestructuración de la Web de Zator Systems podría cambiarla de sitio. Mucho mejor sería referenciarla como: www.zator.com  Tutoriales Internet Problemas y peligros de la red Volatilidad de la información.  Aunque mucho menos directa, posiblemente esta última forma de localización resistiría mejor el paso del tiempo.

En un mundo empresarial muy dinámico, son frecuentes las desapariciones de empresas (la "recesión .com" ha hecho desaparecer a muchas), también las absorciones y fusiones.  La resaca de estos movimientos empresariales se deja sentir también en sus sitios Web que son rápidamente eliminados o reestructurados.  La información suele cambiar de sitio o ser sencillamente eliminada para adecuarse al "estilo" e intereses del nuevo propietario.

El resultado de todo esto es una cierta dificultad añadida al asunto de la búsqueda. Ya no se trata solamente de encontrarla y anotar su dirección. El problema es que quizás mañana ya no será accesible.  En un reciente estudio realizado en USA sobre apuntes que los profesores habían dejado en Internet para uso de sus alumnos, se descubrió que poco después de su publicación del orden de un 15% de los enlaces utilizados ya no eran válidos.

El problema es tan insistente que la mayoría de los sitios Web que contiene información sobre información. Por ejemplo, colecciones de enlaces, suelen disponer de medios estandarizados para que los propios usuarios informen al webmaster de los enlaces rotos o problemáticos. Aparte de esto, existen programas que automáticamente chequean los enlaces de una web para verificar su validez [4].

Nota:  En este sentido, el sistema antiguo del libro "en papel" es sin duda superior. Un libro editado siempre será el mismo y tendrá su mismo contenido. Si nos interesa mucho lo compramos. En caso contrario siempre podremos buscarlo en la biblioteca o en la librería. Si es muy antiguo en la librería de usado, para lo cual Internet es también un fantástico aliado [2].

Mi recomendación al respecto es que si el asunto le interesa mucho, no confíe en que la información seguirá estando allí maña. Es preferible sacar una copia, impresa o electrónica, y guardarla para ulteriores consultas [3].

§2  Intentos de solución

El problema al que aludimos ha sido reconocido, e incluso relacionado con las veces en que, a lo largo de la historia, la humanidad ha sufrido pérdidas irreparables en su patrimonio cultural.  Por citar un par de casos infaustos, el incendio de la famosa Biblioteca de Alejandría, que supuestamente albergó la totalidad del saber de su época    www.greece.org, o la casi total desaparición de la enciclopedia Yongle. 

La biblioteca de Alejandría, creada unos 300 años A.C.  estaba considerada una de las maravillas del mundo antiguo.  Desgraciadamente, sus contenidos se perdieron para siempre;  físicamente dividida en dos partes, el edificio original, más cercano al puerto, fue devastado por un incendio durante la guerra entre Cesar y el faraón Ptolomeo XIII en el año 48 antes de nuestra era.  El segundo edificio, que correspondía a una ampliación, estaba situado más al sur, dentro de la misma ciudad egipcia, y sobrevivió a la época imperial romana hasta que fue destruido en el siglo IV por el emperador Teodosio junto con otros templos "Paganos" [7].

The New Bibliotheca Alexandrina A Link in the Historical Chain of Cultural Continuity    www.slis.uwm.edu Buscar este título del doctor Mohammed M. Aman.  Un magnífico resumen sobre lo que significó este foco del saber antiguo en el SOIS "School of Information Studies" de la Universidad de Wisconsin en Milwaukee (USA).


Posiblemente la versión contemporánea de la Biblioteca de Alejandría sea la Biblioteca del Congreso de los Estados Unidos    www.loc.gov, sin duda la mayor concentración de libros y documentos del planeta. Aunque actualmente ha sido sobrepasada, no en cuanto a libros físicos, sino respecto al total de la información contenida.

La enciclopedia Yongle, la más antigua del mundo, con 11.095 libros en 22.877 volúmenes, fue recopilada entre 1403 y 1407 bajo el mandato del emperador Yongle, de la dinastía Ming, más de tres siglos antes de que el francés Denis Diderot concibiera la primera enciclopedia en Occidente en el siglo XVIII.  A su terminación era doce veces más grande que la compilada en la Francia de la Ilustración.  De sus 11.095 volúmenes quedan en la actualidad sólo unos 400 desperdigados por varias bibliotecas del mundo    www.china.org.cn

  http://english.peopledaily.com.cn


§3  La nueva biblioteca de Alejandría

El proyecto de reedificar una nuevo centro que pudiese devolver a Egipto y a la humanidad, un lugar comparable a la antigua Biblioteca de Alejandría, comenzó a gestarse en la década de 1980.  En 1989 un estudio noruego de arquitectura resultó vencedor del concurso internacional convocado al efecto.  Los trabajos de construcción se iniciaron en 1995. Finalmente, veinte años más tarde, el 23 de Abril del 2002 fue inaugurado oficialmente un complejo edificio construido por el Gobierno Egipcio, con ayuda de la UNESCO y de organismos culturales de todo el mundo [5].    www.unesco.org

Sus 13 plantas, con 60.000 m2 construidos sobre una superficie de 40.000 m2, permiten albergan unos ocho millones de libros. Sus fondos actuales (2002) no llegan ni con mucho a esta cantidad, aunque contiene unas 50.000 cartas y mapas, 100.000 manuscritos y 10.000 libros antiguos de incalculable valor, así como gran cantidad de material multimedia.

La nueva  biblioteca concebida como albergue del saber humano, incluye centro de convenciones y conferencias; un museo de la ciencia; un planetario; un laboratorio de restauración y conservación; un museo de manuscritos, y es el centro de la Escuela Internacional de Estudios de la Información ISIS ("International School of Information Studies"), aunque ha sido criticada por algunos como una obra "Faraónica" que desentona con el actual desarrollo social, económico y político del citado país norteafricano.    www.bibalex.gov.eg/.

§4  El archivo de Internet

Las consideraciones relativas a la cantidad de saber humano perdido a lo largo de la historia, al que nos hemos referido, así como la necesidad de preservar la cantidad de información que cada día desaparece de la Internet, propiciaron el nacimiento de una iniciativa realmente espectacular y atrevida, que bajo el nombre de Archivo Internet ("Internet Archive"    www.archive.org), pretende nada menos que archivar todo lo que existe en la Red, así como otro material gráfico y sonoro de la historia reciente.

Desgraciadamente una inmensa cantidad de material gráfico, en forma de fotografías y películas de inestimable valor histórico y cultural, han desaparecido para siempre debido a accidentes, desastres, desinterés, e incluso al deseo de recuperar la plata contenida en las emulsiones fotográficas.  Ni que decir tiene que la mayoría de emisiones radiofónicas y de TV también han desaparecido para siempre en el éter. Además, en palabras de Brewster Kahle :  "La Red vuelve a nacer y se destruye con cada día que pasa. Está claro que no podemos permitirnos el lujo de perder la oportunidad de capturar lo que fue".

El archivo se inicia cuando Brewster Kahle, un joven millonario norteamericano, decide crear una versión cibernética de la legendaria biblioteca de la antigüedad.  Su misión volvería a ser albergar todo el saber humano, comenzando por el material disponible en la Red.  Una idea propia de un visionario o de un loco, y que no se había intentado llevar a la práctica en los últimos 2300 años, desde que Ptolomeo I decide crear la famosa biblioteca de Alejandría bajo la dirección de Demetrius de Phaleron.

Nota:  Parece ser que la idea le surgió cuando supo que no existen registros históricos disponibles de las primeras emisiones de televisión, puesto que nadie pensó entonces que más tarde podía ser un material histórico muy valioso.


A Brewster Kahle no le faltaban ni la experiencia ni los conocimientos técnicos para saber que su idea distaba mucho de ser utópica.  En 1982 se había graduado en el famoso MIT ("Massachusetts Institut of Technology"), y había trabajado para Thinking Machines, una compañía de Cambridge, Massachusetts, que se había dedicado al tratamiento de información en superordenadores.  Posteriormente, en 1989 [8] había creado el sistema WAIS ("Wide Area Information Servers system"), una especie de índice temático de la Web.  En realidad uno de los proto-buscadores de Internet junto con Archie, gropher o VERONICA (volveremos sobre ellos más adelante), que en la época de la "fiebre" .com vendió a AOL ("America OnLine) por 15 millones de dólares USA.

Nacido en 1996, la ubicación del Archivo Internet corresponde a un sitio casi tan extravagante como la idea;  Kahle consiguió unos locales para desarrollar su proyecto en el presidio de San Francisco, California.  El archivo funciona como una institución sin ánimo de lucro, y ha recibido ayudas de otras instituciones norteamericanas seducidas por la magnitud del proyecto, su utilidad y su audacia técnica.

En principio se limitó a almacenar información de la Web bajada las 24 horas del día por los robots y arañas [9] de Alexa (otra empresa   www.alexa.com  creada también por Kahle y relacionada con Internet) y trabajar con las colecciones del Instituto Smithsoniano y la Biblioteca del Congreso.

En principio la colección sólo incluía texto hasta 1996, pero Internet Archive comenzó a recopilar información un ritmo de cerca de 200 imágenes cada 5 segundos.  Las cifras concretas se quedan rápidamente anticuadas, además la mente humana tiene cierta dificultad para imaginar magnitudes demasiado grandes (o demasiado pequeñas), pero los sistemas automáticos del Archivo Internet añaden mensualmente a sus fondos una imagen de 10 Terabytes ( E1.7.1) del estado de la Red, lo que representa aproximadamente la mitad del contenido de la Biblioteca del Congreso!!.

De momento, el Archivo no dispone de ningún sistema de búsqueda específica (que sea conocido y accesible por el público), pero a finales de Octubre del 2001 fue inaugurado un servicio de búsqueda de las URLs almacenadas: The Wayback machine. Algo así como una máquina del tiempo que permite acceder al estado de un sitio tal como estaba hace meses o años; el sistema permite incluso visitar sitios que ya han desaparecido.

Por supuesto una empresa de estas características y magnitud presenta problemas e inconvenientes no existentes hasta el momento.  Uno de ellos, las cuestiones de la propiedad intelectual.  Por ejemplo: que sucede si el propietario de cierta información publicada, decide posteriormente retirarla de la Red?.

Podemos adelantar que la política del Archivo Internet parece ser muy respetuosa al respecto. Basta solicitar la exclusión para que (en palabras de Brewster) los contenidos sean "Borrados de la historia..." .  Además, existe la posibilidad de incluir en las páginas Web determinadas etiquetas ("Tags") que advierten a los robots que no deseamos que nuestra información sea escaneada automáticamente.

Por otra parte, sabemos que no es físicamente posible rastrear la totalidad de la Web por estos métodos automáticos. Existen infinidad de sitios de acceso restringido mediante claves de acceso, o en los que hay que rellenar ciertos formularios de entrada.  De forma que el tamaño real de la Web es desconocido y sus contenidos parcialmente insondables.

  Inicio.


[1]  Otra cuestión será la del acceso a toda esta información; posiblemente no todo será libre y gratuitamente accesible.  Esto de la "gratuidad" es una idea que poco a poco irá desapareciendo de una parte de la Internet.

[2]  El autor ha tenido ocasión de comprobarlo en un par de ocasiones. Recientemente he tenido ocasión de encontrar y adquirir, por Internet una novela de un autor italiano, Guido Milanesi, por el que llevaba años preguntando cada vez que encontraba una librería de usado o una feria del libro.  Finalmente lo encontré en Estados Unidos!!; un libro en español, editado en Barcelona en 1944, del que seguramente la edición original no fueron más allá de 500 ejemplares.

[3]  Aunque el derecho no es mi especialidad, entiendo que una copia para uso exclusivamente personal de lo publicado en Internet y de acceso público, no es ilegal en la mayoría de los casos.  Sin embargo, sea  precavido, algunas publicaciones electrónicas actuales pueden contener limitaciones relativas a:

  • Prohibición de copiar el material al portapapeles ("Clipboard"), de forma que no puede ser copiado a otro documento.
  • Prohibición de realizar copias impresas.
  • Prohibición de ser prestado o cedido a terceros
  • Prohibición (incluso) de ser leído en voz alta.

[4]  A título de ejemplo podemos citar Xenu   http://home.snafu.de/tilman/xenulink.html  un programa que cumple bastante bien su cometido, con la ventaja de ser gratuito("freeware").

[5]  Debido a la guerra no declarada entre Palestinos e Israelitas, desgraciadamente los actos no tuvieron la debida repercusión en los medios internacionales.

  [6]  "Vitruvius, in the first century (de Arch. VII. praef. 1-2) expresses the appreciation and gratitude felt by subsequent generations for the work of the 'predecessors' in preserving for the 'memory of mankind', the intellectual achievements of earlier generations". Profesor Moustafa El-Abbadi; "The ancient Library of Alexandria"     www.greece.org

[7]  Como puede verse, otra de las "inestimables" aportaciones del cristianismo a la cultura occidental y del mundo.

[8]  Algunos autores sitúan la fundación de WAIS en 1991.

[9]  Robots y arañas  ("Bots" y "Spiders"). Nombres que reciben los programas automáticos que recorren Internet en busca de información, que es analizada y almacenada.  Generalmente la información utilizada por los buscadores de Internet,  Altavista,  Yahoo,  Google, etc, se recopila mediante estos programas.