Récupérer les actes sur les archives en ligne – 2

le

J’avais prévu de poster cet article bien plus tôt mais le travail et la famille ont pris le dessus. Néanmoins, comme on dit, vaut mieux tard que jamais.

L’aude et les Pyrénées-Orientales – Gaia 9


 Ces deux sites d’archives utilisent Gaia 9 pour permettre la visualision des actes. L’affiche se fait selon un niveau de zoom. Celui qui nous intéresse est le 50 (pourquoi cette valeur je ne sais pas, mais de manière empirique à l’aide des outils de développement).

11_01
Recherche de l’image
11_02
Affichage d’un morceau de l’acte

En double-cliquant sur l’image 50, on arrive sur une page avec une url reconstituée. En changeant quelques valeurs de manière aléatoires, on se rend compte que les dernières valeurs correspondent à la zone à afficher de l’archive.

11_03
Construction de l’URL

En vert, les coordonnées et en bleu la taille de l’image en sortie.

En remplaçant, les derniers chiffres par : 0/1/0/1/1/1/1/1/1500/900/0/50.

Il suffit donc de régler les dimensions pour obtenir une image correcte et de sauvegarder l’image.

11_04 - Antugnac 1790-1802 vue 18
Antugnac 1790-1802 vue 18

Le fonctionnement est équivalent sur les archives du 66 excepté les séparateurs @ de l’Aude qui sont des /. Mais le but est toujours à la fin de mettre les informations de zoom et coordonnées pour obtenir une image complète.

La Manche et le Finistère – Mnesys 2.0


À partir de maintenant le travail est plus compliqué. Chaque archive est représenté par un fichier xml contenant la liste des pages à afficher et ensuite une fois les pages isolées il faut récupérer toutes les images qui constitue l’acte. En effet, la visionneuse découpe les images de chaque acte de manière matricielle.

50_01
Fichier XML

La suite de numéro avant l’extension correspond au document d’archives que l’on retrouve dans l’url de la page principale. Ce fichier n’est utilise que dans le cadre d’un petit utilitaire qui pourrait être développé. Les images se suffisent à elles-mêmes.

50_02
Contenu du fichier XML
50_03
On retrouve la référence

 

50_04
Liste des images en fonction du zoom

On trouve donc comment se nomme les images. x_yy.jpg

50_05
Récupération d’une image

x correspondant au niveau de zoom (3 étant semble-t-il la valeur la plus haute). Ensuite, il faut juste incrémenter les valeurs pour récupérer toutes images.

Finalement, il suffit de faire un fichier plat avec la liste des images et d’utiliser un utilitaire de téléchargement et lui donner la liste de fichier à charger. Ensuite la reconstruction se fait à l’aide de le programme présenter par Jimbo.

Le fonctionnement est identique pour le Finistère.

L’Ille-et-Vilaine – Thot


Le pire des sites d’archives car dans le cadre d’un utilitaire, il faut tenir compte des cookies. Il y a en effet des données qui dépendent de la session active.

Néanmoins pour une récupération manuelle, le fonctionnement est assez proche de celui de Mnesys. La différence réside principalement dans le découpage.

Les images sont découpées et nommées avec des coordonnées x,y.

Nom d’une image : zoom_colonne_ligne.jpg

Publicités

7 commentaires Ajoutez le vôtre

  1. Loizon dit :

    Bonjour
    Je viens de lire un article sur votre technique de récupération d’actes en ligne dans le dernier numéro de RFG.
    Je suis sur le site des AD29 et sous Firefox.
    La combinaison de touches CTL-MAJ-I ne fonctionne pas dans la visionneuse alors qu’elle le fait sur la page de votre blog par exemple.
    Auriez-vous une idée pour m’aider SVP ?
    Didier Loizon

    J'aime

    1. Yann L. dit :

      Bonjour,

      Étant donné que la page des archives est une page en Flash, il faut se positionner dans la barre d’adresse pour effectuer la combinaison de touche.

      Cdt

      J'aime

      1. Loizon dit :

        Merci, la console est maintenant visible.
        Dans quel onglet trouve t-on l’adresse de la page à télécharger ?
        Dans Réseau, je ne trouve que des morceau de page.
        Merci de votre aide

        J'aime

    1. Yann L. dit :

      Hélas on ne trouve pas l’adresse pour une image mais pour l’ensemble des images qui compose l’acte. Une fois la console ouverte, il faut aller sur l’onglet Réseau dans Firefox. Ensuite vous zoomez sur la photo et vous devriez voir apparaître des lignes du genre :
      2_7.jpg?845131=624857

      Ce sont les images de votre acte. Plus vous zoomerez plus le premier chiffre sera grand (3 ou 4 au maximum) et plus il y aura d’images à récupérer pour reconstruire l’image de l’acte.

      J'aime

      1. Loizon dit :

        J’ai tout compris !
        Merci pour vos explications.

        Aimé par 1 personne

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s