Informatie 2020

Inloggen
Engels | Nederlands

Blijf op de hoogte

Niemand volgt dit.

archiveren website en archiveren website

    Jack Karelse
    • iedereen (publiek zichtbaar)

    archiveren website en archiveren website

    Gestart door Jack Karelse 10 dagen geleden Reacties (9)

    In Od aandacht voor webarchivering: 'Burgers en rechtspersonen kunnen rechten ontlenen aan de informatie op een website (...).' Dat klopt. Dus moet je er als overheid voor zorgen dat je over die informatie beschikt, moet je kunnen aantonen of en op welk moment informatie op een website heeft gestaan. Het vastleggen van de website is een mogelijkheid om daaraan tegemoet te komen. En je legt de website of de betreffende pagina vast voor zo lang dit nuttig en nodig is, toch?

    In veel publicaties over het archiveren van websites lijkt het erop dat websites in het geheel, tot in den eeuwigheid, bewaard moeten blijven. Dat lijkt me ondoenlijk.
     

    Reacties

      • Hans Dekker
        Hans Dekker 10 dagen geleden

        Hallo Jack,

        Ik ben benieuwd waarom dat ondoenlijk zou zijn.

        • Jack Karelse
          Jack Karelse 10 dagen geleden

          Lees ondoenlijk ook als onzinnig :-)

          De hoeveelheid aan TB's die er mee gemoeid zijn en daarbij behorende kosten, bijvoorbeeld. Misschien zijn de kosten van webarchivering bij / via Pagefreezer, Capsis e.d. momenteel nog te overzien. Maar de bedoeling is -neem ik aan- opname in een e-depot. Wat kost een TB digitaal archief per jaar? En hoeveel TB webarchief bouw je op? Ik meen dat vanuit gemeente Middelburg een slordige 180TB werd genoemd mbt ca. 5 jaar webarchivering (x 1500,-?).

          De hoeveelheid in het algemeen: wat is de toegevoegde waarde in een collectie van een gigantische hoeveelheid webpagina's?

          Veel gemeentelijke websites komen van een handjevol leveranciers en zijn grotendeels gelijk in opzet en gebruiksgemak, met heel veel links naar links naar andere overheidswebsites (bekendmakingen, ruimtelijkeplannen e.d.).

          Zie ook artikel in Od waarin wordt opgemerkt dat de Library of Congres is gestopt met archiveren van Twitterberichten omdat het te tijdrovend en te kostbaar bleek.

          • John Jansen
            John Jansen 10 dagen geleden

            Beste Jack,

            Over de zinnigheid doe ik geen uitspraken. Wel wil ik twee argumenten aanvoeren vanuit de techniek waarvan ik denk dat het belangrijk is dat ze in het beleid worden opgenomen.

            - de leveranciers hebben de mogelijkheid webarchieven op te slaan/uit te leveren in WARC formaat. Ik lees nog weinig over de acceptatie daarvan, terwijl het een internationaal geaccepteerd formaat is.

            - bij webarchivering worden harvesting technieken toegepast waarbij alleen wijzigingen worden opgenomen zodat de groei "beperkt"blijft. 

            groet,

            John

            • Wouter Brunner
              Wouter Brunner 7 dagen geleden

              De opslaggrootte van het een en ander hangt ook samen met je selectiebeleid. In de oude gemeentelijke selectielijst werd de mogelijkheid gelaten om de website onder te verdelen in een deel met 'historisch belang' en een overig deel. De nieuwe lijst laat deze mogelijkheid niet (expliciet).

              Naar mijn mening heeft een behoorlijk deel van de informatie die voor de recht- en bewijszoekende burger van belang is, geen eeuwigheidswaarde, terwijl juist die informatie de reden is voor een hoge opslagfrequentie van de website.

              Wellicht is het dus een idee om tbv het historisch belang na een x-aantal jaar een deel van het webarchief te vernietigen en bijvoorbeeld alleen de websites per de eerste dag van een kwartaal op te slaan?

              • Jack Karelse
                Jack Karelse 7 dagen geleden

                John Jansen, kun je een idee geven van bijv. een overheidsorganisatie waarvan een jaar of 5 webarchief is opgebouwd?
                Voor de volledigheid zou ik het door mij genoemde getal kunnen verifiëren :-)

                Het is zeer goed mogelijk dat het aantal TB varieert, o.a. afhankelijk van de manier waarop webarchivering plaatsvindt.
                En hopelijk wordt dat in de Handreiking ook meegenomen.

                • John Jansen
                  John Jansen 7 dagen geleden

                  Beste Jack, dat laat zich zo niet in zijn algemeenheid zeggen. Maar van de mij bekende gemeentelijke websites zijn er enkele die nu de 2TB zijn overschreden. Als je dag in dag uit standaard een crawl maakt van een website dan loopt het aardig op maar de 180 TB die jij noemt kan ik niet onderschrijven.

                  Ik onderschrijf dat het goed is eea in een handreiking op te nemen, wellicht ook wat eisen mbt retentieschema's...

                  • Jack Karelse
                    Jack Karelse 7 dagen geleden

                    In de start van de discussie heb ik de plank misgeslagen mbt het vermeend aantal TB's aan opgebouwd webarchief. Het gaat slechts om een goede of schamele 300GB.

                    Maakt dat discussie over hoeveelheid te beheren webarchief overbodig? Dat denk ik niet. Zeker niet gezien de rol en functie die een website en evt. archivering van sociale media vervult. Kleiner zal die rol en functie niet direct worden.

                    • Hans Dekker
                      Hans Dekker 7 dagen geleden

                      Het aantal GB, TB en PB (https://nl.wikipedia.org/wiki/Petabyte) vind ik niet van belang:

                      Wat ik wel van belang vind is:

                      Via onze leverancier testen we de volgende mogelijkheid https://www.pagefreezer.nl/openrecords/houten

                      Oplossing evenwoorden

                      Voorbeeld zoekwoorden windmolens, windturbines en windpark worden in bestuurlijke documenten door elkaar heen gebruikt. Je krijgt elke keer een ander resultaat.

                      Wellicht is een oplossing dat deze 3 zoekwoorden als evenwoorden kunnen worden gebruikt in een (aparte) of onze eigen zoekmachine.

                      Wellicht is een oplossing om voor de websites van Houten gebruik te maken van een centraal metadata beheersysteem (DSP/ZTC) die we ook intern gebruiken?

                      • Erik Saaman
                        Erik Saaman 9 uren geleden

                        Doel en kosten lopen in deze discussie volgens mij door elkaar. Als je wilt bepalen welke en hoe lang webpagina's bewaard moeten worden, dan moet je beginnen bij de redenen daarvoor. En niet bij de benodigde opslagruimte en andere technische belemmeringen. Die kunnen slechts in tweede instantie een overweging van praktische aard zijn (wat niet kan, dat kan natuurlijk niet).

                        Over de (on)zinnigheid van het bewaren van webpagina's kun je geen algemene uitspraken doen. Dat hangt af van de inhoud van de pagina's en de belangen van de mensen die mogelijk ooit de pagina's willen inzien. Dat is de reden waarom overheidsorganisaties selectielijsten moeten maken.