Domov Funkce Tito obhájci chtějí zajistit, aby naše data nezmizela

Tito obhájci chtějí zajistit, aby naše data nezmizela

Obsah:

Video: Johnson Controls System Configuration Tool Database Backup (Listopad 2024)

Video: Johnson Controls System Configuration Tool Database Backup (Listopad 2024)
Anonim

Na konci května tohoto roku, přesně pět měsíců od inaugurace 45. prezidenta Spojených států, si skupina lidí, která se zabývala postojem nové administrativy k vědě a změně klimatu, označila své vlastní výročí.

Kousek od kampusu University of North Texas, na pláních severně od Dallasu, se v Data Rescue Denton sešlo několik desítek jednotlivců, aby identifikovali a stáhli kopie údajů o federálních klimatických a environmentálních údajích. Tato setkání v hackathonském stylu získala velkou pozornost ve dnech bezprostředně předcházejících inauguraci; Denton byl 50. takovou událostí od ledna.

Nejprve se z obavy, že nová správa může vymazat nebo zakrýt klima a další údaje o životním prostředí, zdálo se, že nejhorší obavy záchranářů dat se naplnily, když jedním z prvních akcí Trump White House bylo odstranit stránky změny klimatu z její webové stránky. Ministerstvo zemědělství USA poté, co odstranilo zprávy o inspekci dobrých životních podmínek zvířat ze svých webových stránek, odpovědělo na žádost zákona o geografickém svobodném přístupu k informacím o geogra- fice s 1 771 stránkami zcela redigovaného materiálu.

K otevřenému datovému portálu ústřední vlády na adrese data.gov může přístup k více než 153.000 federálních datových souborů kdokoli. Ale to je jen zlomek dat, která existují v mlhovině vládní byrokracie, nevadí ani menší část, která je na serveru.

„Někde je kolem 20 procent vládních informací přístupných na webu, “ řekl Jim Jacobs, federální vládní informační knihovník ve Stanfordské univerzitní knihovně. „To je docela velký kus věcí, který není k dispozici. Ačkoli agentury mají své vlastní systémy pro správu wiki a obsahu, jediný čas, kdy se o něčem dozvíte, je, když to někdo FOIA udělá.“

Jistě, velké množství informací bylo skutečně zachyceno a nyní sídlí na nevládních serverech. Mezi událostmi a projekty typu Refuge, jako je End-of-Term Crawl 2016, bylo archivováno přes 200 TB vládních webových stránek a dat. Ale organizátoři záchrany si začali uvědomovat, že po částečném úsilí o vytvoření úplných kopií terabajtů vědeckých údajů vládních agentur nelze dlouhodobě realisticky udržet - bylo by to jako záchranu Titanicu s náprstkem.

Takže i když Data Rescue Denton skončila jako jedna z posledních organizovaných akcí svého druhu, kolektivní úsilí podnítilo širší komunitu, aby spolupracovala na tom, aby více vládních dat bylo objevitelných, srozumitelných a použitelných, napsal Jacobs v blogu.

Při pohledu do knihoven

Na Pennsylvánské univerzitě je Bethany Wiggin ředitelkou Penn Programu v Humanitní environmentalistice, kde byla ústředním bodem hnutí Data Refuge, původcem událostí Data Rescue. Zaměření se nyní posunulo směrem k využití národních rámců pro dlouhodobé úsilí namísto lokálních periodických epizod.

"Uvědomili jsme si, jaké dovednosti se objevují na různých místech a provádějí události záchranných dat, což by bylo možné rozšířit, " řekl Wiggin, zejména ve výzkumných knihovnách. "Ale toto úsilí se odehrávalo ještě předtím, než jsme zahájili činnost. Síť Data Refuge má za cíl toto spojení zesílit; katalyzovat dlouhodobé, pomalu se pohybující projekty; a osvětlit, jak důležité jsou."

Wiggin v poslední době pomáhá spearhead Libraries + Network, vznikající partnerství výzkumných knihoven, knihovnických organizací a otevřených datových skupin katalyzovaných za účelem rozšíření tradiční úlohy knihoven při zachování přístupu k informacím. Mezi účastníky patří výzkumná knihovna na Stanfordské univerzitě, Kalifornská digitální knihovna a Mozilla Foundation, se vstupy a spoluprací od subjektů tak širokého rozsahu, jako jsou národní archivy a vedoucí úředníků s údaji několika federálních úřadů.

Jedním z projektů je například LOCKSS („spousta kopií uchovává věci v bezpečí“), které Jacobs koordinuje již několik let. Je založen na stejném principu jako 200letá síť knihoven známá jako Program federálních depozitářů; tyto knihovny jsou oficiálními úložišti publikací Úřadu vlády USA pro tisk (GPO).

LOCKSS, naopak, je soukromá digitální verze tohoto systému, který doposud sestává z 36 knihoven, které sbírají publikace od GPO ve spolupráci. Je to model, jak lze digitální informace chránit před vymazáním nebo neoprávněnou manipulací díky rozsáhlému fyzickému rozptylu.

„Dokážete zachovat zachování, pokud nemáte kontrolu nad obsahem, “ řekl Jacobs. "Součástí toho, co učinil depozitní knihovny důležitým a užitečným za posledních 200 let, bylo to, že nikdo ve vládě nemohl dokument upravit, aniž by ve skutečnosti šel do 1 500 knihoven a řekl:" Ano, změňte tuhle jednu stránku. ""

Software LOCKSS používá kontroly mezipaměti obsahu na bitové úrovni a porovnává jej s obsahem jiných knihoven, což Jacobs řekl, že pomáhá zajistit dlouhodobé uchování opravou degradovaných souborů.

John Chodacki, další spolupracovník s knihovnami + Network, je kurátorem kurátorů pro Kalifornskou digitální knihovnu, virtuální informační zařízení, které obsluhuje všech 10 kampusů systému University of California. Ve spolupráci s vývojářem kódu pro vědu a společnost Maxem Ogdenem a Philipem Ashlockem, hlavním architektem na adrese data.gov, Chodacki říká, že jejich zaměření bylo na používání data.gov jako obousměrné ulice.

Nejprve prokázali, že samotná záchrana dat by mohla být mnohem efektivnější tím, že nashromáždí kopii data.gov samotného a umístí ji na externí server datamirror.org s monitorovacími skripty, které kontrolují aktualizace. Poté Chodacki a spolupracovníci také začali zkoumat, zda by přispělé datové sady a metadata do zrcadla mohly přispět do existujících pracovních toků agentur prostřednictvím datových stránek v zrcadle.

Podle výkonného nařízení Obamy z roku 2013, které nařídilo zveřejňování strojově čitelných údajů na adrese data.gov, by agentury stále odpovídaly za generování záznamů, které jsou uvedeny na tomto portálu; Chodacki a Ogden myšlenka je, že crowdsourcing navrhovaných datových sad jednoduše pomáhá šířit pracovní vytížení.

„Nemusíme replikovat celý ekosystém, “ řekl Chodacki. "Federální vláda a tyto agentury se zabývají daty mnohem déle, než bylo možné hovořit o velkých datech mnohem robustnějším způsobem než kdokoli jiný."

Partnerství veřejného a soukromého sektoru

Otázka nákladů je zřejmá, pokud jde o to, jak jsou agentury schopny určit, které datové sady jsou pro veřejnost nejcennější, a poté zveřejňovat odkazy na jejich metadata nebo skutečné datové soubory prostřednictvím vládního portálu. Zpráva Kongresového rozpočtového úřadu (CBO) pro návrh zákona OPEN Government Data Act, který je v současné době v Senátu - což by kodifikovalo Obamův výkonný řád do zákona - odhaduje, že jeho úplné provedení by stálo mezi 2018 a 2021 dva miliony dolarů.

Pokud jde o vládní peníze, což v podstatě nepředstavuje skutečné zvýšení výdajů, uzavřel CBO.

Účinnost je však jiná otázka, kterou Ed Kearns v National Oceanic and Atmospheric Administration experimentuje spolu se soukromými partnery včetně Amazon Web Services a Google. Kearns, hlavní datový referent NOAA, uvedl, že zvyšující se veřejná dostupnost a využívání dat NOAA je hlavním cílem projektu Big Data Project.

Společnosti identifikují, které datové sady chtějí, a NOAA je předává bez dalších nákladů veřejnosti. Všechno, co NOAA má, je na stole, řekl Kearns, ale cílem pětiletého partnerství není dostat všechna data NOAA do cloudu - pouze strategické kusy.

Hosting takových datových sad v cloudových službách soukromých společností nabízí několik výhod přístupu FTP ve stylu 80. let, který je stále standardní pro přenos velkých datových souborů od federálních agentur. Začněme, datové soubory NOAA bývají obrovské - agentura monitoruje oceány, atmosféru, slunce a kosmické počasí Země - a někdy vyžadují veřejné doručení týdny nebo měsíce.

Příkladem je dopplerovský radarový archiv agentury NEXRAD úrovně II s vysokým rozlišením. Podle studie zveřejněné v květnu Americkou meteorologickou společností by převod celého 270-terabajtového archivu NEXRAD na jednoho zákazníka v říjnu 2015 trval 540 dní za cenu 203 310 USD. Plná kopie archivu nikdy nebyla k dispozici pro externí analýzu, než NOAA pracovala s Amazonem a Google na tom, aby byla jedna v cloudu.

Experiment také přinesl několik zajímavých prvních výsledků se zvyšováním využití. Webové stránky NOAA pro předpověď počasí a předpovědi již dostávají jedny z nejvyšších úrovní provozu mezi vládními weby, ale poté, co Google nedávno integroval do své databáze BigQuery jeden datový soubor o klimatu a velikosti, o velikosti koncertu, společnost oznámila dodání 1, 2 petabajtů tohoto datového souboru. od 1. ledna do 30. dubna - mnohem více, než kdy bylo k dispozici v podobných časových rámcích ze serverů NOAA.

„Google to dokázal otevřít úplně novému publiku, “ řekl Kearns.

Není to jen déšť a sezónní teploty. Datové sady, které jsou nyní k dispozici u partnerů společnosti Big Data, zahrnují informace o rybolovu, mořské počasí a katalog pořádaný společností IBM, který uvádí aktuální, předpovědní, historické a geoprostorové datové soubory z center NOAA. Budoucí datové soubory mohou dokonce zahrnovat informace o ekosystémech a genomice rybolovu.

Partnerství však záměrně umožňuje spolupracovníkům vybrat si to, co chtějí nejvíce, což nese riziko, že temné, ale potenciálně vysoce hodnotné datové soubory neuvidí mnoho denního světla. Kearns říká, že je příliš brzy na to, abych řekl, co může být nakonec identifikováno jako cenné.

"Rozsah a dosah toho, co s těmito údaji může udělat, je pro nás ohromující, " dodal. "Nedokážeme si představit všechna možná použití."

Město Philadelphia v menší míře také spolupracovalo se soukromou entitou na zveřejňování datových souborů, které veřejnost uvedla, že by to bylo nejužitečnější. Ačkoli velikost města mu poskytuje každodenní operativní manévrovatelnost než federální entita, Phillyův model představuje jeden přístup ke strategizaci vydání dosud nezveřejněných datových souborů.

Azavea, softwarová firma se sídlem ve Philly, která se specializuje na vizualizaci dat, spolupracovala s hlavním informačním důstojníkem města Timem Wisniewskim na vývoji seznamu nepublikovaných datových souborů, o které by neziskové organizace ve městě mohly mít zájem. Wisniewski a Azavea použili k vytvoření seznamu jak online metadatový katalog města, tak vstupy z městských oddělení. Azavea a další partneři poté tento seznam nakoupili do neziskových organizací Philadelphia a zahájili soutěž OpenDataVote, soutěž pro veřejnost o hlasování o projektech předložených těmito neziskovými organizacemi o tom, jak budou používat své preferované soubory dat.

Nedávným vítězem byl návrh předložený neziskovou neziskovou organizací MicroSociety použít údaje o městech o dárcích do školské čtvrti Philadelphia k měření dopadu neziskových programů na školy.

"Můžeme říci, že toto neziskové město má zájem o konkrétní dataset, protože s tím může něco udělat a že mnoho lidí hlasovalo pro jeho podporu, " uvedl Wisniewski. "To nám umožňuje jít do oddělení s pevným případem použití v ruce, spíše než říct, hej, uvolnit tato data jen proto, že."

Stará data a nová

Co se však stane, i když existuje dostatek přístupu k datům, která již existují, když nové zásady a směrnice o financování znamenají, že samotná data prostě už nejsou generována? To je skutečný problém, řekla Ann Dunkin, která působila jako hlavní informační referent v Agentuře pro ochranu životního prostředí pod prezidentem Obamou a nyní vede IT v kalifornském okrese Santa Clara.

"Lidé se obávají starých dat, ale co mě nejvíce znepokojuje, je to, že nová data nejsou zpřístupňována stejným tempem jako dříve nebo vůbec nejsou generována, " řekl Dunkin.

V jedné analýze navrhovaného federálního rozpočtu na rok 2018 časopisem Science by mnoho vládních agentur realizovalo významné snížení svých rozpočtů na výzkum, pokud by byl rozpočet schválen. Zhruba 22 procentní snížení u Národních zdravotnických ústavů by vedlo k platbám výzkumným univerzitám; žádost o rozpočet NASA by odstranila iniciativy ke sledování emisí skleníkových plynů a dalších programů vědy o Zemi. Klimatické programy v NOAA by mohly být rovněž uzavřeny s podobnou úrovní škrtů.

Během jejího působení se EPA snažila o to, aby její shromažďování údajů bylo nástrojem, který by mohl kdokoli použít k pochopení zdraví svého okolí a jak na něj reagovat. Špatný den vzduchu? Nechoď ven. Proveďte znečištěnou cestu? Držte děti pryč.

„Očekávám, že se to bude pohybovat vzad, “ dodal Dunkin. "Mohl bych se mýlit, ale pokud říkáte, že nebudeme zpřístupňovat data, logickým závěrem jsou datové sady, které by pomohly veřejnosti také nebudou vůbec k dispozici nebo nebudou vygenerovány."

Wiggin Data Refuge pracuje na projektu vyprávění příběhů souvisejících s tímto problémem, který doufá, že bude katalyzovat více lidí, aby požadovali pokračující zveřejňování dat, a vytvoří základnu pro podporu pokračujících existujících programů sběru dat v celé federální vládě. Příběhy „Tři příběhy v našem městě“ zobrazují často skryté údaje o dopadu, které mají federální data na neočekávaných místech, počínaje nejprve ve Filadelfii, poté na jiných místech v celé zemi.

"Zásadní část hnutí Data Refuge, které přecházíme do další fáze, pomáhá lidem pochopit, jak široce používaná federálně vyráběná data jsou v jejich životě, " řekl Wiggin. "Ať už tomu říkáte klima, zdraví nebo veřejná bezpečnost, stále jsou to federální data. Je to v komunitách, na radnici, v policejním úsilí, v armádě. Musíme si pamatovat, jak důležitá jsou tato data."

Zdroje:

  • EPA Environmental Dataset Gateway: Portál metadat Agentury pro ochranu životního prostředí.
  • Open Data @ DOE: Otevřený datový portál Ministerstva energetiky.
  • Datový portál ekonomického výzkumu USDA
  • Zdroje NOAA Big Data: Odkazy na stránky platforem partnerů společnosti Big Data, které jsou hostitelem dat generovaných NOAA.
  • University of North Texas: Cyber ​​Cemetery: Archiv zaniklých, zastaralých nebo zavřených webových stránek vlády.
  • Stránka projektu archivace environmentálních dat a správy iniciativ: Nástroje, kód a aplikace související s objevováním a archivací vládních dat.
  • Internetový archiv Wayback Machine
  • Internetový archiv: Jak uložit stránky do Wayback Machine: Šest způsobů, jak nominovat stránky pro archivaci.
  • Kalifornská digitální knihovna: Webový archiv konce období: Kolekce webových stránek vlády USA uložených z procházení na konci roku, od roku 2008 do současnosti.
  • FreeGovInfo.info: Široký obsah s informacemi o datových portálech na státní a federální úrovni a archivy zpravodajských příběhů o otevřených datových problémech.
  • Climate Mirror: Sbírka dobrovolně shromážděných údajů o klimatu.

Tento příběh se poprvé objevil v časopisu PC Magazine Digital Edition. Přihlaste se ještě dnes a získejte více originálních celovečerních příběhů, zpráv, recenzí a jak tos!

Tito obhájci chtějí zajistit, aby naše data nezmizela