Geoinformaatika alused 9-16

L.9. Andmebaasid

Sisestatud ja toimetatud andmed - nii geomeetrilised kui ka mittegeomeetrilised - tuleb talletada niisugusel kujul, et nende kasutamine oleks võimalikult mugav ja efektiivne. On välja kujunenud üldised põhimõtted ja meetodid ‘tavalise’ (tekst- ja pilt-) info talletamiseks, mida vaatleme kõigepealt; seejärel vaatame, mida spetsiifilist lisab siia geograafilise info eripära.

Informaatika põhimõisted infoobjekt, andmemudel, andmebaas vt. konspektist "Mõningad informaatika põhimõisted".

termin "andmebaas" (data base, Datenbank) kõige üldisemalt:

andmebaas on korrastatud andmete hulk, mida säilitatakse andmekandjal minimaalse liiasusega ning mida võivad kasutada üksteisest sõltumatult mitu rakendusprogrammi.

andmebaas koosneb ühest või mitmest failist, mis on omavahel seotud:

- hierarhiline, võrk- ja relatsiooniline andmemudel,

- relatsioonilise andmebaasi puhul on andmefailid tavaliselt vaadeldavad "tabelitena", mis on omavahel seotud ja neid on võimalik kooskõlastatult kasutada;

- objektorienteeritud andmebaasid

- WYSIWYG: What you see is what you get

printsiip, mille kohaselt väljund ekraanile ja väljund paberile peaks olema samasugune - Windows-i programmides enamasti ongi nii, Idrisi vektorgraafika (PLOT) sellele printsiibile ei vasta, mis on ta oluline puudus.

9.1. Relatsioonilise andmebaasi põhimõisted

- seos andmetabeli ja andmefaili vahel: kirje [record], (andme)väli [(data) field], andmetüüp [data type], andmete struktuur [data structure], identifikaator, atribuudid;

- kirjete füüsiline ja virtuaalne järjestamine: sorteerimine ja indekseerimine (indeksi võti [key expression];

- relatsioonid;

- virtuaalsed andmetabelid (kasutajavaated).

9.2. Geograafilised andmebaasid

- seostatud failid (ja neid ohjav andmebaasijuhtimissüsteem e. andmeohjesüsteem [DBMS]), mis seostab omavahel asendi (mõnedes süsteemides ka topoloogia) ja atribuutide failid;

- hübriid- ja integreeritud geograafilised andmebaasid:

- esimesel juhul hoitakse ja ohjatakse geograafilisi andmeid atributiivandmeist eraldi (isegi eri tarkvaraga) ning seostatakse vastava liidese või import/export võimalustega (vt. L13),

- teisel juhul hoitakse ja ohjatakse atribuute koos koordinaatidega;

- rastermudelile vastav lihtsaim relatsioonilineandmebaas: antud kihi iga piksli väärtus kui identifikaator, millega on seostatud atribuudid eraldi tabeli(te)s;

- vektormudelile vastav lihtsaim relatsiooniline andmebaas: iga objekti (punkti, joone, eraldise, areaali vms.) identifikaator on seostatud atribuutidega andmebaasi(de)s;

- suuremate andmehulkade korral on tarvilikud vahendid, mis võimaldavad jaotada (kas loogiliselt või füüsiliselt) andmeid temaatiliselt (kihtideks) või/ja territoriaalselt (lehtedeks, i.k. tile);

9.3. Andmepäringud

Öeldakse, et geograafilised andmebaasid annavad GIS-i mõõdu välja siis, kui on võimalik teha päringuid nii asendi-info kui ka atribuutide kohta, nii andmetabelitest kui ka (digitaal)kaardist lähtudes;

- päringud atribuutide kohta (vt. "GIS. Sissejuhatav loeng" ja L15)

- nende ‘kandmine’ kaardile;

- territoriaalpäringud:

- mis siin on? (näiteks kursoriga ekraanilt)

- kus asub etteantud omadustega paik? (näiteks reklassifitseerides paigad ja saades vastusena boole'i kujutise;

- IDRISI (for DOS) koos andmeohje-tarkvaraga võimaldab kõiki niisuguseid päringuid (vt. ka L12), kuid see seos realiseerub mitme mooduli koostöös ja on rohkem orienteeritud rakendusprogrammistile kui lõppkasutajale; IDRISI for Windows (IfW) omab selle jaoks spetsiaalse tarbijaliidese.

9.4. Andmeohjekeel XBASE (sissejuhatus, süntaks)

Vaatleme alljärgnevalt IDRISI (for DOS) jaoks on kõige sagedamini kasutavate andmebaasi ohjesüsteemide üldist iseloomustust. See on vajalik edaspidiseks tööks IDRISI-ga. Kuna andmebaaside kasutamise kohta on õppekavas eraldi kursus (BGGG.01.008), siis “Geoinformaatika alused” ei sisalda enam praktikumi andmeohjesüsteemide kohta, kuid silmas pidades mittegeograafidest IDRISI kasutajaid, on alljärgnevalt antud suhteliselt põhjalikum ja terviklikum käsitlus dBASE III+ näitel (mis koos praktikumiga 4-5 annaks elementaarse ettekujutuse relatsioonilise andmeohjesüsteemi kasutamisest).

Tekstitöötluse k?rval on tabeltöötlus (näiteks hetke levinuim programm selleks on Microsoft Excel) - ning sealhulgas jooniste valmistamine - ja andmebaaside kasutamine levinumaid arvutikasutusviise. Kõige levinumad andmeohjepaketid (DBMS) IBM-ühilduvatel personaalarvutitel on nn. dbase-tüüpi [loetakse 'dii-beiss'], mis rahuldavad rohkem või vähem relatsiooniliste andmebaaside nõudeid ja ohjavad andmetabelite DBF-laiendiga faile:

- dBASE (dBASE II, dBASE III, dBASE III+, dBASE IV v.1.x, dBASE IV 2.0, dBASE V);

- FoxBASE (FoxBASE+ , FoxBASE+ 2.10);

- FoxPro (FoxPro 1.0...2.0...2.6..., Visual FoxPro);

- Clipper (Clipper 5.0...);

- standartsete dbf-failide vaatamiseks DBVIEW (NC utiliit).

Millist neist harudest parimaks pidada, oleneb arvutiressurssidest, kasutaja vajadustest ja paketi versioonist (värskeim on tavaliselt hetkel parim). Mitmed teised, Eestis seni vähem kasutamist leidnud paketid (näiteks Paradox ja Access) on lõppkasutajale paremad; neist viimane võidab populaarsust Microsoft Office'i koosseisus ja on ka DBMS IfW jaoks.

Vaatamata võimaluste ja keerukuse kasvule arenevas arvutiasjanduses, on dbase-tüüpi tarkvara puhul säilitatud küllaltki suures osas omavaheline ühilduvus ning nad kõik kasutavad sarnast andmekirjeldus- ja andmeohjekeelt (vt. konspekt 'Informaatika põhimõisted'), mida on hakatud nimetama Xbase.

Lähem tutvus mõne selle pere uuema paketiga toimub kursuse "Andmebaaside loomine ja kasutamine" raames, käesolevas vaatame DBASE III Plus-i (kui prototüübi) üldist ülesehitust niipalju, kui on vaja GIS-i üldise funktsioneerimise mõistmiseks. Ka aitab see praktiliselt seostada omavahel Idrisi kujutis- ja XBase'i atributiivinfot.

9.4.1. Üldine ülesehitus.

Andmeohjesüsteem loob keskkonna, mis võimaldab lahendada peamisi andmete sisestamise, talletamise, töötlemise ja väljastamise probleeme erineval tarbijasõbralikkuse tasemel. DBASE III Plus suudab täita neid ülesandeid väiksemate andmehulkade jaoks mittegraafilise väljundiga.

- töö selles keskkonnas toimub kas:

1) vastava keele (XBase) käskude alusel, mis sisestatakse käsurealt nn. punkt-viiba re_iimis (nn. kogenud kasutaja);

2) dBase'i moodulite (töötavad omavahel seostatuna ja ei ole -erinevalt Idrisi-st - iseseisvad .exe moodulid!) poolt pakutavate menüüdega, mille valikute varal sünteesitakse kokku vajalik käsk (nn. algaja tööre_iim), või

3) kasutaja poolt koostatud ja dBase'i keskkonnas käivitatud programmidega.

- konkreetsed andmed ja andmetöötluseks vajalik info paikneb reeglina paljudes omavahel seotud failides, mida kasutatakse järgmiste printsiipide (vt. andmebaaside mõiste ja andmebaasidele esitatavd nõuded) realiseerimiseks:

- andmete virtuaalne järjestus peab olema operatiivselt muudetav ega pea kokku langema nende füüsilise järjestusega,

- erinevate kasutajate (erinevad füüsilised kasutajad, aga ka erinevad projektid, erinevad programmid, erinevad väljundseadmed) jaoks peab olema võimalik samu andmeid esitada erineval viisil (erinevate vormingutena),

- andmete teisendamine (ühikute muutmine, summeerimine jms.), lisamine ja kustutamine peab olema võimalik ka virtuaalselt (st. ilma andmeid tegelikult muutmata).

- andmeohjeks kasutab DBASE III Plus kuni 10 nn. tööpiirkonda (A,B,C...,J), millest igaühes võib avatud olla üks andmebaasifail koos oma abifailidega; aktiivne on igal hetkel ainult ühe tööpiirkonna üks kirje ('ühe tabeli üks rida'); relatsioon mõne teise tööpiirkonnaga tähendab, et iga muutuse tulemusena aktiivses tööpiirkonnas muudetakse etteantud võtmeavaldise alusel ka selle teise piirkonna aktiivset kirjet ('leitakse selle tabeli vastav rida'), mis võimaldab kasutada virtuaalset andmebaasi, mis tegelikult koosneb erinevate andmebaasifailide väljadest.

- andmetöötluse ja programmeerimise hõlbustamiseks saab vahetulemusi, ajutisi andmeid jms. talletada nn. mälumuutujatena (identifitseeritakse kuni 10-sümbolilise nimega), mis oma tüübilt ja kasutuselt on analoogsed aktiivse kirje andmevälja(de)ga, ja mida saab ka kompaktselt salvestada nn. mälumuutujafaili (.mem).

- DBASE III Plus-i tähtsamad menüüdega juhitavad moodulid on:

- ASSIST, käskude süntesaator;

- HELP, abimees, annab abistavat teavet;

- APPEND, BROWSE, EDIT, andmete sisestamine, sirvimine ja toimetamine;

- CREATE/MODIFY <STRUCTURE, SCREEN, REPORT, LABEL, VIEW etc.>, vastavat tüüpi failide loomine/modifitseerimine;

- SET, andmeohjesüsteemi juhtparameetrite seadistamine (sättimine).

- eespoolkirjeldatud vahendite efektiivseks kasutamiseks omab dbase-keel umbes 100 korraldust ja umbes 100 andmeohjet abistavat funktsiooni.

9.4.2. XBASE-keele põhielemendid ja süntaks

- sõltumata sellest, kas töö andmeohjesüsteemiga toimub abimenüüde (ASSIST), käsurea või programmre_iimis, on keskseks üksuseks käsk (operaator) järgmise üldkujuga:

<käsu verb> [<kehtivusvaldkond>] [<avaldiste loetelu>] [;] [<piirangud>] [<täitmise tingimused>]

kehtivuspiirkond: {ALL, NEXT <n>, REST, RECORD <n>}

ALL - päring kehtib kõigi kirjete kohta;

NEXT - päring kehtib järgmise n kirje kohta;

RECORD - päring kehtib n-nda kirje kohta;

REST - päring kehtib k?igi ülejäänud (st andmetabelis tagapool olevate) kirjete kohta.

- avaldiste loetelu: üks või mitu avaldist, mis eraldatakse komadega; avaldis on operatsioonid (aritmeetilised, loogilised) keele põhielementide (konstandid, mälumuutujad, andmeväljad, funktsioonid) vahel

- konstandid on:

- stringid {'abcd', "Tallinn", [12,5], "1:500",...}

- arvkonstandid {0, 12.5, 125, 1/3, 0.667,...}

- loogilised konstandid {.T., .F., .Y., .N.}

- kuupäevad kujul aa/bb/cc, kus see, millised on päeva, millised kuu ja aasta numbrid, määratletakse süsteemi seadistamisega

- operatsioonid on:

- aritmeetilised {+, -, *, /, **}

- loogilised {<, >, =, <>, #, <=, >=, $, .NOT., .AND., .OR.}

- stringoperatsioonid:

'AB '+'CD' = 'AB CD'

'AB '-'CD' = 'ABCD '

operatsioonid saavad toimuda tüübilt sobivate elementide vahel; sama nime korral (pole soovitav!) on andmeväljadel prioriteet võrreldes muutujatega.

- 'semikoolon' näitab käsu jätkumist järgmiselt realt

- piirangud: loogiline tingimus (FOR-lause), mille alusel täidetakse käsk vaid nende kirjete puhul, kus see loogiline tingimus on tõene;

näiteks piirang FOR NIMI="KASK" põhjustab käsu täitmise ainult nende tabeli ridade kohta, kus veerus 'NIMI' on kirjutatud 'KASK';

- täitmise tingimused: loogiline tingimus (WHILE-lause), mille alusel täidetakse käsku ainult niikaua kui see loogiline tingimus on tõene.

- funktsioon on oluline abivahend teisendamaks (füüsiliselt või virtuaalselt) andmeid esitamiseks ja analüüsiks sobivale kujule;

- kasutatakse tavaliselt kujul:

<mälumuutuja>=<funktsiooni nimi>(<parameetrite loetelu>)

- näiteid:

- TULEM1=RECNO() -> muutujasse TULEM1 salvestatakse aktiivse kirje number;

- tulem2=STUFF('peamees',2,1,'üh') -> muutujasse TULEM2 salvestatakse tekstikonstant 'pühamees': 1. parameetris asendatakse alates 2. parameetris antud positsioonist 3. parameetris antud hulk sümboleid 4. parameetris antud sümbolitega;

- tulem3=upper('jüri') -> tulem3='JüRI';

- tulem4=INT(10.95) -> tulem4=10 täisosa võtmine;

- tulem5='A'+STR(2*5) -> tulem5='A10' arvutatakse 2*5, vastus (10) muudetakse stringiks ja liidetakse A-ga.

9.4.3. Andmebaasifaili struktuur

Andmebaasi struktuuri määratlemine tähendab tabeli veergude kirjeldamist dBASE-ile arusaadaval viisil (vt. tabel ja sellele vastav andmefaili kirjeldus XBase'is). Välja nimi v?ib olla kuni 10 sümbolit, ta peab algama tähega ega tohiks sisaldada täppidega tähti. Ainsa kirjavahemärgina on lubatud allatõmbamiskriips (_).

Andmed võivad olla kas tekstikonstandi-tüüpi (Character), numbrilised (Numeric), loogilised (Logical), kuupäevad (Date) või märkmed (Memo).

Näidistabel

KLIIMA-ANDMETE TABEL

_____________________________________________________________________________

Jaam Laius Pikkus Aasta Jaan.t Juuli Maxt Mint Sad. Max. Aasta

_____________________________________________________________________________

1. Tallinn 59°25' 24°48' 1805 -5.3 16.5 32 -34 600 921 1981

2. Tartu 58°23' 26°43' 1866 -6.7 17.1 35 -39 607 842 1990

3. Pärnu 58°22' 24°31' 1842 -5.4 17.5 35 -35 603 946 1981

4. Tooma 58°52' 26°16' 1911 -7.1 16.6 32 -39 635 939 1981

5. Kuusiku 58°58' 24°44' 1925 -6.5 16.4 33 -41 694 1017 1990

6. Tiirikoja 58°52' 26°57' 1923 -6.7 17.1 34 -38 618 781 1981

7. Vilsandi 58°23' 21°49' 1865 -2.3 16.3 33 -32 583 776 1990

8. Türi 58°49' 25°25' 1925 -6.5 16.6 33 -38 698 1041 1981

9. V?ru 57°51' 27°01' 1911 -6.9 17.2 34 -43 691 869 1930

10. Kunda 59°31' 26°33' 1901 -5.6 16.6 33 -35 587 862 1981

11. Narva 59°23' 28°10' 1947 -7.2 17.2 34 -39 677 830 1987

12. Viljandi 58°22' 25°35' 1897 -6.5 16.7 33 -36 708 1001 1981

13. Paldiski 59°23' 24°02' 1886 -4.4 16.0 32 -30 543 757 1925

____________________________________________________________________________

Tabelis on toodud järgmised andmed:

1. Geograafiline laius (Laius)

2. Geograafiline pikkus (Pikkus)

3. Jaama asutamise aasta (Aasta)

4. Jaanuarikuu keskmine õhutemperatuur (Jaan.t)

5. Juulikuu keskmine õhutemperatuur (Juuli)

6. Õhutemperatuuri absoluutne maksimum (Maxt)

7. Õhutemperatuuri absoluutne miinimum (Mint)

8. Aasta keskmine sademete summa (Sad.)

9. Maksimaalne esinenud sademete aastasumma (Max.)

10. Maksimaalse sademete aastasumma esinemise aasta (Aasta)

Sellele vastav andmebaasifaili struktuur

Ekraanile tekib väljade struktuuri kirjeldus järgmisel kujul:

1	JAAMA_NIMI	Character	12
2	GEO_LAIUS	Numeric	5	2
3	GEO_PIKKUS	Numeric	5	2
4	ASUT_AASTA	Numeric	4	0
5	T_JAANUAR	Numeric	4	1
6	T_JUULI	Numeric	4	1
7	T_MAX	Numeric	2	0
8	T_MIN	Numeric	3	0
9	S_AASTA	Numeric	3	0
10	S_MAX	Numeric	4	0
11	S_MAX_AA	Numeric	4	0
12		Character

Esimese välja pikkus on 12 sümbolit; teise, numbrilise välja pikkus on 5 numbrit, neist 2 numbrit enne ja 2 numbrit peale koma...

9.4.4 Päringud

- andmete otsimine ja esitamine toimub vastavalt esitatud päringule (päringutüübid vt. [1]);

- vaatleme mõned lihtsad näited eeltoodud tabeli baasil (lähemalt vt. praktikum 4-5 "dBase III Plus"):

- Päring: näidatagu kõigi nende jaamade nimesid, keskmisi aasta sademete summasid ja maksimaalseid aasta sademete summasid, milliste keskmine aasta sademete summa on suurem kui 650 mm.

Valime käsu Display (ekraanile kuvamine). Sellele vastav (menüüde abil koostatav, programmist või käsurealt sisestatav) korraldus oleks:

Display all jaama_nimi, s_aasta, s_max for s_aasta>650;

- Päring: milliste jaamade asukohad jäävad ristkülikusse, mille alumine vasak nurk on 58°00'pl; 25°00'ip ning parem ülemine nurk on 59°00pl;26°00ip?

DISPLAY ALL JAAMA_NIMI, GEO_LAIUS, GEO_PIKKUS;

FOR GEO_LAIUS > 58 .AND. GEO_LAIUS < 59;

.AND. GEO_PIKKUS > 25 .AND. GEO_PIKKUS < 26

L10. Raster- ja vektormudeli võrdlus. Raster - vektor teisendused. Projektsiooniteisendused.

Geoinformaatika algusaegadest peale on diskuteeritud selle üle, kumb andmemudel on parem, raster või vektor. Kunagine diskussiooniküsimus “Kumb on parem?” on tänapäevaks asendunud küsimusega “Missugustes tingimustes millist neist eelistada ja kuidas igakordselt teisendada andmeid just sellele kujule, nagu parajasti vaja on?”

10.1. Raster- ja vektormudeli võrdlus

- kumb parem on, ei saa kontekstiväliselt öelda;

- näiteks on toodud klassikaline võrdlustabel, kus kaasajalgi olulised punktid on suuremas, oma tähtsust kaotavad punktid väiksemas kirjas; kommentaarid on joondatud paremale:

Tabel

Vektor ja rastermeetodite võrdlus

(Burrough, 1986, p. 36)

VEKTORMEETOD

Eelised:

* Nähtumusliku andmestruktuuri [phenomenological data structure] hea esitamine.

* Kompaktne andmestruktuur.

* Topoloogia on seoste v?rgustikuga [network linkages] täielikult kirjeldatav.

* Täpne graafika.

Kaasajal vahe pigem andmete esitamise täpsuses, mis

vektormudeli puhul võib olla mõni cm; nii peen raster pole mõistlik

* Võimalik on graafika ja atribuutide taasesitus [retrieval], toimetamine ja generaliseerimine.

Puudused:

* Andmestruktuurid on keerukad.

Keerukamad võrreldes rastermudeliga

* Erinevate vektorkujul polügonide kaartide v?i vektorkaardi ja rasterkaardi kombineerimine (kattuvusülesanded) valmistavad raskusi.

Tänapäeval raskusi ei valmista, kuid on keerukam ja täpsem

* Modelleerimine on keerukam, kuna igal eraldisel on erinev topoloogiline kuju.

* Kuvamine ja plottimine v?ib olla kulukas, eriti k?rg-kvaliteetselt, värvide ja viirutustega.

* Tehnoloogia on kulukas, eriti keerukama tark- ja riistvara puhul.

* Ruumiline analüüs ja [andmete] filtreerimine polügonide sees pole v?imalik.

RASTERMEETOD

Eelised:

* Lihtsad andmestruktuurid.

* Kaardiandmete kombineerimine kaugseire andmetega ja kattuvusülesannete lahendamine on lihtne.

* Erinevad ruumilise analüüsi viisid on lihtsad.

* Modelleerimine on lihtne, kuna igal ruumilisel üksusel on sama suurus ja kuju.

* Tehnoloogia on odav ja areneb energiliselt.

Puudused:

* Graafilised andmed on mahukad.

* Suurema rastri (eraldusüksuse) kasutamine, vähendamaks andmemahukust, tähendab et tunnetuslikult tajutavad struktuurid v?ivad kaduma minna ehk siis on v?imalik oluline infokadu.

* Jämeda rastriga kaardid on tunduvalt inetumad, kui peente joontega joonestatud kaardid.

* Seoste v?rku on raske luua.

* Projektsiooniteisendused on aegan?udvad, kui just ei kasutata spetsiaalset riist- v?i tarkvara.

Ilmneb selgesti ka Idrisis

10.2. Raster - vektor teisendused

- reaalses töös geograafiliste andmetega rakendatakse konkreetsete projektide puhul nii raster- kui ka vektormudelit, mõnikord ka üheaegselt, selleks et kasutada kummagi mudeli eeliseid ja vältida puudusi;

- seetõttu on vajalikud teisendusprogrammid;

- rasteriseerimine sisulisi probleeme ei tekita

- IDRISI-s: POINTRAS, LINERAS, POLYRAS;

- vektoriseerimisel probleemid joonelementidega

- IDRISI-s: POINTVEC (v.4.1), GROUP + POLYVEC

- saadavad jooned kipuvad olema ‘trepiastmed’.

10.3. Projektsiooniteisendused

- kumera pinna kujutised tasapinnal on alati mingis projektsioonis (vt. kartograafia loengumaterjalid);

- lisaks projektsioonierinevustele eksisteerivad ka erinevused referentssüsteemis - kuidas geograafilised koordinaadid on saadud;

- eeltoodud põhjustel tuleb reaalses töös kaartidega teisendada koordinaate vastavalt etteantud parameetritele ja teisenduseeskirjadele, milleks enamikes GIS-ides on spetsiaalmoodulid või allosad.

10.3.1. Projektsiooniteisendused IDRISI-s

- teisendusteks ühest teadaolevast projektsioonist teise on kasutatav moodul PROJECT, mis toetab järgmisi projektsioone:

- Mercatori normaal- ja põikprojektsioon,

- Lamberti konformne kooniline,

- ruutlaba (Plate Carree),

- geograafilised koordinaadid;

- kui projektsioon (selle parameetrid) pole teada, saab kasutada empiirilist teisendusviisi: kaardi koolutamist, juhul kui on piisavalt reeperpunkte mõlemas (lähte- ja tulem-) projektsioonis;

- projektsiooniparameetrite jaoks on spetsiaalne failitüüp: referentsfail (laiendiga .REF); neid on paketiga kaasas üle 400 (ameeriklaste seisukohast kõik mis vaja), lisaks on neid võimalik ise kergesti luua, teades vajalike parameetrite väärtusi:

- referentsellipsoid ja selle pooltelgede pikkused, datum ja selle Molodenski konstandid,

- projektsioonispetsiifilised parameetrid, näiteks Mercatori põikprojektsioonil puutemeridaan (origin long), koordinaatide alguspunkti laiuskraad (origin lat), X-koordinaadile liidetav konstant (origin X), Y- koordinaadile liidetav konstant (origin Y) ja mastaabikordaja;

- rasterfailide projektsiooniteisendustel, kus rastrielementidel on suurus, teisendatakse nende väärtused kas ‘lähima naabri’ meetodil või bilineaarselt.

L11. Kaardialgebra. Ruumilised seosed territoriaalsel analüüsil. Ruumilise info töötlus

Sõltuvalt sellest, kas me kasutame analüüsil peamiselt raster- või peamiselt vektormudelit, on tekkivad probleemid ning nende rõhuasetus veidi erinevad.

11.1 Kaardialgebra

Kaardialgebra on lööksõnaline nimi kartograafilisele modelleerimisele arvutil, mis pärineb C. Dana Tomlini töödest (alates doktoritööst 1983). Kaardialgebra pole mitte mingi meetod, vaid lähenemisviis. Nii nagu traditsiooniline algebra formuleerib teatava keele, nii on ka kaardialgebra aluseks teatud keel kartograafiliseks modelleerimiseks, mille abil saab teostada operatsioone kaartidega, sõltumata nende konkreetsest sisust.

Sellele ideele tuginev tarkvara lubab teostada kartograafilist modelleerimist nö. professionaalses keeles.

Kaardialgebra peaks olema - sõltumata konkreetsest keelest kartograafilise mõtlemise vahendiks, milles peaks oskama käsitleda tüüpilisi geograafias esile tulevaid probleeme.

11.1.1. Operatsioonid

U=f{A,B,C,...}.

Sõltuvalt f, A,B,C,... iseloomust võib mitmeti jagada, näit. (jaotus P.A. Burrough' järgi, näitena toodud vastavaid IDRISI mooduleid):

- punkti ümbernimetamine/värvimine; (elementaar)areaali ümbernimeta-mine/värvimine (RECLASS, ASSIGN);

- punktile omistatakse teda ümbritseva (elementaar)areaali omadused (AREA);

- punkti omadusi laiendatakse isotroopiliselt (DISTANCE);

- punkti omadusi laiendatakse pöördvõrdeliselt kaalutud kaugusele (COST);

- punkti väärtus interpoleeeritakse tema ümbruskonna järgi (INTERPOL);

- omaduste levik punktis barjääri puhul (COST/COSTGROW);

- omaduste levik punktist pinda mööda (VARCOST).

11.1.2. Tarkvara

- esimene C.D. Tomlini enda loodud MAP - Map Analysis Package, mis töötas Fortran keele baasil;

- pMAP - selle personaalarvuti variant, mille õppevariant tMAP (tutor of MAP) on vabalt kopeeritav ja olemas ka TÜGI-s;

- MapBox - firma Decision Images poolt loodud pakett IBM PC-de jaoks, mille õppevariant olemas ka TÜGI-s (paralleelselt raamatuga: C.D. Tomlin (1990) Geographic Information Systems and Cartographic Modeling. Prentice-Hall Inc., Englewood Cliffs. 249 pp.);

- MAP II - pakett Macintosh arvutitele, TÜGI-s olemas;

- kaudselt on kaardialgebra realiseeritud paljudes rastermudelitele tuginevates pakettides, k.a. IDRISI:

- põhilisteks selles seoses moodulid SCALAR, TRANSFORM, OVERLAY, aga kasutatavad kaardialgebraks on enamus mooduleid;

- IDRISI-s teostatakse korraga üks elementaaroperatsioon;

- kasutajakeel tuleks ise luua.

11.1.3. Näiteid

- MAP II sisaldab 27 kaardialgebra funktsiooni, mis kokku võimaldavad lahendada keerukaid modelleerimisülresandeid:

MINIMIZE map1 versus map2 -> m3_ij=min(m1_ij, m2_ij)

SPREAD map1 to 50 through roadA over terrain;

- IDRISI praktikumid 6 ja 7 kui lihtsad näited;

- erosiooni modelleerimine (USLE mudeli baasil), fakultatiivne

—> materjalide saamiseks pöörduda õppejõu poole.

11.2. Ruumilised seosed territoriaalsel analüüsil

Territoriaalsel analüüsil on ühelt poolt geograafilised objektid (punkt-, joon-, pindobjektid) seotud oma atribuutidega, kusjuures see väljendub seosega kartograafiliste ja atributiiv-andmebaaside vahel. Teiselt poolt on ruumilised objektid ka omavahel seotud:

- punkt-punkt -> antud punktile lähim punkt (nearest to),

- punkt-joon -> antud joonele lähim punkt,

- punkt-pind -> pindobjekt kus asub antud punkt (contained in),

- joon-joon -> ristumine, suubumine, "lähemal kui"

- joon-pind -> antud pindobjekti piiravad jooned,

- pind-pind -> kattumine, piirnemine, "lähemal kui".

Neid seoseid kajastatakse kas relatsioonidena või uute atribuutidena. Nende seoste arvestamise võime on see, mis teeb arvutikartograafiast või infosüsteemist geograafilise infosüsteemi.

11.2.1. Analüüs ühe objektiklassi piires

- sisuliselt kõik rastermudeli analüüsid, mis kasutavad atribuutide tabeleid (andmebaase) omaduste ümber-defineerimiseks;

- objektide omaduste (pindala, sagedus, tihedus jne.) analüüs.

11.2.2. Mitme klassi objektide analüüs

- optimaalse (mingis mõttes "parima") tee leidmine (sõlmed-kaared võrgustikus; areaalid ja nende topoloogia);

- uute objektide moodustamine:

- tuntuim näide: polügonide kattuvusülesanded (polygon overlay) vektormudeliga, kus luuakse uute, tekkivate objektide sõlmed, kaared, topoloogia ja atribuudid.

- paljude ülesannete käigus tekkivate uute objektide automaatne moodustamine ning sellele vastavate muudatuste tegemine atribuutide andmebaasides on GIS-i võimsaim funktsioon;

- reaalsete ülesannete puhul väga arvutusmahukas ka kaasaegse riistvara puhul.

11.3. Ruumilise info töötlus

- veel üks "vaade" geoinformaatikale ühele osale, mis keskendub andmetöötluse nendele probleemidele, kus asendisuhted on rohkem või vähem tähtsad;

- nimetatakse ka geostatistikaks või territoriaalsete andmete statistikaks (statistics of spatial data);

- peamised valdkonnad on:

- territoriaalsed jaotused, valimi ja representatiivsuse küsimused;

- ruumiline autokorrelatsioon ja regresioon;

- ruumiline interpoleerimine (vt. eraldi konspekt, küsida õppejõu käest);

- territoriaalsete objektide mitmetunnuseline klassifitseerimine (vt. praktikumijuhend nr. 14, fakultatiivselt IDRISI image processing ring) ning rajoneerimine

- aeg-ruumiliste struktuuride ja interaktsioonide uurimine;

- olemas neile meetoditele keskenduv valikkursus “Ruumianalüüsi meetodid” (BGGG.01.010, ülemastmele ja kraadiõppuritele), eeldusaineteks kaugseire alused (BGGG.01.013), andmeanalüüsi alused (MTMS.01.024 või adekvaatsed teadmised).

L12. GIS analüüsivahendina. IDRISI analüüsivahendina

GIS-i funktsioonidest (andmete organiseerimine, seostamine, aktualiseerimine; päringute töötlemine ja otsing; andmeesitus; andmetöötlus) on viimane kõige ebamäärasemalt piiritletud; sageli toimub keerukam andmetöötlus omaette pakettides, mida GIS võimaldab integreerida.

Suhteliselt tinglikult võib jagada: meetodite järgi, rakenduste järgi.

12.1. Analüüsimeetodid

- temaatilise kartograafia (desktop mapping) võib siia alla panna osaliselt ja tinglikult:

- valitud territoriaalobjektide teatud omaduste (atribuutide) kujutamine kaardil,

- töödeldakse reeglina vaid atributiivandmeid,

- seos andmebaaside vahel ühepoolne: atribuutide omadused-> geograafilised objektid;

- arvuti loob paljuvariantsuse võimaluse, tähtis on disain, seega on rohkem andmeesituse küsimus (arvutigraafika, digitaalkartograafia ja multimeedia rakendused);

- projektsiooniteisendused (COGO):

- teisendatakse reeglina vaid geograafiliste andmebaaside koordinaatosa;

- jagunevad (kasutatakse sõltuvalt sellest, kas täpne projektsioon on teada või mitte):

- analüütilised (täpsete sfäärilise trigonomeetria valemite alusel ühest projektsioonist teise) ning

- empiirilised (valitud punktipaaride alusel leitakse empiiriline üleminekufunktsioon kui teatud mõttes parim lähend ning selle alusel teisendatakse) - nn. kummikiletehnika e. rubber sheeting;

- andmete statistiline analüüs:

- territoriaalandmete statistiline analüüs,

- geograafilisi andmebaase kasutatakse valimi saamisel, atribuutide leidmisel (pindalad, standardhälbed, korrelatsioonid jne.) ja tulemuste esitamisel (kartodiagrammid);

- kaardialgebra:

- matemaatilised operatsioonid geograafiliste objektidega,

- lihtsaimaks näiteks on loogilised operatsioonid kaardikihtidega;

- ruumilise interpolatsiooni meetodid:

- punktandmete alusel anda territoriaalne hinnang;

- rajoneerimise meetodid:

- territoriaalsete objektide mitmetunnuseline klassifitseerimine, kus topoloogilised suhted esitavad teatud lisapiiranguid;

- planeerimis- ja optimiseerimismeetodid:

- optimaalse tee leidmine (võrgustikus või statistilisel pinnal),

- paigutusülesanded (lineaarne planeerimine, mitmekriteeriumiline resursside jaotus jt.).

12.2. Rakendused

- regiooni kirjeldamine;

- kosmosefotode töötlemine;

- protsesside ja nähtuste modelleerimine;

- ruumiliste ning ajalis-ruumiliste seoste ja vastuolude leidmine;

- territoriaalplaneerimine

12.3. IDRISI analüüsivahendina (mõned näited)

andmebaaside ohjamine [database management]

- .dbf <—> .val <—{EXTRACT} {ASSIGN}—> .img

geograafiline analüüs [geographical analysis ring]:

- OVERLAY: 2 kaardikihi vastavate pikslite liitmine, lahutamine, korrutamine jms.(9 operatsiooni);

- SCALAR: ühe kaardikihi operatsioonid konstandiga (selle liitmine, lahutamine, korrutamine, jagamine, astendamine);

- TRANSFOR: kaardikihi pikslite teisendamine ühega etteantud 15 funktsioonist (näit.: z=sin(a));

- DISTANCE, COST, VARCOST, DISPERS, RESULTAN: iga punkti geograafiline kaugus lähimast etteantud tüüpi punktist, sõltuvalt territooriumi omadustest ja anisotroopsusest;

- PATHWAY: optimaalse tee leidmine statistilisel pinnal:

- ALLOCATE: rastrielementide jaotamine lähimate naabrite vahel;

- THIESSEN: Thiesseni polügonide konstrueerimine;

- SURFACE: digitaalse kõrgusmudeli nõlva kalde, ekspositsiooni ning analüütilise varjutuse leidmine;

- FILTER: kujutise silumine 3x3 elemendi libiseva kaalutud keskmisega;

- WATRSHED: veelahkmejoone leidmine digitaalsel kõrgusmudelil (statistilisel pinnal);

- VIEWSHED: vaatepiirkonna leidmine digitaalsel kõrgusmudelil (statistilisel pinnal);

- HNTRLAND: 'nõudlus-pakkumine' suhete rahuldamine - nõudlustsentrite (vajaduste) ja resursside (pakkumiste) kaartide pealeasetamisel määratakse iga nõudlustsentri 'tagamaa', samuti ressursside ülejäägi ja defitsiidi alad;

pilditöötlus [image processing ring]

- STRETCH: jaotuse 'sabade mahalõikamine' (andmekogumist teatud % ekstreemsete väärtustega andmete ärajätmine);

- RESAMPLE: nn. kummikiletehnika (vt. 11.1), võimaldab muuseas ka kujutist pöörata;

- TRANSPOS, EXPAND, CONTRACT, CONCAT: vastavalt kujutise pööramine, tihendamine, hõrendamine ja kujutiste ühendamine;

- WINDOW, SUBSET: vastavalt ühest ja mitmest kujutisest etteantud tüki välja eristamine;

- COMPOSIT, NDVICOMP: sünteeskujutiste loomine komponentkujutistest;

- CLUSTER, PIPED, MINDIST, MAXLIKE: automatiseeritud klassifitseerimine vastavalt klasteranalüüsi, paralleelipeedi, etalonidest lühima kauguse ja etalonidele suurima sarnasuse alusel;

statistiline analüüs

- HISTO: kujutise (elementide väärtuste) histogrammi loomine;

- REGRESS: kahe kujutise vastavate pikslite vahelise regressiooni leidmine (võimalik ka maskida!);

- AUTOCORR: leitakse 1. astme ruumiline autokorrelatsioon;

- INTERPOL, TREND: territoriaalne interpoleerimine lähemate punktide kaalutud keskmise alusel või empiiriliselt leitud trendpinnaga;

- CROSSTAB: kahe kujutise pikslite jaotuse risttabeli ja sellele tuginevate näitajate leidmine:

- RANDOM: juhuslike väärtustega kujutise loomine vastavalt etteantud jaotusele;

- SAMPLE: kujutise pikslitest valimi moodustamine (punkt-tüüpi vektorfail);

- PATTERN: maastikuökoloogias kasutatavate mitmekesisuse ja varieeruvuse näitajate leidmine 3x3 libiseva aknaga.

L13. Kartograafiliste ja atributiivandmete seostamine

See seostamine on võimalik nii raster kui ka vektormudeli korral, kuid viimasel juhul on ta loogilisem, ehkki tehniliselt mitte alati lihtsam. Lihtsaim viis on omistada igale kartograafilisele objektile unikaalne identifikaator (nn. ID) ja talletada atribuudid andmetabeli(te)sse, kus igale objektile vastab üks kirje, mille võtmeväljaks on ID.

vaatleme küsimust hübriidse raster-GIS-i puhul:

- objektiks on rastrielement (piksel) või nende grupp,

- ainus objektidevaheline suhe on 'piksel-pikslite grupp',

- seostamine tähendab, et mooduli(te)le tuleb edastada vajalike ID-de loetelu (võimaldab õigeid objekte üles leida) koos vajalike parameetritega:

- näiteks metsatuka (kui sidusa pikslitegrupi, mis moodustab polügoni) pindala või ümbermõõt määratakse vastava ruumilise analüüsi mooduli poolt ja antakse edasi atribuute ohjavale moodulile, kirjutamaks neid kui uusi atribuute andmetabelisse;

- näiteks jõgede vooluhulga ja reoainete sisalduse alusel, mis on antud atribuutide tabelis, määratakse atribuute ohjavate moodulite poolt kujutisel kasutatav joone tüüp ja värv ning antakse need edasi kartograafilist kujutist loovale moodulile.

vektor-GIS-i puhul:

- objektideks on punktid, sõlmed, jooned, polügonid, areaalid,

- arvesse tulevad ka objektidevahelised geomeetrilised suhted (vt.11.2), mis võivad väljenduda kas suhet iseloomustavad andmetabelis (näiteks tabel POLYGON: {ID, SÕLMED,KAARED}) või tabelitevaheliste relatsioonide kaudu (tabelite POLYGON ja KAAR vahel, näiteks),

- kattuvusoperatsioonide puhul on võimalik uute objektide tekke alusel andmebaase automaatselt korrigeerida.

13.1. Ruumiliste ja atributiivandmete seostamine programmis IDRISI 4.0 ja 4.1

- tegemist on klassikalise hübriidmudeliga;

- atributiivandmeid võib ohjata üsna suvaline programm, eelistatum on kas tabeltöötlus- või andmeohjepakett, dBase-iga andmevahetuseks on IDRISI-l isegi spetsiaalmoodul (DBIDRIS);

- IDRISI moodulid, mis produtseerivad atribuutidena kasutatavaid andmeid, võimaldavad tulemuse salvestada väärtusfaili (.val-faili), mis on kujul:

- väärtusfail on imporditav XBase'i aktiivse .dbf-faili lõppu (lisades vajadusel ka kehtivuspiirkonna, piirangu ja täitmise tingimuse) käsuga:

APPEND FROM <.val-faili nimi> TYPE DELIMITED WITH BLANK

- väärtusfail on exporditav XBase' aktiivsest .dbf-failist (lisades vajadusel ka kehtivuspiirkonna, piirangu ja täitmise tingimuse) käsuga:

COPY TO <.val-faili nimi> FIELDS <ID välja nimi>, <atribuutvälja nimi> DELIMITED WITH BLANK

- rasterandmete puhul (vt. ka Idrisi praktikumid nr.6 ja 7) on tavalisemaks atribuudiks kas värvikood, või edaspidiselt kaardialgebras kasutatav arv,

- .val-faili alusel luuakse mooduliga ASSIGN uus kujutis, millega ongi atributiivinfo kättesaadav territoriaalseks töötluseks;

- vektorandmete puhul (vt. ka Idrisi praktikumid nr.8 ja 17) võimaldab moodul PLOT tõlgendada atribuuti kui värvikoodi (script-faili vahendusel); kui on vaja paindlikumat tõlgendust, tuleb kirjutada programm (näiteks XBase'is), mis väljastab tulemused atribuutandmete kohta script-failina;

- IDRISI kartograafilise väljundi oluliseks puuduseks on suutmatus kujutada tingmärke ja märgendeid (kirju, nimesid, ID-sid). Viimast aitab veidi kompenseerida TOSCA, kus on võimalik:

- luua märgendeid (label) ja seostada neid (automaatselt või interaktiivselt) territooriumiga (label points) ning seejärel kirjutada need script-faili (moodul EXTLABEL);

- exportida TOSCA-s loodud vektorkujutis (mis võib koosneda kuni 15 kihist ning sisaldada ühe kihi märgendeid) IDRISI rasterkujutise formaati (bitmap-ina byte binary formaadis 511x477 pikslit), et seal lisada pealkiri, legend jms.

L14. Andmete kvaliteet. Vead, nende allikad. Veatõrje

tuleb teha vahet:

- andmete õigsus (accuracy) kui andmeväärtuste lähedus õigeks loetavatele väärtustele sedavõrd, et see rahuldab antud kontekstis;

- andmete täpsus (precision) kui andmete esitusviisi, näiteks numbrite puhul kümnendkohtade arvu, näitaja

- andmete formaalsel töötlusel võib tekkida fiktiivne täpsus;

- asendiandmete õigsus (positional accuracy)

näiteks mõõdetud kõrguspunkti koordinaatides jämedate vigade puudumine ja

- atribuutandmete õigsus (attribute accuracy)

näiteks mõõdetud kõrguspunkti kõrgusarvu õigsus;

andmete kvaliteet haarab lisaks täpsusele veel mitmeid komponente, näiteks:

- loogiline kooskõlalisus (consistency),

- täielikkus ja asjakohasus (completeness & relevance),

- andmete päritolu (lineage) peaks teada olema (kes, kus, millal, millega mida mõõtis);

nii andmete õigsuse kui ka ka kvaliteedi kohta on kehtestatud standardid (näit. US National Map Accuracy Standard või Standard for Digital Cartographic Data Quality);
kui andmetes esineb jämedaid vigu, ei saa rääkida nende õigsusest, kuid ka õigetes andmetes on alati mingisugused (lubatavuse piirides olevad) vead:

- nende allikad ja nende suurus tuleks välja selgitada,

- vead võivad olla omavahel seotud ja kumuleeruda.

14.1.Võimalikud vigade allikad geoinformatsioonisüsteemides

- otsesed vigade allikad:

- andmete vanus: eri vanusega andmed (andmep?lvkonnad) võivad olla erinevate standartite järgi ja mitte alati võrreldavad,

- territooriumi kaetus andmetega: sageli osaline v?i ebaühtlane,

- kaardi m??tkava: liiga suur p?hjustab müra, liiga väike - liigset generaliseeritust,,

- vaatluste tihedus: optimumi raske saavutada, peab teadma olukorda,

- andmete asjakohasus: pragmaatilistel kaalutlustel tuleb sageli leppida kaudsete ja indikaatorlike andmetega, või nn. surrogaatandmetega, mis on kogutud muude (sageli ka erinevate) rakenduste jaoks,

- andmete kättesaadavus [accessibility]: mingil p?hjusel ei saa vajalikke andmeid kätte

- andmeformaat: andmevahetus kahe paketi vahel sunnib valima formaadiks nö ühisnimetaja, mis v?ib olla küllaltki ebaefektiivne

-. hind: täpsus maksab,

mõnikord v?ib vana uuendamine olla uuest kallim,

- mõõdistamiste ja andmete endi loomulikust variatsioonist tulenevad vead:

- asendi täpsus: looduslike piiride täpsus tavaliselt palju väiksem kartograafilisest,

vead ja moonutused aluskaardil,

- sisu täpsus: kvalitatiivne - vale legend,

kvantitatiivne - süstemaatiline määramisviga,

- andmete varieeruvus

- (väli)mõõtmisvead: andmete õigsus kui jämedate vigade puudumine, andmete täpsus kui statistilise vea suurus;

- laboratoor(töötlus)vead: interkalibreerimised näitavad, et on suured,

- klassifitseerimisvead: homogeense ühiku sisene varieeruvus, mis näitab kaardi kvaliteeti; sageli muutub territooriumil ning pole vaadeldav mürana, vaid on vaadeldavale nähtusele omane (looduslik varieeruvus)

- töötluse käigus tekkivad vead:

- numbrilised vead arvutis: kumuleeruvad ümardamisvead, mis tekivad arvutis piiratud arvu kümnendkohtade kasutamisest

- topoloogilise analüüsi vead

- loogikavead,

- kattuvusülesannete vead: digitaliseerimistäpsusest tulenevad, vektorstruktuuride teisendamisel rastri(te)ks, mitme polügonidevõrgu ülestikkuasetamisel tekkivad, piiride statistilisest ja fraktaalsest iseloomust tulenevad;

- klassifitseerimis- ja generaliseerimisprobleemid: metodoloogia kitsaskohad, klassi-intervalli määramine, interpoleerimistäpsus ja -õigsus.

14.2.Vigade määramine territoriaalsel analüüsil

- tuleb teha vahet vaadeldavate territoriaalobjektide loomulikust varieeruvusest ja nendevaheliste üleminekute sujuvusest tingitud omaduste

ja paljudest juhuslikest vigadest tingitud ebatäpsuste vahel:

- eeldades normaaljaotust, saab IDRISI-s leida piksli väärtuse ruutkeskmise vea ja tõenäosuse, et piksli väärtuse kõrvalekalle keskväärtusest pole juhuslik;

- olemas valemid erinevatel kaardialgebra operatsioonidel tekkivate vigade arvutamiseks (vajadusel vt. IDRISI Version 4.1 Update Manual, Appendix 4);

- kahe andmemaatriksi (rasterkujutise, klassifitseerimisskeemi vms.) omavahelise ebakooskõla hindamiseks on kasutatakse risttabulatsiooni ja selle põhjal arvutatud kooskõlakordajaid, näiteks Kappa indeksit (vt. joonis).

14.3. Veatõrje GIS-is

- andmekvaliteet, -õigsus ja täpsus peavad olema kooskõlas:

- piksli suuruse õige valik ja pseudotäpsuse vältimine,

- tolerantsi õige valik ja topoloogiliste vigade vältimine,

- ebatäpsuse väljaarvutamine,

- vigade kumulatsiooni vältimine,

- andmete täpsuse ja õigsuse hindamiseks vajaliku info lülitamine meta-andmete hulka.

L15. Kaugseire andmete töötlus (sissejuhatus)

Käesolevas ja järgnevas loengus vaatleme lühidalt mõningaid võimalusi, kuidas kasutada kosmosefotosid. Lähem teoreetiline tagapõhi, mida käsitletakse vastavates kaugseire ja andmeanalüüsi kursustes, jääb siinkohal vaatlusest välja. Klassifitseerimismeetodite ja faktoranalüüsi osas võib täiendava materjalina soovitada: U. Pragi "Matemaatilised meetodid geograafias", Tallinn:Valgus, 1988, lk. 95-140.

Kosmoseinfo töötluse võib tinglikult liigitada kolmeks:

- kujutise taastamine (image restoration): radiomeetrilised (pikslite väärtusi teisendavad, näiteks vinet eemaldavad) ja geomeetrilised (projektsiooni muutvad) võtted moonutuste eemaldamiseks kujutiselt;

- kujutise täiustamine (image enhancement): kujutise teisendamine vajaliku informatsiooni esiletoomiseks (juhusliku müra eemaldamine, kujutise küllastamine, pikslite jaotuse silumine, faktoranalüüs);

- kujutise klassifitseerimine (image classification): pikslite jagamine (kas etteantud klasside etalone kasutades või ilma) mingis mõttes sarnaste omadustega rühmadesse, millele antakse geograafiline vms. interpretatsioon.

15.1. Kujutise taastamine ja täiustamine

- Lihtsaim kasutatav viis piltide kvaliteedi radiomeetriliseks parandamiseks on lahutada igast spektrivahemikust teatud väärtus, et viia minimaalväärtused nulliks (eeldades, et mõned 0 väärtusega pikslid peaksid eksisteerima);

- see on üksnes lähendus, kuid töötab hästi, kui puudub täpsem informatsioon atmosfääri oleku ja korrektsioonimudeli kohta;
- IDRISI-s peaksime selleks kasutama moodulit SCALAR.

- piltide kvaliteedi geomeetriliste parandamismeetodite aluseks on teatud arvu reeperpunktide (maapinna punktid, mille täpsed koordinaadid on teada ja mis on identifitseeritavad ka satelliidifotolt) olemasolu;

- IDRISI-s peamiseks tööriistaks on moodul RESAMPLE:

Punktid pildilt (nimetame neid vanad) peaksid kattuma (omama samu koordinaate) vastavate punktidega (nimetame neid uued) maapinnalt. Tegelikult nad aga ei kattu. Erinevused on tingitud projektsioonist, mõõtkavast, pildistamisnurgast ja juhuslikest moonutustest. Nende "tagasiteisendamise" e. koolutamise kõige üldisem moodus on nõndanimetatud "kummikile tehnika" (rubber sheeting), mis eeldab, et vastavate vanade ja uute punktide vahel on piisavalt tihe seos, mida kirjeldav ülekandefunktsioon on empiiriliselt leitav, kui on teada piisava hulga punktipaaride (vana ja uus) koordinaadid. Nende, reeperpunktide, alusel on võimalik leida kas bilineaarne (reeperpunkte vaja vähemalt 3), ruut- (vähemalt 6) või kuup-ülekandefunktsioon (vähemalt 10), mille alusel arvutatakse ümber kõik koordinaadid. Tegelikult peab rahuldava tulemuse saavutamiseks reeperpunkte olema miinimumist vähemalt 2...3 korda rohkem!

Eelkirjeldatud teisendusi võimaldab IDRISIs moodul RESAMPLE, mis teisendab kujutisfaile (.img), või kujul RESAMPLE v ka vektorfaile. Sisendiks on nn. vastavusfail (correspondenve file) laiendiga .cor, mis kujutab endast ASCII faili: esimeses reas on reeperpunktide arv, järgnevad nende punktide tühikutega eraldatud koordinaadid:

x_vana y_vana x_uus x_uus

- kokku on seega failis ridu ühe võrra rohkem kui reeperpunkte.

- Piltide kvaliteedi parandamise tähtsaimaks võtteks on nende histogrammi teisendamine ja klassipiiride leidmine histogrammi alusel:

- histogrammi joonistab IDRISI-s moodul HISTO,
- IDRISI protseduur STRETCH (venitus) võimaldab kas
- - jätta ära teatud % (üldiselt 2,5 - 5% on sobivaim) ekstremaalseid pikslite väärtusi histogrammi servadest ja valida siis klassid võrdsete intervallidega

Hea kujutise loomiseks vajalik küllastuse hulk tavaliselt varieerub ja võib nõuda mõningaid katseid ja vigade täpsustamist. Võimalikest teisendustehnikatest on enamikel juhtudel parim tingimus lineaarne venitamine küllastamisega (linear with saturation)

või

- valida klasside piirid nii, et igasse uude klassi tekiks võrdne arv piksleid - nn. histogrammi võrdsustamine

Teoreetiliselt me võiksime oodata, et histogrammi tulbad tuleksid sel juhul täpselt ühekõrgused, kuid nagu kõik pilditöötlus-süsteemid, ei poolita IDRISI teatud kindlat andmeväärtust mitme klassi vahel. Seepärast jäävad mõningad ebavõrdsused. Vastavalt informatsiooniteooriale peaks võrdsustatud histogrammiga kujutis kandma rohkem informatsiooni, kuna ta sisaldab iga antud klasside arvu juures suurima varieeruvuse. Tuleb aga tähele panna, et informatsiooni hulk ei ole seesama, mis tähendus (vt. loengukonspekt "Geoinformaatika põhimõisted"). On parem hoida histogrammi võrdsustamise tehnikast eemale, kui üritatakse mõista peegeldumis/neeldumis-karakteritikuid.

- tuleb samuti meeles pidada, et venitatud kujutis on üksnes vaatamiseks - kuna temaga on manipuleeritud, ei sobi ta enam analüüsiks.

- Täiustatud kujutised kannavad informatsiooni üksnes üksikute spektrivahemike kohta, kuid nende paremaks vaatamiseks ja analüüsiks (vt. 16.1.) luuakse kolme spektrivahemiku nn. valevärvidega sünteespilt (false color composite);

- IDRISI-s on olemas ka moodulid COMPOSITE, mis loob niisuguse kujutise SVGA (või 8514/A-ühilduva graafikakaardiga) monitori jaoks, ja VGACOMP, mis võimaldab luua selle kujutise lähendi VGA-graafika jaoks;
- valevärvidega sünteespilt luuakse 256-värvilisena kolme spektrivahemiku (RGB) baasil, venitades (stretch) igaüht 6 klassini

Tavaliselt kasutatakse nähtavrohelist kui sinist spektrivahemikku, nähtavpunast kui rohelist spektrivahemikku ja lähisinfrapunast kui punast spektrivahemikku (pange tähele, et ei kasutata esimest spektrivahemikku - nähtavat sinist - ja et igaüks ülejäänutest on ühe võrra nihkes). Seetõttu kutsutaksegi niisugust sünteespilti valevärviliseks. Lähisinfrapunane on lülitatud pildi koosseisu sinise asemel, kuna ta sisaldab informatsiooni, mis puudub nähtavates spektrivahemikes. Lisaks sellele kipub sinine spektrivahemik olema vinest tugevasti mõjustatud).

15.2. Peakomponendid

Eelpool vaadeldi kolme sagedusriba sünteeskujutist kui üht võimalust informatsiooni “tihendamiseks”. Edasi kerkib meie ette küsimus, kas kolm sagedusriba annavad adekvaatse iseloomustuse maapinna peegeldusvõimele sellisel juhul, kui LANDSAT-i temaatilise kaardi (Thematic Mapper) kujutis võimaldaks potensiaalselt kasutada seitsme spektraalvahemiku andmeid. Sellele vastamiseks tuleks uurida LANDSAT-i kujutistel olevat informatsiooni, kasutades peakomponentide meetodit.

- Peakomponentide analüüs (Principal Components Analysis) seostub faktoranalüüsiga ning loob pildi spektrivahemike teisendusega uued spektrivahemikud (nn. komponendid), mis omavahel ei korreleeru ning on reastatud selle variatsioonihulga järgi, mida nad suudavad algpildilt seletada;

- komponendid on niisiis statistiline abstraktsioon originaali spektrivahemike hulgale omasest variatsioonist;
- selliste piltide puhul, nagu on LANDSAT TM ei ole tavapärane leida väga tugevat korrelatsiooni erinevate spektrivahemike piltide vahel;
- kui näiteks peegelduse väärtused oleksid väga kõrged ühe spektrivahemiku teatud paikades, siis tugeva korrelatsiooni olemasolul peaksid nad olema kõrged ka teises spektrivahemikus samas kohas; piirjuhul, kui need kaks vahemikku oleksid funktsionaalses seoses (korrelatsioonikordaja r=1), peaksid nad kirjeldama üht ja sedasama informatsiooni. Sel juhul oleksid nad aga ebaefektiivsed informatsioonikandjad ja järelikult kaks spektrivahemikku kannaksid üksnes ühe vahemiku osa informatsiooni ning teist poleks lihtsalt vaja;
- mõningane kaugseire kujutiste vaheline korrelatsioon on aga tavaline ning pole midagi imelikku, kui leitakse, et niisugustel piltidel nagu on LANDSAT TM 7 sagedusvahemikku, sisaldub märgatav hulk kattuvat informatsiooni - see on olukord, kus põhikomponentidest võiks kasu olla.

- Kuna igaüks transformatsioonil loodud komponentidest ei korreleeru ühegi teisega, kannavad nad üksteise suhtes ainult uut informatsiooni.

- Kuna nad on reastatud selle informatsiooni hulga järgi, mida nad kannavad, siis mõned esimesed komponendid sisaldavad tavaliselt enamiku lähtevahemike informatsioonist, sel ajal, kui viimased komponendid kirjeldavad vaid väikese osa variatsioonist

- Üks põhikomponentide rakendusi on niisiis andmete tihendamine: allesjäävad mõned esimesed komponendid võivad kanda peaaegu kogu informatsiooni, samal ajal, kui suurest osast andmetest võib loobuda.

- Peakomponentide analüüsi tulemused esitatakse kokkuvõtva komponentide tabelina,

- kus on kujutatud iga komponendi (veergude kaupa) omaväärtused (eigenvalues) ja omavektorid (eigenvektors):

- omaväärtused iseloomustavad seda variatsiooni hulka, mida iga komponent seletab; iga veeru ülaosas on see summeeritud kui selgitatud variatsiooni % (persent variance explained - % var.),

- omavektorid on teisendusvõrrandid tagasi originaalväärtuste juurde;

- ja faktorpanuste tabelina (table of loadings),

- kus panused osutavad korrelatsioonimäärale uute komponentide (veerud) ja originaalvahemike (read) vahel.

- satelliidipiltide põhikomponentide analüüsi tulemused ei ole samasugused igas maastikus, kuid sageli juhtub, et:

- lähisinfrapunane vahemik (vahemik 4) kannab suurimat informatsiooni hulka;
- informatsioonihulga suuruse poolest järgmine vahemik on tavaliselt nähtavpunane;
- edasi on erinevalt, ent nähtavroheline (TM vahemik 2) ja keskmine infrapunane (TM vahemik 5) on kaks vahemikku, mis pretendeerivad sageli tähtsuselt kolmandale kohale.

L16. Kaugseire andmete töötlus (klassifitseerimismeetodid)

Üks levinumaid satelliidipiltide kasutusviise on küllalt kiiresti muutuvate nähtusete, näiteks maakasutuse, kaartide koostamine. Ruumiliste andmete töötluse seisukohalt on sellisel juhul keskseks küsimuseks pikslite jagamine (kas etteantud klasside etalone kasutades või ilma) mingis mõttes sarnaste omadustega rühmadesse.

16.1. Etalonideta klassifitseerimine

- ülesandeks on eristada pildil ilmnevaid antud spektrivahemikule vastavaid põhilisi mustreid (dominant spectral response patterns), mida tavaliselt nimetatakse signatuurideks (signatures), ning identifitseerida nad seejärel maapinnal olevaga;

- IDRISI pakub välja etalonideta klassifitseerimise mooduliga CLUSTER:

CLUSTER lähtub valevärvilisest sünteeskujutisest ja kasutab histogrammi tippude valiku tehnikat. Näiteks, kui meil oleks vaid üks spektriandmete vahemik, siis selle kujutise histogrammi tipud esindaks spektrivahemiku põhilisi mustreid (klastereid), sel ajal kui nad nõod sellel histogrammil märgiksid nende mustrite (klastrite) vahelisi piire. Kuna on olemas spetsiaalsed kriteeriumid määratlemaks, mis on tipp, ei pea eelnevalt kindlaks määrama kujutisel olevate klastrite arvu (nagu nõuavad mõned meetodid), vaid see määratletakse mooduli poolt.

- Järgmiseks probleemiks on nende klastrite interpreteerimine, milleks on tavaliselt vaja kaarte, aerofotosid ning ala enda külastamist;

- lisaks selgub sageli, et lõppkaardi jaoks on vaja teatavaid klastreid liita, sest võin näiteks selguda, et üks klaster kujutab metsa varjusolevatel nõlvadel, teine aga sama metsa päikesepaistelistel nõlvadel.

16.2. Etalonidega klassifitseerimine

- Etalonidega klassifitseerimist kasutades valitakse teistsuguse juurdeminek:

- määratakse eelnevalt teatud näidiste, nn. etalonalade (training sites) tüübid maapinnal, mille varal "õpetatakse" klassifitseerivat algoritmi,

- analüüsitakse nende alade spektraalseid peegelduskarakteristikuid, selleks et kasutada etalonalalt saadud informatsiooni kogu pildi klassifitseerimisel (etalonala vaadeldakse kui valimit),

- klassifitseerimine kitsamas mõttes: pikslid loetakse kuuluvaks sellesse klassi, mille etalonalaga nad kõige rohkem “sarnanevad”, kusjuures “sarnasuse” määr oleneb kasutatavast klassifitseerimismeetodist.

- Esimene samm on niisiis määratleda etalonalad:

- etalonalad peaksid olema esinduslikud (representatiivsed), s.t. nii homogeensed, kui võimalik (so. nad peaksid sisaldama üksnes üht teatud maapinna tüüpi) ja
- peaksid sisaldama adekvaatse hulga piksleid statistilisteks hinnanguteks,

Põhiline rusikareegel on, et iga etalonala pikslite hulk (so. kõikide etalonalade kogusumma ühe maapinna tüübi jaoks) peaks olema vähemalt 10 korda suurem, kui spektrivahemike arv. Niisiis, kui kasutatakse 7 spektrivahemikku, tuleks omada mitte vähem kui 70 pikslit iga etaloni kohta.

- etalonala peaks olema polügon, mis piirab omaduse tüübi maksimaalselt homogeenset ala.

- Etalonalade ohjamiseks IDRISI-s - seal nimetatakse neid signatuurideks (signature) - on kasutada spetsiaalsed moodulid: MAKESIG (nende loomine), EDITSIG (toimetamine) ja SIGCOMP (erinevate signatuuride parameetrite graafiline võrdlus sarnasuste avastamiseks).

- Kolm IDRISI-s kasutada olevat etalonidega klassifitseerimise tehnikat on järgmised:

- tõenäosusfunktsiooni tihedusele tuginev moodul MAXLIKE (Maximum Likelihood classification), mis heade etalonalade puhul annab parimaid tulemusi, kuid mille kasutamine (võib olla - sõltuvalt arvutist ja kujutise suurusest) küllaltki aeganõudev;
- signatuurfailide miinimumidele ja maksimumidele tuginev moodul PIPED (parallelepiped classification), mis on küll kõige kiirem, aga ei anna reeglina rahuldavaid tulemusi (selleks peaksid klassid olema üksteisest väga selgelt eristuvad);
- moodul MINDIST (Minimum Distance to Means), mis klassidesse jagamisel võtab aluseks taksonoomilise kauguse etalon(alade) keskväärtustest, kasutades kas tavalist (raw) või standardhälvega normaliseeritud (standardized) kaugusi (soovitav kasutada seda!); on arvutuskiiruselt vahepealne ja annab seni parimaid tulemusi, kuni etalonalad pole just väga head.