SAS, SPSS, R og Stata
CDWMcInSpots, har merket meg at du har litt statistikkdilla jf. tråden for hodetelefonkategorien, samt at du har nevnt normalfordelingen i forbifarten nå og da. Kan selv røpe at jeg er en statistikkelskende person. Har lekt en god del med STATA (gjennom 1-årig studentlisens) og ANOVA i Excel, men
open source programmet R virker også villt lovende. Det kan hente ut data fra relasjonsdatabaser via SQL o.l. Har lyst til å sette meg skikkelig inn i enten STATA eller R (hvis ikke det finnes andre overlegne applikasjoner), og lurer på om du har vært borte i begge og kan si noe om hva du liker best (og kanskje hvorfor)?
Skal primært bruke det til hypotesetesting, grafiske representasjoner for visualisering av distribusjon m.v. og regresjonsanalyser.
Jeg er ikke statistiker, men jeg driver med en del deskriptiv statistikk, rapportering datatilrettelegging og -kverning, m.m.
Jeg har i forskjellige sammenhenger benyttet i hvert fall
SAS,
IBM SPSS og
R, men driver mest med relasjonsdatabaser.
Jeg tror dette kan variere mellom bransjer. Jeg tror f.eks. ikke at man kan benytte hva som helst i forbindelse med uttesting av medisiner hvis jeg har forstått rett.
SAS og SPSS har på godt og vondt lang fartstid med opphav tilbake til 1960-tallet. De tåler begge mye data uten nødvendigvis å kreve mye minne o.l. SAS tåler mye juling og kan benyttes til store systemer. SPSS tåler etterhvert også ganske mye selv på en Windows arbeidsstasjon.
SAS er dessuten fint for de som kommer fra relasjonsdatabaser fordi man kan gjøre mye i SAS med PROC SQL, som langt på vei støtter ANSI/ISO SQL, og faktisk behandle SAS som en relasjonsdatabase. En fordel med SAS LIB-opplegg er at det isolerer resten av kildekoden fra datasettype. For resten av programmet kan en Oracle-tabell, et Excel-regneark og en SAS-fil oppføre seg likt og skiftes ut med hverandre.
SAS har i hvert fall tidligere vært best egnet for de med noe programmeringserfaring eller ønske om å lære det. De som kun ønsket menyer, savnet som oftest en del, men slikt endres stadig. SPSS har vært bedre på dette området.
SAS har ofte ganske mange måter å gjøre noe på som en følge av lang historie og ønsket om bakoverkompatibilitet. Dette kan være meget forvirrende og frustrerende for nye brukere fordi det kan være vanskelig å finne ut hva som er nåtidens anbefalte metode slik at man unngår å bruke en foreldet metode.
R kan det meste innen statistikk, matematikk, grafikk og datapresentasjon. Dette er, så langt jeg har forstått, plattformen for (nesten all ny) metodeutvikling osv. (tenk "bleeding edge"). Det er her det nyeste, nye først dukker opp, men det kan godt hende at man må trå til som alfatester hvis man blir med på disse delene av R. Man bør i slike tilfeller også være forberedt på å lese kildekode som (ofte eneste) dokumentasjon.
De mer velprøvde delene av R er derimot langt greiere. Dessuten slås jeg stadig av fiffigheten i programmeringsspråket R.
R er imidlertid neppe egnet for andre enn de som er villige til å programmere. Det er neppe/ikke førstevalget for enhver forskningsstipendiat som har behov for et statistikkverktøy og ikke har databehandlings- og programmeringserfaring fra før.
En meget kyndig kilde (R-entusiast, R-metodeutvikler og R-bokforfatter) har derimot kommet til at
Stata har blitt et meget godt verktøy for forskere og andre som trenger et statistikkverktøy og ikke har statistikk og/eller programmering som hovedfag og -interesse. Stata har mye mindre historisk bagasje enn SAS og SPSS, skal være meget brukervennlig og mye annet godt. Dokumentasjonen er visstnok meget god og skrevet av gode statistikkfagfolk slik at den faktisk ofte kan fungere som meget god lærebok i statistikk(metoder).
Hvis jeg husker og har forstått rett, må Stata (først) lese alle data den skal behandle inn i minnet. Dette gir (deretter) rask respons under arbeidet, men kan gi problemer med større datamengder. 64 bitoperativsystemer fjerner dog (etterhvert) noen av begrensningene.
Tillegg:
Prisen varierer vilt mellom disse produktene fra gratis til meget dyrt.
Databasekobling og -samarbeid:
Alle disse og mange flere kan i hvert fall snakke med databaser via ODBC.
SPSS Data Access Pack støtter dessuten noen databaser (i hvert fall Oracle og Microsoft SQL Server) via spesial-ODBC-drivere (kalt wire protocol) som ikke benytter (mye av) databaseklientprogramvaren og faktisk er meget raske p.g.a. en mer direkte vei. Dette fungerer meget bra til lesing fra databasen, men skriving til databasen er mindre elegant, og oppdatering av tabeller enda verre.
SAS er med
SAS/ACCESS meget god til å snakke med relasjonsdatabaser den støtter. Jeg har kun erfaring med Oracle. Det fungerer utmerket, og man har en rekke muligheter inkl. tabelloppdatering, opprette og endre databaseobjekter og å kjøre egenskrevet PL/SQL på Oracle. Man kan dessuten f.eks. benytte SAS til å produsere en join med mer enn 1000 kolonner, gjerne lagret i et SAS-view. Oracle klarer maks. 1000 kolonner.
R kan benytte ODBC, men har også egne moduler for en del databaser. Det har dog virket som oppfølgingen kan variere over tid og mellom databaser. Oracle er meget utbredt, men i en lang periode var det dessverre ingen som fulgte opp ROracle. Det kan virke som om mange R-mennesker ikke er database- og i hvert fall ikke Oracle-mennesker.