OM STATISTIKERE OG HIFI-STATISTIKERE
Vi har 119 observasjoner av prediksjon og utfall.
La oss si at de 119 observasjonene har med
gravitasjon å gjøre. En stein slippes og man skal avgjøre høyden steinen ble sluppet fra. Steinen slippes noen ganger 1 meter fra bakken, andre ganger 40 meter.
Vi har en maskin som noterer seg når steinen slippes og når den treffer bakken. Maskinen inneholder en algoritme med en formel for gravitasjon. Algoritmen er ikke spesielt komplisert. Den inneholder ikke forutsetninger om massetetthet, luftfuktighet, vind, høyde over havet, størrelse på steinen eller noe slikt. Utviklerne av algoritmen sier at disse kompliserende tingene ikke betyr så mye i praksis; den enkle gravitasjonsformelen gjør oss i stand til å skille mellom steindropp på 1 og 5 meter, hevder de. "Tiden det tar før steinen når bakken forteller oss alt vi trenger å vite i høydespørsmålet. Gravitasjon, gravitasjon og gravitasjon er det viktigste for å forstå hvor lang tid det tar før steinen når bakken", hevder de. Steinens utforming, vind og slikt holdes derfor utenfor algoritmen.
I den andre enden av hjørnet har vi med et menneske å gjøre. Personen sier han er god til å høre hvor lang tid det tar før steinen når bakken. Det er lett å skille mellom et fall på 40 og 10 meter, hevder han. I likhet med andre mennesker med den snevre interessen for steinslipp vil han kunne ta hensyn til andre ting enn gravitasjon i vurderingen av steinslipp; hvis det er mye vind eller steinen har en spesiell form kan han ta hensyn til dette i vurderingen av hvor høyt over bakken steinslippet skjer fra. Greit å skille mellom krittstein og granitt, spesielt på varme dager med vind, sier han.
Vi har 119 observasjoner av slike steinslipp. Maskinen har beregnet høyde over bakken i 119 tilfeller og mannen med steinslipp som hobby har lyttet seg frem til høyde over bakken i de 119 tilfellene. Til sammen 238 datapunkter, altså.
Så spør vi en statistiker: Klarer du å få noe ut av dette datasettet?
Det første statistikeren sier, er at man med 119 forsøk oppnår høyere statistisk signifikans enn om antallet var færre. Generelt øker statistisk signifikans med kvadratroten av antall observasjoner. Sånn sett er 119 forsøk mye bedre enn 10 forsøk. Han gjør oppmerksom på at 119 forsøk er langt fra ideelt, men det er en god start for å vurdere hvor stor enighet det er mellom maskinen og mennesket. Med statistikk som hobby synes han det er morsomt å tukle med tall og se om det skjuler seg noen gullkorn en standard statistisk test ikke viser med én gang.
Så langt tror jeg alle som leser dette følger med. Men hvis jeg endrer temaet til hifi og høyttalere, faller HIFI-statistikerne fra. Det er interessant, ikke sant? Hifi-statistikere skiller seg fra andre statistikere.
Vi har altså 119 tilfeller hvor maskinen har avgitt en dom og mennesket har gitt en tilsvarende dom. At jeg hittil har brukt gravitasjon som eksempel på bruk av statistikk er ikke tilfeldig. Floyd Toole har tidligere skrevet dette om gravitasjon i lydspørsmålet:
"
Sean Olive has done numerous tests of national, cultural, and age biases, all to no avail. They are in AES publications. Everyone who has reasonably normal hearing gravitates to the most neutral sound".
Merk at Toole skrev "everyone". Alle graviterer mot nøytral lyd.
Med andre ord har vi altså med 119 målinger å gjøre, hvor en maskin med en nøytralitetsformel har beregnet hvilke høyttalere som er mest nøytrale og hvilke som er mest farget. Teorien innenfor lyd sier at folk skal gravitere mot de mest nøytrale høyttalerne og bort fra de mest fargete. Men hva sier tallmaterialet?
Det er omtrent dette jeg har gjort. Undersøkt gravitasjonen til et menneske mot høyttalere som en maskin har klassifisert som mer eller mindre nøytrale. Og hva fant jeg? Jeg fant en korrelasjon mellom menneskets vurdering av høyttaleren og maskinens vurdering. Dette var å vente fordi mennesket kjente til input som går inn i maskinens algoritme på forhånd. Vi har altså med en form for bias eller "priming" å gjøre som påvirker oss mennesker ubevisst. Men i halvparten av de tilfellene hvor menneskets vurdering var svært sterk, var maskinens vurdering likevel midt på treet. Det var med andre ord divergens mellom menneske og maskin i halvparten av de tilfellene hvor menneskets vurdering var sterkest. Det er som om mennesket er veldig sikker på at steinen i snitt er sluppet mellom null og 14 meter over bakken - men så beregner maskinen at steinslippet i snitt har skjedd omtrent 25 meter over bakken. Og når mennesket er sikker på at steinslippet i snitt har skjedd et sted mellom 45 og 35 meter over bakken, beregner maskinen at steinslippet skjedde omtrent 25 meter over bakken i snitt. Med andre ord virker det å være mye støy i anslagene fra mennesket hvis vi antar at maskinen regner riktig.
Når man er veldig interessert i lyd, er det kanskje vanskelig å se at det jeg gjorde i åpningsinnlegget ikke har noe med lyd som sådan å gjøre. Det var en gjennomgang av tall. Om temaet er steinslipp eller høyttalere er underordnet. Statistikk er statistikk. Om statistikken som har med lyd å gjøre er relevant - og om formelen for "gravitasjon" i lyd er god eller ei - er en annen diskusjon. Jeg liker å ta én diskusjon av gangen. Og denne gangen målte jeg anslag på gravitasjon slik en maskin gjorde det og slik et menneske gjorde det. Verken mer eller mindre.
Jeg har vært helt åpen på metoden min i gjennomgangen av statistikken nettopp for at andre skal kunne replikere det jeg gjorde. Åpenheten gjorde åpningsinnlegget langt, men slik blir det når hensynet til åpenhet settes høyt.
Så kritiser meg gjerne for mye forskjellig, men vennligst ta utgangspunkt i åpningsinnlegget og datamaterialet hvis noen føler at kritikken er brennende og bare må ut.