MML skrev:
Stusser litt over testprosedyren din. Det ser for meg ut til at du innfører svært mange variabler og mulige feilkilder ved denne måten å gjennomføre ABX. Hvorfor ikke lage en tråd der Sentralens mange kloke hoder kan komme med innspill på testprosedyren slik at den kanskje kan perfeksjoneres en smule? Det har svært begrenset interesse å gjennomføre en test med lav validitet uansett testens resultat.
Uansett gøy at bransjen ser ut til å donere utstyr og frivillige ser ut til å melde seg for gjennomføringen.
Stå på og lykke til!
Her synes jeg du er lite konkret. Hvilke feilkilder og variable er det du finner betenkelig?
Jeg synes det Roysen forsøker å få til her er et meget bra tiltak, og hadde jeg bodd nærmere, så hadde jeg stilt som hjelper.
Det viktigste med ABX (i tillegg til at man selvfølgelig skal lytte helt blindt) er at det gjennomføres nok repetisjoner av testforsøkene til å oppnå statistisk signifikans. 10 repetisjoner regnes vel som et "trygt minimum", og får man 8 eller fler rett av 10 (personlig ville jeg foretrekke 9 av 10 eller bedre), så regnes det som godt nok (95% sikkert, og liten sjanse for at tilfeldigheter setter inn). Det er også viktig at man ikke holder tilbake testresultater. Om man gjennomfører 20 tester av 10 repetisjoner, og så kun publiserer den beste, så vil det kunne være et utslag av tilfeldighet på samme måte som lottotrekning av og til faktisk passer med en av kupongene.
Ref:
http://en.wikipedia.org/wiki/ABX_test#Confidence
For moro skyld laget jeg et program som trakk ut to tilfeldige strenger av A eller B-verdier og sammenlignet disse. Det er ganske spennende å se hvordan tilfeldighet også gir overbevisende match i enkelte tilfeller bare man gjentar noen ganger (20 ganger i dette tilfellet):
0) V1: ABBAAAABAA , V2: ABBABAAAAA -> Matches: 8
1) V1: BBBAAABBBB , V2: BABABBAABA -> Matches: 4
2) V1: ABBABBABAB , V2: BBAAABBBBB -> Matches: 5
3) V1: AABABBBAAA , V2: AABBABAAAA -> Matches: 7
4) V1: BABBAABABB , V2: AAAAAABBAB -> Matches: 5
5) V1: ABAABBBAAA , V2: AABABAAAAA -> Matches: 6
6) V1: ABBAAABBAA , V2: BABBABABBB -> Matches: 3
7) V1: BAABBAAAAB , V2: BABAABBBAB -> Matches: 4
8 ) V1: BABAABAABA , V2: AAAABBAABB -> Matches: 6
9) V1: BABBBBAABB , V2: BAAABBAAAB -> Matches: 7
10) V1: BAABBBAABB , V2: BBBBAAAAAA -> Matches: 4
11) V1: BBBBAAABBB , V2: BABBBBBBBA -> Matches: 5
12) V1: AABBABBBBA , V2: AABBABBBBB -> Matches: 9
13) V1: ABBBABABAB , V2: BBAABABBBA -> Matches: 2
14) V1: BBABBBBAAA , V2: BBABBBABBB -> Matches: 6
15) V1: AABBAABABB , V2: AAABAAABAB -> Matches: 6
16) V1: AABABAAAAA , V2: BBBBABBABB -> Matches: 2
17) V1: BBBBAAABBA , V2: AABBAABBAB -> Matches: 5
18) V1: ABBBBABBAA , V2: BBABABABAB -> Matches: 4
19) V1: BABBBAABBA , V2: BBBBABAAAA -> Matches: 5
Dette viser jo tydelig hvorfor man trenger mange rett, og at man ikke skal undertrykke testresultater for at resultatet skal være mulig å skille fra et helt tilfeldig resultat, jf. det jeg sier lenger opp.