Jeg vet ikke hva Toole og Olive hevder algoritmen deres skal gjøre, men det er ikke rimelig at en sånn algoritme skal "spå en lytters preferanse". Det jeg mistenker at ligger under her er at T&O sin algoritme skal predikere lytteres preferanse på gruppenivå. I det perspektivet er det bra sammenheng mellom det du i post 1 – både fig. 1 og 2 – kaller "objektiv" og "subjektiv" karakter her, fordi de beveger seg sånn omtrent parallelt.Hele poenget med en preferanseskår slik Toole og Olive snakker om, er at algoritmen skal være i stand til å spå en lytters preferanse basert på Klippel-input.
bare generell forvirring:Nei, som alle andre må jeg støtte meg på det han skriver. Hvorfor lurer du?
Jeg hadde ventet meg noe sånt som dette av Amir:Ingen av scenarioene gir mening. Det som gir mening er å snakke om at siden han ikke måler en lang rekke relevante parametere så kan du ikke sammenlikne hans "performance" med målingene. Så lenge ingen av disse 119 har utvidede målinger vil det heller ikke hjelpe om han tester ytterligere 119.
Amir har svaret på poenget ditt:Har du regnet ut hvor mange lyttere som danner grunnlag for den kurven der? Du burde da forstå at statistikk fra én person gir en viss spredning?
Fascinerende at du ikke klarer å bruke 119 datapunkter til noe som helst.Ingen av scenarioene gir mening. Det som gir mening er å snakke om at siden han ikke måler en lang rekke relevante parametere så kan du ikke sammenlikne hans "performance" med målingene. Så lenge ingen av disse 119 har utvidede målinger vil det heller ikke hjelpe om han tester ytterligere 119.
119 datapunkter er ikke noe tema, noe jeg forsøkte å understreke ved å skrive at det ikke gjør noen forskjell om man legger til ytterligere 119. Men siden vi vet såpass lite om de aktuelle høyttalerne utover litt grunnleggende hvordan de sprer, og deres harmoniske forvrengning har vi begrenset mulighet for å sortere dataene.Fascinerende at du ikke klarer å bruke 119 datapunkter til noe som helst.
Til sammenlikning bruker folk på ASR og ellers gjerne denne figuren fra Toole med bare 11 datapunkter. Kurven brukes til å skru romkurven i de tusen audiofile hjem…
Vis vedlegget 721371
Egentlig ikke noe kritikk av deg som synes 119 datapunkter er litt lite. Fint å være konservativ i bruken av statistikk, noe en del andre ikke er. Personlig synes jeg 119 datapunkter gir grunnlag for seriøse undersøkelser.
Sånn jeg ser det er det akkurat det du har fått.Jeg hadde ventet meg noe sånt som dette av Amir:
Vis vedlegget 721359
Lenke:https://www.audiosciencereview.com/...s/are-our-preferences-different-in-audio.284/
En ting en del glemmer her, er at Amir ikke lytter blindt og i tillegg har tilgang til målingene (men ikke preferanseskåren). I og med at han neppe vil se helt ut som en gjøk, er det å forvente at hans «preferanser» i snitt korrelerer med de objektive målingene når hab skuler på målt frekvensrespons mv. Det er til tross for at Amir har all denne informasjonen at det er oppsiktsvekkende at hans 1-ere og 4-ere overlapper objektivt (algoritmekarakter) sett i halvparten av tilfellene.119 datapunkter er ikke noe tema, noe jeg forsøkte å understreke ved å skrive at det ikke gjør noen forskjell om man legger til ytterligere 119. Men siden vi vet såpass lite om de aktuelle høyttalerne utover litt grunnleggende hvordan de sprer, og deres harmoniske forvrengning har vi begrenset mulighet for å sortere dataene.
Allikevel harmonerer dette godt med korrelasjonskurvene til Toole.
Men hvor i all verden får du 11 datapunkter fra? Tror du den ene undersøkelsen er alt hans forskning er basert på?
Jeg må ha ordlagt meg dårlig i åpningsinnleggetSånn jeg ser det er det akkurat det du har fått.
Jeg tror det du ser er et lett tilfelle av inter-rater reliability-problematikk – at en "rater" (en som gir skåre) ikke gir helt samme skåre som en annen ville gitt, selv om de i prinsippet er enige om hva som skal måles og hvordan.
Legg merke til at objektiv og subjektiv beveger seg omtrent parallelt. Du har jo til og med markert det med en linje mellom midtpunktene:
Vis vedlegget 721370
Her er Amir og T&O helt enige om hva som er best og hva som er verst, men de er ikke helt enige om hvilken karakter som skal gis.
Denne grafen må jeg innrømme at jeg ikke forstår hva skal vise, men også her er det parallellitet:
Vis vedlegget 721372
Hvis jeg forstår analysen din riktig reagerer du ikke på at Amirs skårer er uventet ut fra prediksjonen, altså at han gir høy karakter der han ifølge prediksjonen skulle gitt lav. Det du reagerer på er at han gir konsekvent lavere skår enn det algoritmen predikerer, uavhengig av om det går opp der det forventes at det skal gå opp og ned der det skal gå ned. Det er egentlig ikke en innvendig mot prediksjonen eller Amirs ører.
Mener du dette?I figur 1 ser vi at Amirs 1-ere objektivt sett ikke er betydelig annerledes enn Amirs 4-ere.
Det er klart, ut frå tesen om at når to produkt målar likt, er dei like. Her vil eg tru at utfordringa er at målingane ikkje er fullstendige. Eg har ikkje oversyn på korleis høgtalarar skal målast for at alle sider/parametrar av lyden skal ivaretakast, men det må dei vel?Så mannen liker lyden av en høyttaler, men er ikke så begeistret for lyden av en annen - selv om de kommer like godt ut på målingene?
Og det skal være diskvalifiserende?
God morgen, mr Brombrom! Kaffe?Har vel gått litt langt i målefeberen når måling av høyttalere er tema fremfor lytting. Høyttalere er jo en veldig smak og behag ting, og ikke minst så påvirker jo rommet så mye av hvordan en høyttaler ender opp med å låte, at dette er å dra målestrikken litt vel langt
Mye av det du tar opp, har med Amirs kompetanse som trent lytter og kompetanse i testsituasjonen å gjøre. Jeg har holdt Amirs kompetanse mht. testmetode utenfor - og implisittt antatt at han er kompetent i oppsett av test - men det kan naturligvis være mange grunner til at det er mye støy i datasettet.Er ikke rart jeg ikke forstår meg på statistikk
Her er et par faktorer som jeg synes er verdt å ta hensyn til når man kikker på Amirs målinger kontra hans subjektive vurderinger;
- Bass står for ca 30 % av vår subjektive oppfattelse av lydkvalitet.
- Amir liker å spille høyt og bruker bare én høyttaler - ergo blir bassytelse/kapasitet en stor faktor.
- Han straffer kompresjon/ulyder og/eller manglende renhet på høyt volum i overkant strengt. Feks nevnte Genelec 8341 lød veldig mye bedre enn feks JBL lsr306, men klarte ikke å spille like høyt som han forventet. Derfor gikk den ned en Rosa Panter.
- Amir tester stort sett stativhøyttalere med svak kapasitet og de individuelle forskjellene på det området vil bety relativt mye mer enn for større høyttalere.
- En god del av høyttalerne målt ble målt på vinterhalvåret i en kald garasje (Seattle) før Neumann tipset om at bassmålingene ville vise feil pga kulden. Derfor er det ganske mange av høyttalerne som "underpresterer" på målingene under 200 hz og likevel scorer subjektivt godt hos Amir fordi han lytter på de i stuen, ikke i den kalde garasjen. (I tillegg har det blitt gjort justeringer i softwaren den senere tid som fikser målefeil i bassen - høyttalerne viser nå langt mer bass enn tidligere.)
Her er et bilde av samme høyttaler målt ved forskjellig temperatur;
Vis vedlegget 721395
Så selv om jeg synes det er interessant å studere korrelasjon mellom Amirs målinger og subjektive vurderinger, så erkjenner jeg også at det er nok usikre variabler til at man skal dra betydningen altfor langt.
En kjapp sammensausing av høyttalere som har fått veldig god subjektiv kritikk av Amir, lyttevindu-snittet;
Vis vedlegget 721397
Tja, ser ut som målingene er relativt like på de han liker?
Skjønner ikke helt hvor du vil med denne tankerekken?Mye av det du tar opp, har med Amirs kompetanse som trent lytter og kompetanse i testsituasjonen å gjøre. Jeg har holdt Amirs kompetanse mht. testmetode utenfor - og implisittt antatt at han er kompetent i oppsett av test - men det kan naturligvis være mange grunner til at det er mye støy i datasettet.
Å fjerne kilder til støy er jo noe forskere bruker mye tid på
Amir kick me out, Amir bad, me no like Amir.Skjønner ikke helt hvor du vil med denne tankerekken?
Yes, denne tråden kunne vært om målingene fra ASR og om hvorvidt de er omfattende nok, om de viktigste tingene måles osv. I steden er det en uendelig kværning på ting som jeg personlig finner nærmest uninteressant. Jeg bryr meg null om Amir som person og nær null om hans subjektive vurderinger.Det er veldig lett å tenke akkurat det når det blir et slikt ensidig fokus på feilbarligheten til Amir. Who cares, det er målingene vi er ute etter.
Nå er Amir i ferd med å gjøre seg selv irrelevant ved å fremstå vanskelig og humørsyk samt ved å stadig begrense omfanget av målinger på høyttalerne samtidig som Erin's Audio Corner har skaffet seg en Klippel-maskin.
Sistnevnte er mer omgjengelig/lettere til sinns, har utfyllende målinger og lyttesesjoner (før måling) og fremstår langt mer sympatisk og spiselig for både forbrukere og produsenter.
Hehe, jeg betaler enten avgift eller gebyr. Den gang da jeg bodde i parkeringshelvete (Oslo) så bidro jeg titt og ofte til felleskassa i form av gebyr.Men HC, litt på siden av topic.
Har du for vane å ikke betale parkeringsavgifter?
Mao svært subjektivt. Hva med de som ikke spiller høyt, ikke er bassnarkomane og som er opptatt av dybde og pin-pointing?- Amir liker å spille høyt og bruker bare én høyttaler - ergo blir bassytelse/kapasitet en stor faktor.
Er ikke rart jeg ikke forstår meg på statistikk
Her er et par faktorer som jeg synes er verdt å ta hensyn til når man kikker på Amirs målinger kontra hans subjektive vurderinger;
- Bass står for ca 30 % av vår subjektive oppfattelse av lydkvalitet.
- Amir liker å spille høyt og bruker bare én høyttaler - ergo blir bassytelse/kapasitet en stor faktor.
- Han straffer kompresjon/ulyder og/eller manglende renhet på høyt volum i overkant strengt. Feks nevnte Genelec 8341 lød veldig mye bedre enn feks JBL lsr306, men klarte ikke å spille like høyt som han forventet. Derfor gikk den ned en Rosa Panter.
Klart, de som ikke spiller høyt eller liker mye bass vil score en høyttaler helt annerledes bare på den faktoren alene. Dybde, pinpointing og andre spatiale kvaliteter er faktorer som mer eller mindre forsvinner når man kun lytter i mono - som Amir gjør.Mao svært subjektivt. Hva med de som ikke spiller høyt, ikke er bassnarkomane og som er opptatt av dybde og pin-pointing?
Tror mange vil foretrekke perspektivegenskaper og dybde foran frekvensavvik som kanskje er ubetydelige når høytalerne spiller i et gitt rom.....
Ah, begrepsvaliditet heter det ja! Har ikke skrevet så mye om slikt på norsk merker jeg ;-)NÅ kan vi trekke inn de gamle grekerne! Hva "kvalitet", "substans", "essens" og så videre betyr, er et av de aller mest fundamentale spørsmålene i filosofihistorien, og å redusere det til SINAD+Amirs Ører™ hjelper oss lite. Å utvikle god begrepsvaliditet er vanskelig, og derfor veldig lett å hoppe over…
Setter stor pris på ASR målinger, men Amir virker som er en ganske arrogant fyr , han har kanskje grunn til å være en besservisser men trenger ikke oppføre seg som en for det..Det er veldig lett å tenke akkurat det når det blir et slikt ensidig fokus på feilbarligheten til Amir. Who cares, det er målingene vi er ute etter.
Nå er Amir i ferd med å gjøre seg selv irrelevant ved å fremstå vanskelig og humørsyk samt ved å stadig begrense omfanget av målinger på høyttalerne samtidig som Erin's Audio Corner har skaffet seg en Klippel-maskin.
Sistnevnte er mer omgjengelig/lettere til sinns, har utfyllende målinger og lyttesesjoner (før måling) og fremstår langt mer sympatisk og spiselig for både forbrukere og produsenter.
Hvis det er ting i Amirs testoppsett som varierer - du bruker ordene "usikre variabler" - vil det bli tilført støy i lyttetestene.Skjønner ikke helt hvor du vil med denne tankerekken?
Jeg tror jeg ser poenget ditt med å putte data som har med preferanser å gjøre inn i en kalkulator som inneholder data fra målinger. Men er det ikke dette Toole er så kjent for? Han bruker tallfester preferansedata i en søken mot sannhet og sammenlikner disse preferansedataene med objektive målinger av høyttaleren.
Tror nok @hestepare har et meget godt poeng med hensyn til analysen av Figur 1.
Men for øvrig, hvis man skal være pirkete (og det skal vi kanskje være her?) så er anvendelse av "Ratio skala" statistikk på en ordinalskala (som en subjektiv rating er) i beste fall upresist. "gjennomsnitt", "standardavvik" og parametrisk statistikk som antar ratio skalaer er rett og slett ikke korrekt her. Skalaen til Amir er ordinalskala. Den "objektive" Harman skalaen er i beste fall intervallskala men egentlig ikke hvis den er ment å predikere "opplevd kvalitet", med mindre man kan si at forskjellen mellom 1-3 er like stor som forskjellen mellom 2-4...Så jeg tipper de fleste vil si at den også er på en ordinalskala selv om verdiene fra prediksjonsmodellen kan gi inntrykk av noe annet.... (litt det samme som en klassifikasjonsmodell mellom 0-1 som egentlig skal svare "true" eller "false").
Egentlig burde vel Harman brukt ordinal scale regression for modellen sin men men...
Boxplot rundt median med øvre og nedre percentiler gir derfor et mye mer korrekt bilde av sammenhengen. Jeg vil anta at den ikke-parametriske Spearman Rank Correlation test kan brukes for å teste hypotesen om sammenheng (og om graden av sammenheng er statistisk signifikant) mellom Amir's score og den "objektive" scoren. Før øvrig bør slike ratingskalaer nesten alltid ha et midtpunkt (så 1-5 hvor 3 er "midt på treet"/"hverken ja eller nei" framfor 1-4) men det er det jo litt sent å gjøre noe med...
Men nok om det. Du illustrerer et annet kjernepoeng her synes jeg. For MEG er bassytelse, dynamikk og kapasitet svært viktig og i hvert fall MYE viktigere enn om det er +/-2dB eller +/-5dB i frekvensrespons i rommet (innenfor der spiller det tydeligvis svært liten rolle for min del). Hvis Amir vektlegger bass og kapasitet høyere enn den "objektive" scoren gjør, hva betyr det i så fall? I så fall representerer han(og jeg) kanskje en "outlier" i forhold til de personene som er brukt for å lage en regresjonsbasert prediksjonsmodell (den "objektive" scoren). Men det sier samtidig mye om hvor vanskelig er det er å lage EN god indikator på "kvalitet", uansett om det er SINAD eller Harman preference score... Man burde bare innse at det er mange variable som tilsammen sier noe om opplevd kvalitet, uten at man på noen enkel måte kan summere variablene til en enkeltscore uten at feilmargine blir for store. Det hele dreier seg om "construct validity"...
Ta for eksempel SINAD for en forsterker: Er en forsterker som har SINAD på 100dB bedre enn en som har SINAD på 90dB ved 5W (vanlig måling)? Hva om den første bryter fullstendig sammen og har 10% THD ved 6W, mens den andre har mindre enn 0,01% THD (som ikke er hørbart) opp til 1000W og med stålkontroll og store strømresever for bassen? Hvem er "best"??? Jeg vet hva jeg ville foretrukket men i prinsippet kommer det jo an på en rekke "confounding factors" som man like godt glemmer i sin iver etter å lage slike indikatorer. Som for eksempel, hvor lettdrevne er høyttalerne, hvor stort rom skal forsterkeren drive høyttalerne i, hvor høyt er støygulvet i rommet? Osv ;-)
Jo det er kanskje det... men det jeg har lest så setter jeg mest pris på all teorien og forklaringsmodeller relatert til psykoakustikken. Men en lineær regresjonsmodell som prediksjon på noe så komplekst som opplevd kvalitet har jeg som du skjønner litt skepsis til, etter å ha jobbet med tilsvarende problemstilling i en årrekke. Riktig nok var mitt mål å lage modeller av systemutvikleres evner til å lage programvare med god kvalitet men det er ganske overførbart. Jeg målte bråtevis med objektive egenskaper ved programvaren, ca 40-50 forskjellige egenskaper relatert til struktur, størrelse, koblinger, bugs osv. Og der er vi igjen. Hvordan måler vi "evne" og hvordan måler vi "kvalitet". Noe av dette endte opp i en poppis CW-artikkel hvor journalisten hadde fått med seg omtrent EN setning av alt det jeg forsøkte å forklare. Og den setningen var at "1 års ekstra utdanning tilsvarer 7 års ekstra arbeidserfaring", basert på en litt tvilsom logistisk modell jeg hadde utviklet hvor både antall års utdanning og antall års relevant arbeidserfaring var potensielle forklaringsvariable på sannsynligheten for å introdusere bugs når de ble bedt om å endre programvare. Fikk endel sure kommentarer på det oppslaget ja... så da forstod jeg bedre hvordan samfunnsvitere og medisinere har det!Jeg tror jeg ser poenget ditt med å putte data som har med preferanser å gjøre inn i en kalkulator som inneholder data fra målinger. Men er det ikke dette Toole er så kjent for? Han bruker tallfester preferansedata i en søken mot sannhet og sammenlikner disse preferansedataene med objektive målinger av høyttaleren.
Det er helt ukontrollert lytting med bøttevis av bias involvert, men ikke helt unyttig. Det forteller feks om det er klare hørbare problemer, som feks portstøy, resonanser, klirrelyder eller kompresjon.Synes du det virker som om Amir bedriver "uncontrolled testing"?
Jeg trenger bare å se på den høyttaleren så får den score = 4 av 4Psykoakustikk er målbart? Hvor, når.Alltid når det betyr som mest. Vis vedlegget 721541