Diverse OpenAI - sjukt imponerende AI

xerxes · 06.01.2025

PeriodeLytter skrev:
En morsom observasjon med ChatGPT4 er at den ikke er en stavekontroll. Fra en stavefeil i en Lumin reklame her på forumet bad jeg cgpt om å forsøke forklare hva ordet 'amkismal ' betyr. Den kom ikke opp med noe bra forslag så jeg bad den forsøke se om ordet kunne komme fra andre språk. Hvor den fant et mulig feilstavet engelsk ord som fikk Lumin DAC til å ha en negativ lydkarakter.

Derfor bad jeg den teste en hypotese at ordet muligens kunne ha sitt opphav fra det kinesiske språket, oversatt til engelsk og siden norsk. Igjen fant det flere negative karatrestikker for denne Lumin DACn.

Det morsomme er at Google translate så feilen med det samme. To første bokstavene er byttet om.
Stavefeil ser det ut som cgpt fanger mer likt hvordan vi mennesker klarer tolke feilstavete ord. Hvor start og slutt og kontekst i setning er i orden klarer vi som regel se hvilken betydning som er forsøkt utrykket.

Og dette i en språkmodell.

Hardingfele · 06.01.2025

Harry Stoteles skrev:
Ga den deg da riktige tall?

Databasen er greit tilgjengelig. Selv russerne samarbeider med den.

Arctic Ship Traffic Database

map.astd.is

I tillegg må alle skip som ønsker å bruke Nordvestpassasjen melde inn til Canada, så man kan dobbeltsjekke mot landets register, hvilket jeg ba om. "They correspond". USA aksepterer ikke at Canada har råderett, men har godtatt at USA må melde inn, for både kommersiell og militær trafikk, U-båter unntatt (regner jeg med).

Til @Asbjørn

Jeg tar utgangspunkt i din tidligere arbeidsplass, McKinsey. Selskapet slo seg opp på analyser og rådgivning og leverte meget gode (og dyre) rapporter til oppdragsgivere. Etterhvert som oppdragsmengden vokste fikk man også et sentralt arkiv over løste oppdrag, som konsulentene kunne trekke på når en ny oppgave kom.
Det var selvsagt viktig å ikke løse nye jobber for fort, for det skulle jo også timeføres, men det var bra å kunne sende ut en "etterlysning" i organisasjonen etter rapporter fra oppdrag som samsvarte med det nye. Det ga også en internsjekk og kvalitetskontroll, selvsagt, men underlettet også jobben.

Med databehandling ble dette selvsagt effektivisert, og man slapp å maskinskrive nye rapporter, cut&paste ble enkelt, og det å gi den nye rapporten en grafisk identitet som samsvarte med oppdragsgivers ga denne inntrykk av at man fikk nybrottsarbeid i hendene.
Kunnskapsnivået i organisasjonen var høyt, nettverket var suverent, arkivet var selskapets Alexandria-bibliotek - uvurderlig og utilgjengelig for andre.

Så kommer dagens AI, som potensielt kan utslette konsulentbransjen slik vi kjenner den.

Til andre, prøv flash 2.0 av Googles AI og innled en samtale (med din stemme), omkring et fagfelt du arbeider med, forsøk å trenge dypt inn i dette.

Introducing Gemini 2.0: our new AI model for the agentic era

Today, we’re announcing Gemini 2.0, our most capable AI model yet.

blog.google

Scenario.

Du er i bedriftsledelsen og vil gjøre en grundig gjennomgang av et produktområde. Før var du avhengig av å enten ha ressursene internt, eller måtte engasjere eksterne konsulenter. Nå kan du la et team kjapt gjøre en gjennomgang av området og enten lage rapporten internt, eller ha et usedvanlig godt referansegrunnlag for å vurdere anbudene til eksterne konsulentselskap. Dette grunnlaget kan du skape på en ettermiddag, om du har folk som er tilstrekkelig inne i hvordan man bruker tilgjengelige verktøy.
(KI brukes nå slik av et meget stort antall virksomheter)

Du ønsker å saumfare det politiske programmet til et konkurrerende parti, men at denne gjennomgangen ikke skal være preget av eget partis fordommer. Du ønsker å finne ut hvordan du best kan appellere til bestemte velgergrupper og ønsker å legge strategier for hvordan du kan fiske stemmer fra utfordrerpartier, svakere partier, finne nye velgere og hvordan disse kan nås, og med hvilke appeller.
Dette ville du før betalt dyrt for til PR-firma, valgstrateger, men nå kan du gjøre usedvanlig dyptpløyende arbeid internt og kanskje sitte igjen med et strategisk grunnlag som gir deg betydelige fordeler i inngangen til neste valg.
(KI brukes allerede slik, selvsagt)

Dette er informasjonsbehandling, men på speed og med et omfang man ikke har hatt tilgang til tidligere, og med avprøvingsmuligheter man ikke hadde før. "McKinsey kan dette, det er nytteløst å utfordre konklusjonene i rapporten."

I neste omgang hva Hinton arbeidet med og som gjorde at han forlot Google. Når det ikke lenger er informasjonsbehandling, men -skaping. Når det "drømmes" nye muligheter og løsninger, potensielt utenfor rammene av menneskelig erkjennelse.

Time will show.

Asbjørn · 06.01.2025

Hardingfele skrev:
Jeg tar utgangspunkt i din tidligere arbeidsplass, McKinsey. Selskapet slo seg opp på analyser og rådgivning og leverte meget gode (og dyre) rapporter til oppdragsgivere. Etterhvert som oppdragsmengden vokste fikk man også et sentralt arkiv over løste oppdrag, som konsulentene kunne trekke på når en ny oppgave kom.
Det var selvsagt viktig å ikke løse nye jobber for fort, for det skulle jo også timeføres, men det var bra å kunne sende ut en "etterlysning" i organisasjonen etter rapporter fra oppdrag som samsvarte med det nye. Det ga også en internsjekk og kvalitetskontroll, selvsagt, men underlettet også jobben.

Med databehandling ble dette selvsagt effektivisert, og man slapp å maskinskrive nye rapporter, cut&paste ble enkelt, og det å gi den nye rapporten en grafisk identitet som samsvarte med oppdragsgivers ga denne inntrykk av at man fikk nybrottsarbeid i hendene.
Kunnskapsnivået i organisasjonen var høyt, nettverket var suverent, arkivet var selskapets Alexandria-bibliotek - uvurderlig og utilgjengelig for andre.

Jeg jobbet der i fem år. Det hadde man ikke. Det fantes anonymiserte metode-dokumenter, men klientkonfidensialitet forbød noe slikt som det du beskriver. Det var ikke snakk om å gjenbruke klientrapporter for VW eller Daimler-Benz på oppdrag for Volvo. Man ville blitt korsfestet offentlig. Eneste grunn til at jeg etter hvert kunne jobbe for Ford var at de hadde kjøpt Volvo, og at det jeg visste om Volvo ikke lenger var konfidensielt ovenfor Ford. Jeg hadde knapt lov til å snakke med de som jobbet med VW eller Daimler-Benz. Å dele klientmateriale mellom konkurrenter ville vært krystallklar avskjedsgrunn.

Man hadde en stab av grafiske assistenter som hadde til oppgave å omsette håndskrevne kråketær til noe som så profesjonelt ut og stemte overens med firmaets branding. De hadde en tøff jobb. (Det var loddtrekning blant assistentene på Cleveland-kontoret hver mandag. Den som tapte måtte jobbe med Manufacturing Practice den uken.)

Som en senior partner sa om firmaet: «We have no knowledge. We have some skills, but no privileged knowledge.»

Firmaets «skills» er også offentlig tilgjengelige, men det er vanskeligere enn det ser ut til. Den egentlige suksessfaktoren var at man kunne ansette smartere folk og få dem til å jobbe hardere enn hva klientene kunne. Jeg underviste basic consulting skills for Skandinavia og Øst-Europa-kontorene, og kan attestere at disse to bøkene kommer ganske nær.

Bulletproof Problem Solving - The One Skill that Changes Everything

Complex problem solving is the core skill for the 21st Century, the only way to keep up with rapid change. The book covers the seven-step approach to creative problem solving developed in leading consulting firms. By Charles Conn and Rob McLean.

bulletproofproblemsolving.com

https://www.amazon.com/Pyramid-Principle-Logic-Writing-Thinking/dp/0273710516

Når du får en AI til å følge den oppskriften for en hittil ukjent problemstilling kan vi diskutere saken på nytt.

Tweedjakke · 06.01.2025

Hardingfele skrev:
Selv hadde jeg en lang samtale her om dagen med Googles seneste AI om Nordvestpassasjen og fraktmulighetene i denne og generelt i Northern Passage

Eg har prøvd litt av det same med ChatGPT, med ulike emne (eg trur ytterpunkta er “kjønnsuttrykk i 1980-tals heavy metal” og “kinesisk utanrikspolitisk strategi”) og kjenner meg ofte plaga av ei ubehageleg evne til å snakka meg etter munnen.

Det skal liksom ikkje meir enn eitt motargument til før ChatGPT gjev seg, og rosar meg for “excellent point”.

morbid · 06.01.2025

Å herregud å patetisk, driver dere å slår hverandre i huet med hvem som brukte internett å installerte netscape først for å "vinne" en diskusjon om AI? Hva med å bare finne frem tommestokken?

Asbjørn · 06.01.2025

morbid skrev:
Å herregud å patetisk, driver dere å slår hverandre i huet med hvem som brukte internett å installerte netscape først for å "vinne" en diskusjon om AI? Hva med å bare finne frem tommestokken?

Man takker for ditt kunnskapsrike og gjennomtenkte bidrag i diskusjonen.

morbid · 07.01.2025

Asbjørn skrev:
Man takker for ditt kunnskapsrike og gjennomtenkte bidrag i diskusjonen.

Hvilken diskusjon? Hvem som har lengst penis?

I_L · 07.01.2025

Vil nok langt på vei si meg enig i at de siste par sidene har vært mer preget av brusing med fjær enn reell diskusjon.

Harry Stoteles · 07.01.2025

Hardingfele skrev:
Databasen er greit tilgjengelig. Selv russerne samarbeider med den.

Jada, men erfaringen og prinsippet tilsier at generative språkmodeller sliter med en gang det handler om fakta. Den kan slumpe til å ha rett, men ofte blir det helt feil, eller så er den så vag at leseren fyller inn hullene.

Jeg ba ChatGPT en gang om å trekke opp linjene mellom diskursorientert og dekonstruksjonistisk kvalitativ forskning, og svaret ga mening på samme måte som en studentbesvarelse der studenten husker de rette ordene, men ikke egentlig har skjønt innholdet.

Selvfølgelig er det imponerende. Men poenget med høyere utdanning, for å følge opp eksempelet, er å utdanne folk som kan gi godt resonnerte svar, ikke bare svar som virker fornuftig. Ingen LLM kan resonnere, selv om de har lært seg å «teste» svarene sine. Det er en av grunnene til at de ikke kommer til å ta over verden.

Men mange arbeidsgivere begår nå kostbare feil fordi de tror det. De sier opp ansatte i den villfarelsen at KI skal kunne gjøre jobben i stedet. Det kan den ikke, så da må de hyre folk igjen. Det er ingen som tjener på at disse feilene gjøres, men kanskje de er nødvendige for å forstå hva KI kan og ikke kan.

xerxes · 07.01.2025

Asbjørn skrev:
Min er.
Vis vedlegget 1087101

Du kører med en relativt gammel CPU her?
Mener jeg har opptil flere gamle servere med den type CPU. Jeg burde kanskje sette opp en testrigg.

Asbjørn · 07.01.2025

xerxes skrev:
Du kører med en relativt gammel CPU her?
Mener jeg har opptil flere gamle servere med den type CPU. Jeg burde kanskje sette opp en testrigg.

Ja, den er ca fem år gammel. For AI er grafikkortet viktigere. Det er et like gammelt Nvidia 1080ti, en sinke etter dagens standard, med «bare» 11 GB VRAM. Det hadde ikke skadet med 24 eller 48 GB, spesielt ikke hvis man vil forsøke å generere video også, men det blir fort dyrt.

xerxes · 07.01.2025

Asbjørn skrev:
Ja, den er ca fem år gammel. For AI er grafikkortet viktigere. Det er et like gammelt Nvidia 1080ti, en sinke etter dagens standard, med «bare» 11 GB VRAM. Det hadde ikke skadet med 24 eller 48 GB, spesielt ikke hvis man vil forsøke å generere video også, men det blir fort dyrt.

Poenget er at jeg kan kjøpe litt brukt og bruke ting jeg har for en testrigg.
Pensjonistøkonomi er ikke rigget for moderne grafikkkort og cutting edge-hardware i det store og hele.

Asbjørn · 07.01.2025

Ja, det er grenser for hvor mye jeg har tenkt å bruke på slikt også, men VRAM blir fort en begrensning. Heller 16 GB enn 12 GB, og gjerne mer om man finner noe overkommelig. Det er mye viktigere enn CPU. Den går stort sett på tomgang mens den ser på at grafikkortet jobber.

xerxes · 07.01.2025

Kikker etter litt eldre kort tenker jeg, mulighet for 2 eller flere GPU-er.

Dette kan kanskje være interessant?

How to learn to code for free at Stanford and make six figures in under 1 year

Learn to code for free and get a job at Google or Facebook by taking advantage of Stanford’s computer science curriculum online

medium.com

Asbjørn · 07.01.2025

Det Stanford-programmet ser seriøst ut, men ser også ut som mye jobb. Man behøver ikke egentlig være flytende i Python eller noe annet programmeringsspråk for å leke litt med AI, men det skader ikke. Om man er interessert er det mye å plukke her også:

Introductory Programming | MIT OpenCourseWare | Free Online Course Materials

This page will help you begin to learn programming and computer science, with some suggested introductory courses on OCW.

ocw.mit.edu

Om jeg skulle satt meg ned for å lære et nytt programmeringsspråk nå ville det blitt Rust, forresten. Det har noen interessante forskjeller fra C, C++, Python og røkla:

Rust Programming Language

A language empowering everyone to build reliable and efficient software.

www.rust-lang.org

Tweedjakke · 07.01.2025

xerxes skrev:
Dette kan kanskje være interessant?

Det tør eg ikkje seia noko om, men som eg sa i ein annan tråd, det er ikkje okkult kunnskap dette her? Det er utruleg mykje bra greier ute om både matematikk, fysikk og informatikk, MIT og ein haug toppuniversitet har heile førelesingsrekkjer ute, og bøker er stort sett greitt tilgjengelege, i verste fall til prisen av ein dobbelt-LP.

Det desse topp-universiteta har, er vel to ting: Eit vanvittig arbeidspress som siler ut folk hardt og brutalt, og eit miljø av andre, veldig flinke folk. På master- og phd-nivå tel nok det også at ein har tilgang til veldig flinke folk og spanande prosjekt? Altså, ein må nesten vera der for at SAIL skal vera veldig mykje betre enn IFI (eller tilsvarande ved UiB, UiTø eller NTNU).

Hugsar eg dreiv å samanlikna grunnemne i matematikk, og pensum er jo det same stort sett alle stader.

Men, utan tvil, verkeleg ein kul måte å bruka pensjonist-tida på.

Hardingfele · 08.01.2025

Asbjørn skrev:
Du forstår åpenbart ikke hva han sier. «Energien» i algoritmen handler om den stokastiske variasjonen for å riste løs algoritmen fra sub-optimale lokale minima og finne det globale minimum. Se s 11 i presentasjonen du linket til. Man forestiller seg gjeldende løsningsforslag som en kule i et berglandskap. Den forsøker å finne veien ned i dalen, punktet med lavest «energi». På vei ned kan den bli sittende fast i en grop mellom to åsrygger. Ved å øke «temperaturen» i algoritmen får man «ballen» til å sprette rundt, slik at den har en sannsynlighet for å hoppe ut av slike lokale minima og etter hvert finne bedre løsninger med lavere «energi». Underveis reduserer man «temperaturen» for å hindre at ballen spretter veggimellom, men etterhvert stabiliserer seg på laveste punkt.

Dette er eksakt hva som skjer når man lærer opp en LLM til å gjette neste ord i en setning. Lærealgoritmen er en slik stokastisk optimeringsfunksjon. Det laveste punktet, med lavest «energi», representerer beste kurvetilpasning for prediksjon, f eks hva som vil være mest sannsynlige neste ord hvis input tilsier at man befinner seg nettopp der i landskapet. Det er ingen androide der som drømmer om elektriske sauer, bare en eller annen stokastisk optimerings-algoritme (som f eks simulated annealing, SGD, eller lignende) som oppdaterer koeffisienter i store matriser (tensorer) av numeriske verdier for å gjøre en multidimensjonal kurvetilpasning for prediksjon. Anvendelsen er ren feed-forward.

Boltzmann machine - Wikipedia

en.wikipedia.org

Simulated annealing - Wikipedia

en.wikipedia.org

Stochastic gradient descent - Wikipedia

en.wikipedia.org

Hinton bruker begrepet «drømmer» for å beskrive fasen i den stokastiske lærealgoritmen hvor ballen hopper tilfeldig, «våken» for fasen hvor den forsøker å finne bratteste vei ned fra hvor den enn befinner seg i øyeblikket. Begge deler er i læreprosessen, ikke i anvendelsen av nettverket. Hintons store bidrag i 2006 var å bruke koblede Boltzmann-maskiner for å representere dypere nettverk enn den begrensningen som fikk meg til å droppe mitt prosjekt. Som han selv skriver i presentasjonen på s 26 var dette en katalysator for å muliggjøre bedre algoritmer for dyp læring, men det er ikke slik dagens nettverk er oppbygd.

Joda, jeg leste da også «Gödel, Escher, Bach» i sin tid. Kan jeg også anbefale Inga Strümkes «Maskiner som tenker» for en pedagogisk innføring i hva dette er og hva det ikke er?

Norli Bokhandel

www.norli.no

Ditt første spørsmål handlet om mengden energi som LLM bruker og hva jeg mente om det i forhold til miljø/klima.

Hintons arbeid med Boltzmann-maskiner viser hvordan man drastisk kan redusere energiforbruket. Han kritiserer hard-crunch LLM-arbeidet nettopp fordi det er energisløsende og viser hvordan hans forskning viser vei til digital intelligens med 30watt, der LLM-modeller bruker gigawatt når de trenes.

Men det viktigste med Hinton, i forhold til hvordan vi kritiserer kunstig intelligens, er hans skille mellom hva vi mennesker oppfatter som intelligens og hvordan han definerer hva digital intelligens åpner for. Dette har han gått i detalj om ved en del anledninger, på meget tilgjengelig vis her.

Verdt kikken. "Back, like, 20 years ago, people weren't interested in neural nets. And now they're not nearly scared enough of them."

Emner han tar opp:

• Ulike måter å prosessere på og hva de betyr.
• Forstår modellene hva de sier? "There's a lot of people who think they don't understand what they are saying, and those people are wrong."
• "None of us have any idea what's going to happen when they get smarter than us."
• Er de bevisste? "A lot of people ... still believe there's a big difference between these things and us. We're kind of conscious, we have subjective experience. These things are just in a computer, they don't have subjective experience. I think that's completely wrong and I think that depend upon a misunderstanding of what subjective experience is."

PederP · 11.01.2025

Harry Stoteles · 12.01.2025

ChatGPT is bullshit - Ethics and Information Technology

Recently, there has been considerable interest in large language models: machine learning systems which produce human-like text and dialogue. Applications of these systems have been plagued by persistent inaccuracies in their output; these are often called “AI hallucinations”. We argue that...

link.springer.com

Recently, there has been considerable interest in large language models: machine learning systems which produce human-like text and dialogue. Applications of these systems have been plagued by persistent inaccuracies in their output; these are often called “AI hallucinations”. We argue that these falsehoods, and the overall activity of large language models, is better understood as bullshit in the sense explored by Frankfurt (On Bullshit, Princeton, 2005): the models are in an important way indifferent to the truth of their outputs. We distinguish two ways in which the models can be said to be bullshitters, and argue that they clearly meet at least one of these definitions. We further argue that describing AI misrepresentations as bullshit is both a more useful and more accurate way of predicting and discussing the behaviour of these systems.

Asbjørn · 12.01.2025

^ Eksakt, de er bullshit-generatorer i ordets mest presise betydning. Det finnes ingen representasjon av sant vs usant, rett vs feil i dem. Heller ingen modell av årsak og virkning, eller hvordan verden egentlig fungerer. Modellene genererer bare plausibelt utseende tekst uten den minste interesse for om teksten er sann.

Edit: Artikkelens skille mellom hard og soft bullshit er interessant. Det er trivielt sant at LLM’er genererer «soft bullshit», siden de ikke har noen interesse av om output er sant eller usant. Jeg er nok også enig i beskrivelsen som «hard bullshit», dvs generert med en intensjon om å gi inntrykk av noe som ikke er sant. Modellen har ingen intensjon som sådan, men hele hensikten med den er å gi inntrykk av menneskelig intelligens, så jeg er helt med på en klassifikasjon som «hard bullshit». Den forsøker virkelig å etterlate inntrykk av noe som ikke er sant ved å generere tekst som den ikke bryr seg om sannhetsgehalten i, eksakt som en politiker som bare finner på ting der og da for å fremstå som kompetent.

Asbjørn · 12.01.2025

Hardingfele skrev:
Ditt første spørsmål handlet om mengden energi som LLM bruker og hva jeg mente om det i forhold til miljø/klima.

Hintons arbeid med Boltzmann-maskiner viser hvordan man drastisk kan redusere energiforbruket. Han kritiserer hard-crunch LLM-arbeidet nettopp fordi det er energisløsende og viser hvordan hans forskning viser vei til digital intelligens med 30watt, der LLM-modeller bruker gigawatt når de trenes.

Men det viktigste med Hinton, i forhold til hvordan vi kritiserer kunstig intelligens, er hans skille mellom hva vi mennesker oppfatter som intelligens og hvordan han definerer hva digital intelligens åpner for. Dette har han gått i detalj om ved en del anledninger, på meget tilgjengelig vis her.

Jo, men det er der min analogi om «nestegenerasjons flyvende atomubåt» kommer inn. Hinton postulerer at neurale nettverk på hypotetiske analoge computere vil bli mer energieffektive. Slike computere eksisterer ikke ennå. Han sier at hypotetiske fremtidige lærealgoritmer for slike vil bli mer effektive enn dagens algoritmer. Slike algoritmer eksisterer heller ikke ennå.

Samtidig sier han at læring på ett nettverk enkelt kan kopieres til mange parallelle nettverk. Jeg ser ikke hvordan det skulle fungere når vektingen i nettverket er analogt, og små komponentvariasjoner vil gi hver hw/sw-instans en distinkt «personlighet». Hvordan kopierer man kondensatorspenninger mellom to effektforsterkere?

We will see a completely new type of computer, says AI pioneer Geoff Hinton

"Mortal computation" means analog computers marrying AI closely to hardware will put GPT-3 in your toaster for $1 running on a few watts of power.

www.zdnet.com

Hvorfor ikke like gjerne anta kvantedatamaskiner med det samme man er i gang med å fabulere om fremtidig teknologi som bare må oppfinnes først? Kvantemaskin med neurale nettverk - de’ du! Må bare finne en rik forekomst av rent unobtainium før det er i enhver husholdning. Kommer til neste år, garantert!

Han sier også at digitale neurale nettverk vil få mer effektive lærealgoritmer enn dagens back-propagation. Mulig, men noen må klekke det ut først. Status er «preprint of some preliminary investigations». Det er et stykke vei fra et «hmmm, mon tro om noe slikt kunne fungere?» på professorens kontor til fungerende produksjonssystemer. Hintons eget forsøk:

https://www.cs.toronto.edu/~hinton/FFA13.pdf

I mellomtiden ser jeg at det spretter opp gigantiske datasentre som paddehatter, hvert eneste fullt av rack etter rack med motherboards og Nvidia-GPUer, slik at man kan lære opp stadig større LLM’er og la entusiaster på gutterommene rundt om bruke TWh etter TWh på å generere tvilsomme animasjoner. Massiv sløsing med energi til noe som stort sett er tant og fjas.

Harry Stoteles · 13.01.2025

Mark Zuckerberg says AI could soon do the work of Meta's midlevel engineers

Mark Zuckerberg told Joe Rogan that Meta will eventually reach a point where all coding for its apps is done by AI.

www.businessinsider.com

Dette ser ut som godt nytt for alle som ikke vil Facebook vel.

PederP · 14.01.2025

IEEE Spectrum's Top 10 AI Stories of 2024

The year's most popular stories include investigations into generative AI's strengths and failures

spectrum.ieee.org

PederP · 14.01.2025

AI Mistakes Are Very Different Than Human Mistakes

We need new security systems designed to deal with their weirdness

spectrum.ieee.org

PederP · 14.01.2025

Asbjørn · 15.01.2025

PederP skrev:
AI Mistakes Are Very Different Than Human Mistakes

We need new security systems designed to deal with their weirdness

spectrum.ieee.org

Den artikkelen går også ut fra at AI-feil er «honest mistakes» som bare må filtreres ut. Problemet er verre enn det, som vist i artikkelen @Harry Stoteles linket til. Modellene er helt grunnleggende bullshit-generatorer uten den minste interesse for om output er sann eller usann. Kompleksiteten i å filtrere det kan vel sammenlignes med å rette eksamensoppgaver fra tvilsomme kandidater. Det er ikke en triviell øvelse.

Harry Stoteles · 15.01.2025

Artikkelen forutsetter at feil er identifiserbare, og at de er identifiserbare fordi en vet hva som er riktig. Hvis vi prøver å lage en maskin som kan få til noe riktig, lager vi en automat og ikke en intelligens. LLM-er er automater som lager produkter som ligner på noe som er riktig, men intelligens handler om å få noe bra ut av de ressursene som er tilgjengelige. LLM-er kan ikke det.

xerxes · 15.01.2025

Harry Stoteles skrev:
Artikkelen forutsetter at feil er identifiserbare, og at de er identifiserbare fordi en vet hva som er riktig. Hvis vi prøver å lage en maskin som kan få til noe riktig, lager vi en automat og ikke en intelligens. LLM-er er automater som lager produkter som ligner på noe som er riktig, men intelligens handler om å få noe bra ut av de ressursene som er tilgjengelige. LLM-er kan ikke det.

Og siden brukerne går til AI for å få svar på spøesmål de ikke selv helt har oversikt over, så er fallhøyden stor.

Asbjørn · 15.01.2025

Det har vært ganske interessant å leke med billedgenererende AI, siden det kan være lettere å se avvik fra sans og samling i et bilde enn i et stykke tekst. Sist ville jeg forsøke å generere et heroisk bilde av meg selv i kamp med de slemme musene, i anledning en mindre smågnagerinvasjon på hytta. (Jeg hadde en kilo plenfrø stående på en hylle. Det har jeg ikke lenger. Det så ikke ut.)

Uansett, AI'en insisterte å sette hale på meg også.

Så jeg presiserte i prompten at "Asbjørn does not have a tail!" Da fikk jeg tre haler i stedet. Bommer fortsatt med laserpistolen, selv på kloss hold.

Jeebuz...

Spesifiserte også "in the style of Frank Frazetta", forresten.

Frank Frazetta - Wikipedia

en.wikipedia.org

Harry Stoteles · 15.01.2025

Skjønner hva du mener, men likevel er det ganske utrolig hvor mye den får til. Masse anatomiske detaljer som funker helt greit, skoene har lik hæl og "rottene" ser ut som forferdelige udyr som fortjener ei laserkule (synd den bommer, da, selvsagt).

Det som irriterer meg mest med GPT-er og LLM-er og hva det nå er, er at de alltid legger til grunn en amerikansk forståelse av begreper og fenomener.

Spør den om noe som handler om politikk, så får du et svar som antar at "politikk" er drittslenging, meg-mot-deg, nullsumfordeling og så videre – en forståelse av politikkbegrepet som funker i USA, som ikke har vært gjennom en opplysningstid, men ikke i Europa. Spør den om noe som handler om økonomiske og sosiale forhold, så får du banalt svada som aksepterer den amerikanske drømmen som et reelt fenomen og ikke en drøm, som det reint faktisk er. Fins massevis av sånne eksempler.

Problemet med det er at dette er verktøy "alle" bruker, og med den hodeløse satsinga på KI som regjeringa og alle mulige andre har, tror jeg det er en risiko for at disse greiene kan være med på å undergrave europeisk og nasjonal stabilitet og samhørighet. Jeg vet ikke hvor stor denne effekten er, men jeg vet at helt utrolig mange mennesker bruker GPT-er og antar at det som kommer ut av den, er fornuftige greier (som @xerxes er inne på).

Nidaros · 15.01.2025

Asbjørn skrev:
Kompleksiteten i å filtrere det kan vel sammenlignes med å rette eksamensoppgaver fra tvilsomme kandidater. Det er ikke en triviell øvelse.

Dette stiller seg vel litt ulikt ved individuell/menneskelig prompting og gjentakende maskinell prompting.
Dersom man gjennom prompten gjør en strukturert bestilling på et bestemt format/en bestemt struktur og med et forventet utfallsrom, så kan man på en relativt stabil måte fange opp de tilfellene der det koker over for GPT-en. Da kan man fyre av samme prompt på nytt. Når svaret havner innenfor det forventede utfallsrommet, så er man tilbake der man vil være. Dersom man fortsatt får bare visvas i retur, så kan man gå ut fra at det er det man har fôret prompten med som er problemet og angripe problemet fra en annen vinkel.

Idiotsikkert? Nei. Men det fungerer temmelig bra i praksis, ettersom GPT gjerne enten treffer godt eller havner helt uti blåmyra. "Nesten helt riktig" og små slurvefeil, som er typisk for mennesker, er ganske sjelden kost ved bruk av GPT, heldigvis.

Hører gjerne om enda bedre fungerende tilnærminger.

PederP · 15.01.2025

Asbjørn skrev:
Kompleksiteten i å filtrere det kan vel sammenlignes med å rette eksamensoppgaver fra tvilsomme kandidater. Det er ikke en triviell øvelse.

Eg har i vore sensor på det lokale universitetet i ein del år så eg har hatt min del med slike oppgåver. Spesielt ved konteeksamen så er det ein stor andel slike.

Harry Stoteles · 15.01.2025

Nidaros skrev:
ettersom GPT gjerne enten treffer godt eller havner helt uti blåmyra. "Nesten helt riktig" og små slurvefeil, som er typisk for mennesker, er ganske sjelden kost ved bruk av GPT, heldigvis.

Dette må være veldig kontekstavhengig, for jeg ser en masse anglisismer, merkelig tegnsetting, gjetting-slik-studenter-gjør-på-eksamen, og en haug med andre nesten-riktig-greier. Jeg har stilt temmelig krevende vitenskapsteoretiske spørsmål og fått svada tilbake, men da svada som hadde konturer nok til at jeg kunne bruke det til noe fornuftig fordi jeg visste hva jeg lurte på og hva et fornuftig svar kunne være.

For meg fremstår GPT-ene virkelig som bullshitgeneratorer, på samme måte som en eksamensbesvarelse av en student som har tilbrakt semesteret på puben og ikke lesesalen.

MML · 16.01.2025

Virker som om HFS er enige om at dette bare er tull, så dere får gi beskjed om at de bare kan avlyse hele greien.

For egen del synes jeg imidlertid dette verktøyet er en game change ift å få brukbar informasjon for vanlige folk. At laserpistolene bommer eller at svarene ikke lever opp til akademikerens standard har ikke spesiel betydning i denne sammenhengen. Hvordan er dette om 2, 10 eller 20år?

PeriodeLytter · 16.01.2025

MML skrev:
For egen del synes jeg imidlertid dette verktøyet er en game change ift å få brukbar informasjon for vanlige folk.

Er forsåvidt enig. Men jeg har erfart at det kan være lurt å be om lenker til kildemateriale når man ber ChatGPT om info. Man ser dessverre at CGPT ikke er spesielt kritisk når man ber den oppsummere et tema hvor man ber den også inkludere kilder fra internettet.

Et eksempel her kan være å spørre om hifikabler av spesefikt merke hvor vi ser CGPT kan velge å legge til grunn produsentens reklametekst heller enn læren om hvordan kabler faktisk fungerer.

Det virker for meg som nytteverdien i stor grad da er knyttet mot brukerens evne til å forstå hvordan CGPT fungerer og formulere sine spørsmål slik at det er mulig å gjøre kildesjekk. Om ikke ender man lett opp med å mates med missinformasjon.

Asbjørn · 16.01.2025

MML skrev:
Virker som om HFS er enige om at dette bare er tull, så dere får gi beskjed om at de bare kan avlyse hele greien.

For egen del synes jeg imidlertid dette verktøyet er en game change ift å få brukbar informasjon for vanlige folk. At laserpistolene bommer eller at svarene ikke lever opp til akademikerens standard har ikke spesiel betydning i denne sammenhengen. Hvordan er dette om 2, 10 eller 20år?

Verden vil bedras, heter det, og en oppfinnelse som gjør det mulig å bedra fler fortere er vel en sikker vinner.

Som nevnt tidligere, jeg ser dagens modeller som en del av langsom utvikling over mange år. Begrensningene er såpass grunnleggende at jeg er skeptisk til å ekstrapolere enorme forbedringer videre. Det vil forutsette «brute force», enda større datasentre og enda større strømforbruk i et forsøk på å automatisere prosessen med å filtrere bort de mest hårreisende feilene. Det er i prinsippet hva ChatGPT O1 gjør, et sekundært nettverk som vurderer svarene og itererer. Flott det, men det øker energiforbruket med ca 10x pr svar, og det kan lett ledes på villspor, det også.

https://arxiv.org/pdf/2410.05229

Apple study exposes deep cracks in LLMs’ “reasoning” capabilities

Irrelevant red herrings lead to “catastrophic” failure of logical inference.

arstechnica.com

For a while now, companies like OpenAI and Google have been touting advanced "reasoning" capabilitiesas the next big step in their latest artificial intelligence models. Now, though, a new study from six Apple engineers shows that the mathematical "reasoning" displayed by advanced large language models can be extremely brittle and unreliable in the face of seemingly trivial changes to common benchmark problems.

The fragility highlighted in these new results helps support previous research suggesting that LLMs use of probabilistic pattern matching is missing the formal understanding of underlying concepts needed for truly reliable mathematical reasoning capabilities. "Current LLMs are not capable of genuine logical reasoning," the researchers hypothesize based on these results. "Instead, they attempt to replicate the reasoning steps observed in their training data."

LLMs don’t do formal reasoning - and that is a HUGE problem

Important new study from Apple

garymarcus.substack.com

Enda bedre bullshit-generator. Fortsatt en bullshit-generator.

Jeg er ikke bekymret for at «AI overtar verden», men mer for at den vil drukne oss i bullshit. Det passer kanskje perfekt inn i en «post-truth» verden. Dessuten en smule bekymret over energiforbruket.

xerxes · Fredag kl 07:18

Asbjørn · Fredag kl 08:44

Det er også en potensiell «gotcha!» i hvordan kvaliteten på svarene avtar når størrelsen på problemet øker. Selv for en enkel multiplikasjon vil den «regne riktig» på problemer opp til tre sifre x tre sifre, men for firesifrede tall begynner den å «regne feil». For store tall skyter den helt i blinde. Anførselstegn rundt «regne», for det er ikke det den gjør. Den har ingen algoritme, gjetter bare på et svar som den synes ser plausibelt ut.

https://www.arxiv.org/pdf/2409.13373

Multiplikasjon er et enkelt eksempel, og forhåpentligvis er det ikke veldig mange som bruker ChatGPT som firefunksjons kalkulator, men på et eller annet tidspunkt vil dette få katastrofale konsekvenser for noen som f eks bruker den til å beregne nedbetalingsplan for et lån. Man kan rett og slett ikke vite om man er i den «grønne» eller «røde» sonen for det aktuelle problemet. Å utvide den «grønne» sonen for stadig større LLM’er vil kreve enorme mengder energi.

Grunnen til at det blir slik er «the curse of dimensionality» i treningsdataene. Modellen har sett den lille multiplikasjonstabellen såpass mange ganger at man kan være nokså trygg på at den vil svare riktig på «7x8=?». Men den vil ikke ha sett spesielt mange treningseksempler på 17-sifrede tall multiplisert med 19-sifrede tall, langt fra alle mulige kombinasjoner. Den vet bare at svaret sannsynligvis skal være et nokså stort tall, så man får et tilfeldig valgt stort tall som svar. Den bullshitter.

Harry Stoteles · Fredag kl 09:21

«o1 solves up to 9x9 multiplication with decent accuracy»

morbid · Fredag kl 12:17

MML skrev:
Virker som om HFS er enige om at dette bare er tull, så dere får gi beskjed om at de bare kan avlyse hele greien.

For egen del synes jeg imidlertid dette verktøyet er en game change ift å få brukbar informasjon for vanlige folk. At laserpistolene bommer eller at svarene ikke lever opp til akademikerens standard har ikke spesiel betydning i denne sammenhengen. Hvordan er dette om 2, 10 eller 20år?

Potensialet er der absolutt, men det har blitt overhypet noe grasat. Nå er vi i en situasjon hvor ingen tjener penger, tjenestene på de avanserte modellen prises til flere tusen dollars i måneden basert på at den skal erstatte en ansatt 1 til 1. Der er vi absolutt ikke og investorer begynner å bli utolmodige å vil se noe avkastning på investeringene.. Bobla vil sprekke, så vil man gå over til en mer naturlig utvikling og evolusjon av AI

Diverse OpenAI - sjukt imponerende AI

Æresmedlem

Æresmedlem

Rubinmedlem

Hi-Fi freak

Hi-Fi freak

Rubinmedlem

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Æresmedlem

Rubinmedlem

Æresmedlem

Rubinmedlem

Æresmedlem

Rubinmedlem

Hi-Fi freak

Æresmedlem

Hi-Fi freak

Hi-Fi freak

Rubinmedlem

Rubinmedlem

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Rubinmedlem

Hi-Fi freak

Æresmedlem

Rubinmedlem

Hi-Fi freak

↗

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Rubinmedlem

Æresmedlem

Rubinmedlem

Hi-Fi freak

Hi-Fi freak