A Plausible Looking Answer

Generative AI based on Large-Language-Model (LLM) is here, but most people have a vague understanding on what this black box is – how it works, what to expect. This is fine, you don’t have to understand how a solar panel works for getting electricity. However it is important to have an idea of the technology with certain expectation. Generative AI seems like magic when in reality it is all statistics. It looks like human thinking, sensing and feeling, when it is playing pretend. Explaining how LLMs work technically is interesting and also tough, but you can still find some mental images that help to set expectations of what this technology can do and how it operates.

My fallible friend

Your generative AI is like an eager friend. You can ask them any question. They will always have an answer. They will rarely say, “I don’t know” and will bullshit or even gaslight you into thinking, they do have the answer. Oftentimes they are right, but being right yesterday is not indication they will be correct today. Whether they are correct or wrong, or whatever, you only know once you check or question their response. Until it is checked, the response is only plausible.

Sentence completion turned to 11

We all have used the keyboards on our Smartphones. Above the virtual keys, you get a word prediction, where the system tries to anticipate your next word, so you don’t have to type it out. This is partially trained by your typing and reflects common word combinations you may have used. For years, on social media people played with predictive texts. You’d start a sentence and have the word prediction on your phone keyboard complete it. Generative AI and Large-Language-Models just like this, but on steroids.
The interaction is always a call & response. You pass a prompt and the LLM will auto-complete your prompt with a plausible looking response.

Plausible looking responses

Much discussion is about LLM responses being correct or false, but these are words, that have no meaning to LLMs. No words have meanings to LLMS. To the LLM it’s just symbols. LLMS have no thinking, no sensing, no concept of reality, of right or wrong, of fiction and non-fiction. LLMs are statistics trained on the internet with all biases, short-comings, copyright-infringements, and grammatical mistakes, there are. The more context you provide, the better its calculation may pass an answer that not only looks plausible, but is actually correct. You can ask an LLM, what the name of the first city on the moon is. If it says “New Berlin”, it gave you the answer from Star Trek. Technically not wrong, not totally correct either.

Similar when you ask for sources. The LLM will always try to create a plausible looking answer. In the answer, you’d expect a list of book titles. Having book titles makes it look more plausible than saying “I don’t know any books of that topic.” Thus it invents book titles, to make a more plausible looking answer.

On a limited scale, you can influence this with your prompt and the AI providers try ensure good looking answers, but this is a fundamental characteristic of the technology. It will generate plausible looking answers.

Hallucinations

When marketing departments companies pushing AI found that too many would generate garbage or fudge details, the term “hallucination” was coined. “Ah, the model is just hallucinating, it’ll improve in the next version”

Hallucination is not the failure of Generative AI, it’s the mechanism by how it works. It’s the statistical recombination that creates a plausible looking answer, given the initial prompt.

It looks like thinking

“But look the train of thought, it’s thinking, it’s reasoning!”

Train of thought is the method of asking the LLM to write down “what are the steps you would do to solve X”. Again, the result will be a plausible looking sequence of steps, but it’s not “thinking” and it’s not the steps the model will actually perform. It’s a generated answer describing the steps. Similarly, when you posed a question to an LLM and ask it “how did you do this”? It will generate a plausible looking answer, describing what a thinking process may have looked liked, but it didn’t think this process, neither has it memory. Apple recently published a paper going into more detail. If you ask a model “how do you feel, what do you want”, it will either respond with a plausible looking answer about being self-conscious and may sound very human doing that, but it’s still only a plausible looking answer. Many AI providers also tweaked their models, to respond to these kind of questions with template answers as too many – even experts – fell into the whole of believing to have found sentient AI. This is Pareidolia.

Doing Chain of Thought when prompting LLMs, it did show improved results by the AI’s response. What it does do is asking the LLM to cast a slightly wider net in it’s training data, thus getting a bit more context from the prompt, extending the level of detail to a degree where the generated response has more context based on fetched trained data and a higher chance of being correct.

How this breaks down can be nicely seen when asking math questions, or counting letters in a word. It doesn’t think, it generates plausible text. “How many letters are in strawberry?” A structurally plausible answer is “There are 5 r in strawberry” – there is no model of a letter, there is no model of a word or of the process of counting. It just knows, that in its billions of training data, statistics show, that a plausible answer looks like this. Applying train of thought, will have the LLM describe how letters are counted, but since it does not actually perform the steps it describes, it may still fail.

The strawberry example has been around long enough, that newer models were trained on articles describing this behavior. They may now return the correct number for strawberry, but now ask for blueberry and they may fail again. Similarly, when you ask to “generate a sentence of exactly 25 words” or “count the elements in this list”.

Summarize all the things

A common generative AI use case often presented are summaries. “Have this e-mail summarized for you!”. Unfortunately it doesn’t summarize. When you ask LLM for a summary, or a transcript, you will have one of two situations.

If the document you want to get summarized is about a topic, that is well documented and included in the pre-trained corpus of your model, when generating the summary it will draw heavily from this trained data and add “outside” knowledge to the document. It may add points not included in the original document, but which may be “plausible” to add. It’s like asking an intern to summarize a document and they will give you the Wikipedia summary.

If the document is on a topic not reflected in the corpus of your model, it can not draw from the training data, so it has to work with what you have given it. In this case, it will analyse the source document and make a statistical guess on what is imported in the document. This would be your intern counting how often the word “opportunity” was mentioned in the document and thus only mention the opportunity, while leaving out the risks because the word “risk” was only mentioned once. Can’t be that important, right?

And of course, a model may deliver a good summary, and still completely miss the point.

“Human-level” AI

To wrap it up, LLMs generate plausible looking answers by being a glorified word completion. It may be correct, but the more important the answer is, the more you need to critically review it. Humans are bad at review. I didn’t even touch on inherit biases and the devastating environmental footprint of AI.

Your AI friend can help you, or it can fail. Depending on the quality of the model, it can fail hard and invent everything in the quest for the most plausible answer. I know people talking about “human-level AI” to address this. AI is not infallible, it’s only “human-level”. I gave my sister the same explanation, on how LLM don’t do summaries. Her response was “still better than my colleagues”, mine “Get better colleagues”.

Busspur-Hack Neukölln

Meine Weg zur Arbeit geht 7km die Sonnenallee entlang. Mit dem Fahrrad ist dies eine der beschissensten Strecken Berlins, weil eng, unübersichtlich, reich an Verkehr und vor allem: reich an Idioten. Es ist selten, dass ich nicht in eine brenzlige oder ärgerliche Situation gerate, egal wie defensiv ich fahre. Weil ich nicht gleich mit schlechter Laune morgens zur Arbeit will, überlege ich mir daher mehrmals ob ich fahre oder nicht.

Am entspanntesten sind noch die Abschnitte Neuköllns, in denen es keine Fahrstreifen gibt und man sich den nötigen Raum nehmen kann.
Heute morgen hatte ich fast Pipi in den Augen, es wurden in diesen Abschnitten jetzt Bus-Streifen eingerichtet. Bus-Streifen die weiterhin zugeparkt werden.

Über die letzten 2 Legislaturperioden gab es jeweils Anträge in der BVV, der Sonnenallee Fahrradspuren zu verpassen, die jeweils abgelehnt wurden mit dem Verweis auf den starken Durchgangsverkehr. Und überhaupt, denk doch jemand an die Parkplätze! Parkplätze stehen im Artenschutz immerhin noch höher als Arbeitsplätze! Da Radwege so nie durchgesetzt werden konnten, sehe ich hier einen geilen Hack:

Die neue Busspur nimmt 2/3 der Straße in Anspruch. 2/3 der Busspur wird zugeparkt. Damit bleibt ein 2m Fahrbereich, der für Busse zu eng und für Radfahrer perfekt ist.

Vielleicht les ich hier zuviel hinein, vielleicht kommt das Parkverbot ja noch, wenn nicht, dann:
Gratulation, schöner Hack!

Fünf

Ich bekam eine Zahl nicht aus dem Kopf. Fünf.
Wir waren 5 Piraten, die in einem Flächenbezirk Wahlkampf für 250.000 geschmissen haben. In anderen Bezirken war es nicht besser.
Das machte mir nicht nur sorgen, sondern regelrechte Bauchschmerzen bis hin zu dem Punkt, dass dies der Grund sein könnte keine Piraten zu wählen.

Mein Hauptgrund zu den Piraten zu gehen war ein struktureller, nicht die Struktur im Einzelnen, aber der Unterschied im Prozess zu den anderen Parteien. Ich kann mir auch keine andere Partei vorstellen, sollten die Piraten scheitern. Gleichzeitig herrschen große strukturelle Probleme in der aktuellen Partei. Basisdemokratie und Ständige Mitgliederversammlung sind ein Thema. Die Verlässlichkeit und Planungssicherheit bei ehrenamtlichen Engagement das Andere. Die Partei ist eine Trinität aus Fraktion, Vorstand und Basis. Wir wollen eine starke Basis, die sich im Gegensatz zu anderen Parteien gegen Willkür in Fraktion oder Vorstand zur Wehr setzen kann. Dabei heraus gekommen ist die Shitstorm-Empörungswelle, aber durch Ablehnung bzw Nichtannahme der Ständigen Mitgliederversammlung kein formales Mittel.
Die Basis steht langfristig auf schwachen Beinen, da wir die Verantwortung, die wir haben und die wir wahrnehmen sollten nicht gebuckelt bekommen.
Das wird gerade im Rahmen eines Länderrats diskutiert, der als gewählte Vertretung der Basis dem Bundesvorstand gegenüberstehen soll. So sehr dieser Blogpost auch ein Plädoyer dazu ist, die Basis nicht zu verlieren, so halte ich ein weiteres gewähltes Satzungsorgan nicht für den Weg. Wir haben uns bisher stark gegen ein Delegiertensystem, wie es von anderen Parteien gehandhabt wird gewehrt.

In Berlin haben wir Fraktionen, die unterbesetzt sind und es ist nicht absehbar, dass die Kandidatenlisten nächstes Mal länger werden. Auf 200 Karteileichen kommen 70 zahlende Mitglieder kommen 15 Aktive, von denen sich 5 am Wahlkampf beteiligten. Diese Zahl macht mir Angst. Dies ist eine Partei, die von Basisarbeit und aktuell teils von Selbstausbeutung lebt. Sie besitzt viel Potential und Know-How, wird aber in der Form möglicherweise nicht in der Lage langfristig die Verantwortung zu tragen, die Wähler ihr auferlegen könnten. Ist es das, weswegen wir nicht gewählt werden? Ist das nach außen hin sichtbar?
Einer Partei, die auf so schwachen Beinen steht soviel Verantwortung zu geben finde selbst ich gewagt. Das ist gerade ohne Netz und doppelten Boden. Wären wir in den Bundestag kommen wäre es sehr hart geworden.

Ideenwerkstatt Filterbubble

Im Rahmen meines Engagements für die lokalen Piraten in Treptow-Köpenick war ich vor kurzem bei der Ideenwerkstatt des Kungerkiezinitiative eV. Es sollte bei Vorträgen, einem Kamingespräch und Tischdiskussionen um neue Formen der Bürgerbeteilligung diskutiert werden. Die Veranstaltung war SPD-nah, aber für jeden offen, daher gesellte ich mich dazu. Es wurde ein langer Nachmittag.

Ich gehörte mit 27 zu den Jüngsten und wurde nur von einem JuSo noch unterboten. insgesamt waren etwa 40-50 Leute vor Ort.
Es ging los mit einem Vortrag, in dem der Begriff und die Bedeutung von Bürgerbeteiligung herausgestellt werden sollten. Es erschien aber eher als Versuch, das Wort “Beteiligung” möglichst oft in einem Satz unter zu bringen. Anschließend wurde zu Tisch geladen, jeder Tisch mit einem Thema, zu dem in moderierter Diskussion Stichpunkte aufgenommen wurden. Neben “Bürgerbeteiligung vor Ort”, “Beteiligung von Senioren und Behinderten” und Integration im Bezirk, gab es das Thema “Politische Beteiligung von Jugendlichen”, zu dem ich mich gesetzt habe. Mehr aus Neugier, als aus Sachkenntnis.

Ich habe eine Filterbubble.
Meine Filterbubble wirkt sehr gut, hilft mir irrelevanten Schwachsinn auszublenden und gibt mir auch im Piratenumfeld das Gefühl auf der richtigen Seite zu stehen. Auf der anderen Seite muss ich anerkennen, dass meine Filterbubble dafür sorgt, dass ich einige Themen gar nicht mitbekommen, Argumente nicht anerkenne oder verstehe. Aus dieser Blase heraus zu kommen ist mitunter ein großer Aufwand, noch viel größer die Filterbubble anderer Menschen zu erfahren und zu begreifen.

Die Diskussion am Tisch war schwer zu ertragen.
Neben mir, dem JuSo, war noch jemand vom Bezirksamt, 2 Betreiber von örtlichen Jugendclubs und eine Moderatorin von der Friedrich-Ebert-Stiftung. Im Laufe der Diskussion wurde sehr offensichtlich, wie Diskussionsbeiträge von Personen bevorzugt wurden, die im Themenfeld arbeiten. Fragen und Anmerkungen von Leuten, die nicht an entsprechender Position teil der Thematik sind wurden sehr kurz weggewischt und nicht weiter behandelt. Dadurch war das Gespräch nie auf Augenhöhe und auch gute Ideen von Menschen, die nicht täglich mit der Frage konfrontiert sind “wie man mehr Jugendliche für politische Arbeit begeistern kann”, hatten keine Chance im Ansatz diskutiert zu werden oder da heraus Themen/Gedanken entstehen zu lassen. Die Moderatorin machte den Eindruck sehr genau zu wissen auf welche Aussagen sie gewartet hat und entsprechend auch nur diese auf zu schreiben.
Nachdem ich mehrmals abgebügelt wurde habe ich mich zurück gelehnt und beobachtet.

Man kann mir vorwerfen, ich hätte mich stärker einbringen können und auch piratenbezogene Antworten auf die gestellten Fragen liefern können.
Ich habe das nicht gemacht. Ich hatte im weiteren Verlauf nicht, das Gefühl, dass hier wirklich nach etwas Neuem gesucht wurde, sondern dass sich bekannte Akteure bekannte Allgemeinposten entgegnen.
Ich zog mich daher zurück und beobachtete die Diskussion als solches, im Ziel zu Ergründen, was für eine Erwartung herrscht und was für ein Menschen-/Realtiätsbild bei den Gesprächsteilnehmern vorliegt.
Mit anderen Worten ich begann ihre Filterbubble zu analysieren.

Der Nachmittag hätte für viele Teilnehmer erhellend sein können. Ich hätte mit einer Vorstellung von Liquid Democracy ein Thema in den Raum werfen können, das viele der bekannten und diskutierten Beteiligungskonzepte auf den Kopf stellt. Ich hätte, hab ich aber nicht. Stattdessen wurde der Nachmittag nur für mich sehr erkenntnisfördernd.

Nachdem sich unausgesprochen geeinigt wurde, dass die Diskussion nicht nur über Jugendliche, sondern über Beteiligung allgemein gehen sollte, konnte man mitverfolgen, wie die existierenden Konzepte neu aufgewärmt werden. Bürgerinitiativen, Kiezinitiativen, Bürgerbegehren, Bürgerhäuser, Kiezversammlungen, yadda-yadda-yeah. Wichtig war irgendwann das Eingeständnis in der Diskussion, dass die BVV-Politiker oder das Bezirksamt, am Ende des Tages eigentlich keine Ahnung haben, was der einzelne unorganisierte Bürger will. Gesehen wird nur wer sich organisiert, wer sich zusammenrottet, wer laut wird.

Dies war der Punkt, an dem ich den Zweck von Partei-externen Bezirksliquids begriffen habe.
Ich verstehe Liquid Feedback in diesem Zusammenhang als Werkzeug zur Meinungsfeststellung, nicht als Beschlusswerkzeug. Als einen Zugang jedes Einzelnen Ideen in einem formalen System einfließen lassen zu können. Als eine Chance der Politik Fragen über Strategien und Ziele in einem definierten Rahmen an jeden Bürger stellen zu können.
Hier ist die Chance, die Projekte wie Liquid Friesland ergreifen.

Bei der Vorstellung der Diskussionsergebnisse alle Tische wird an jemandem vom Bezirksamt die Frage gerichtet, ob nicht über das Internet mehr Bürgernähe hergestellt werden könnte. Seine Antwort war, er sähe dafür keine Notwendigkeit, weil “Das Internet ist nicht zuverlässiger!”

Am Ende dieser Diskussion bin ich gegangen. Ich bin ja sicher, das es alles schlaue Menschen dort waren, aber mir hat es gezeigt wie alte Denkweisen, keine neuen Gedanken schaffen. Wie ihre Filterbubble verhindert Ideen außerhalb der Blase wahrzunehmen und einen Rahmen zu schaffen in dem diese auch vorurteilsfrei diskutiert werden können.