Regression bei sher unterschiedlicher Größenordnung von x- und y-Werten

rabe shared this question 2 months ago
Answered

Liebes Geogebra-Team,


mit der Umstellung von (GTR/CAS-)Taschenrechnern auf Notebooks in unseren unteren Klassenstufen ergibt sich für uns die Frage, welches Programm in Prüfungen ein Ersatz sein wird. Geogebra hat da ja schon sehr viel vorgearbeitet mit dem Prüfungsmodus.


Nun versuche ich mich auch in meiner Nutzung langsam von GTR auf Geogebra umzustellen, bevor die entsprechenden Jahrgänge in kritischen Bereichen (Abitur) angekommen sind. Dabei ist mir etwas bei Regressionen aufgefallen.

In Physik kann man sich leider die Größenordnungen der beteiligten Zahlenwerte nicht so recht aussuchen - zumindest wenn man mit Grundeinheiten arbeiten will. Ein extremes Beispiel in der Oberstufenphysik ist der Fotoeffekt. Die Frequenzwerte (x-Achse) liegen im Bereich 10^14 Hertz, die Energiewerte (y-Achse) bei 10^⁻19 Joule.


Mein Standardverfahren zur Auswertung wäre:

Eintragen der Werte in eine Datentabelle --> Auswahl der entsprechenden Werte --> Analyse zweier Variablen --> Regressionsmodell: Linear

Das klappt auch soweit, eine lineare Regression wird offensichtlich durchgeführt, allerdings wird als erstes y= 0 x als Ergebnis angezeigt. Die Anzeige der "richtigen" Gleichung kann ich provozieren, in dem ich bei "Berechne symbolisch" für den x-Wert etwas eintrage und berechnen lasse.

Die zugehörige Graphik ist allerdings nicht wirklich nutzbar. Die x-Achse wird sachgerecht skaliert (E14), die y-Achse ist im Bereich E-3 skaliert, alle y-Werte liegen also auf der x-Achse, eine grafische Überprüfung auf systematische Abweichungen ist so nicht möglich. Bei dem Versuch, die Skalierung der y-Achse händisch zu verstellen, stürzt die Anwendung ab.

Das Problem ist wohl, dass sich die Größenordnungen von x- und y-Achse nicht so weit spreizen lassen. Das ist mir auch schon bei dem "normalen" Grafikmodus aufgefallen.


Es wäre also sehr hilfreich, wenn

  • die Regressionsgleichung sofort mit angemessener Formatierung der Zahlen angezeigt würde,
  • die Skalierung von x- und y-Achse sich weiter spreizen lassen könnte, so dass die y-Achse in dem Beispiel automatisch sachgerecht skaliert wird.


Herzliche Grüße

rabe

P.S. Ich habe die Beispieldatei mit der am 20.3.21 aktuellen Online-Version von Geogebra-Classic 6 erstellt: 6.0.631.0-w.

Comments (5)

photo
1

Es könnte sein, daß es keinen Sinn ergibt 15 Stellen einzugeben und dann 5 Significant figures zu setzen. Mit 15 Stellen gerechnet

/5vxj89CjYcLAAAAAElFTkSuQmCC

Interesse halber hab ich zu Fuß im CAS (exakt) gerechnet und

{(4.466241125597 * 10^(-34)), (-2.124883554753 * 10^(-19))}

erhalten - sind sich also ziemlich einig.

Da die Zahlengenauigkeit bei 15 Stellen liegt dürfte es grundsätzliche Probleme geben im Graphic-Modul mit einer Auflösung von 10^-34 noch was sehen zu wollen? Die x-Achse rastet auch bei E14, also an der Genauigkeitsgrenze ein - mehr wird nicht gehen. Die Spreizung (Ratio) x:y würde dann von Grenzwert zu Grenzwert bei ~10^30 liegen und für Dein Beispiel bei ~10^45

Vielleicht öffnest Du einen Bug-Report (Problem) um bei Michael die Grenzen abzufragen?

Warum streichst DU nicht die Potenzen:

X = {8.33333333333333, 7.50000000000000, 6.81818181818182, 6.12244897959184, 5.55555555555556, 5.08474576271186}

Y = {16.6608000000000, 11.6946000000000, 8.65080000000001, 6.08760000000001, 3.68460000000000, 1.76220000000000}

===>{y = (4.466241125593 * x) - 21.24883554751}

und fügst sie als Beschriftung wieder ein....

photo
1

Herzlichen Dank für die ausführliche Antwort und den Gegentest mit dem CAS. Den grundsätzlichen Fähigkeiten von Geogebra vertraue ich auch sehr stark, es ist schon sehr außergewöhnlich, welch komplexe Dinge auf recht elegante Weise hier möglich sind.


Zu Punkt 1: Das Anzeigen mit "5 significant figures" habe ich eher als eine Formatierungsanweisung gelesen und nicht als ein Setzen der internen Genauigkeit. Ich hätte tatsächlich vermutet, dass intern mit höchst möglicher Genauigkeit gerechnet wird und am Ende das Ergebnis auf 5 signifikante Stellen genau in wissenschaftlicher Schreibweise (z.B. 1.2345 E^-34) dargestellt wird. Oder mindestens intern mit der angegebenen Genauigkeit (5 signifikante Stellen) gerechnet wird. Das würde ja die entsprechende Spreizung allein auf der Rechenebene nicht limitieren. Wäre es anders, dann ergäbe die Aufzählung bei den Einstellungen ja nicht so viel Sinn. Da kann ich eben wählen, ob ich "15 Dezimalstellen" oder "15 signifikante Stellen" angezeigt bekomme. (Oder ggf. auch intern mit dieser Genauigkeit gerechnet werden soll, je nach dem was die Einstellung bedeutet).


Zu Punkt 2: Na klar, dass ich selbst die Potenzen weglassen kann, um sie beim Ergebnis wieder hinzu zu fügen, ist mir klar. Es geht aber ja nicht um mich sondern um die Schülerinnen und Schüler. Und da ist das Auslassen der Potenzen sicher kein unüberwindbares Problem, aber eine zusätzlichen Hürde, die ich gerne ausgeräumt wüsste. (Und die es, am Rande bemerkt, bei der bisherigen GTR/CAS-Lösung eben nicht gibt. Ich weiß, das ist kein besonders zielführendes Argument ;-) .) Gerade die Beachtung der Potenzen bei der Auswertung von Daten ist etwas, worauf immer wieder hingewiesen werden muss. In Leistungssituationen vergessen die Schülerinnen und Schüler am Ende der Regression sonst allzu leicht, die ursprünglichen Potenzen wieder aufzunehmen. Daher ist mein Mantra: Immer in Grundeinheiten einsetzen! Das an dieser Stelle auszusetzen, wäre mir nicht so recht ... . Wenn es nicht anders ginge, dann wäre es halt so. Irgendwie kann ich mir aber nicht vorstellen, dass das eine prinzipielle Begrenzung in Geogebra sein sollte.

Die Anzeige der Regressionsgleichung klappt ja auch letztendlich, nur die Darstellung in der Grafik nicht. Im Grunde sollte das kein Problem für einen Diagrammplotter sein, bei Geogebra hängen aber natürlich die ganzen Geometriefähigkeiten noch an der Darstellungsfläche. Ich denke mal, dass die Beschränkungen daher kommen.


> Vielleicht öffnest Du einen Bug-Report (Problem) um bei Michael die Grenzen abzufragen?

Wie genau mache ich das? Einfach die gleiche Frage hier noch einmal als Problem einstellen oder gibt es eine andere Plattform dafür?

Herzliche Grüße

rabe

photo
1

Therefore, my mantra is: Always use in basic units!
That's fine from a mathematical viewpoint but once you start using floating point numbers then it's trickier and sometimes it's important to normalize the numbers before calculating. Here's an example https://www.geogebra.org/m/EowbH2Ka


/CBrj6QqbjtFd40gd2zgbcQgAAEIAABCEAAAhCAAAQgAAEIQAACEIAABCAAgdIRQGAvXZNhMAQgAAEIQAACEIAABCAAAQhAAAIQgAAEIAABCBSBAAJ7EVoBGyAAAQhAAAIQgAAEIAABCEAAAhCAAAQgAAEIQKB0BP4fkjCbHdlscocAAAAASUVORK5CYII=

photo
1

Thank you for your clarification. Never thought about that and didn't come across that in my (long ago) physics diploma. In fact all the experiments we undertake at school are didactical ones and not research experiments. And if you have only six pairs of values in this setting there is no real need to talk about the best way for a regression.


And furthermore we have to perform an experiment covering the fotoeffect with LEDs. To get good results you have to fiddle with wavelength to come close to the desired results. Taking this into account my priority is to guide my pupils through data analysis without discussing to much of the mathmatical background. The quality of the data is not worth that.


If we had a laboratory training I would consider taking this into account.


Cheers


rabe

photo
© 2021 International GeoGebra Institute