Hallo,
1.) man könnte Ct-werte folgendermaßen erklären:
Ein Ct-wert (abgekürzt für "threshold cycle") ist eine Größe, mit der man die Menge/Konzentration gewonner DNA oder bestimmter Gene messen kann. Eine qPCR (quantitative Echtzeit Polymerase-Kettenreaktion) besteht aus mehreren Zyklen, in denen jeweils die Fluoreszenz gemessen wird. Der Ct-wert gibt den Zyklus bzw. den Zeitpunkt an, an dem die Fluoreszenz erstmals signifikant eine Hintergrund-Fluoreszenz (also einen bestimmten Schwellenwert) übersteigt, d.h. erstmals ein eindeutiges Fluoreszenzsignal erfasst wird. Wenn man die Fluoreszenz gegen die Zyklusnummer aufträgt, beschreibt der Ct-wert also den Zeitpunkt, wo die Kurve zum ersten Mal einen exponentiellen Anstieg aufweist. Dabei bedeutet ein höherer Ct-wert eine geringere DNA-Konzentration.
Zu den Vorverarbeitungsschritten:
2.) Die Normalisierung, die vorgenommen wird, heißt in der Biologie auch relative Quantifizierung. Die relative Quantifizierung ist in der Biologie eine gängige Methode, um genauere und weniger störanfällige Ergebnisse zu bekommen. Die Gene Actb und Gapdh eignen sich deswegen so gut für die Normalisierung, weil sie Haushaltsgene sind. Das sind Gene, die für die Zelle lebensnotwendig sind und nicht durch äußere Einflüsse reguliert werden.
Mit mean meine ich tatsächlich einfach nur den Durchschnitt der beiden Gene. Ich glaube, ich habe die mean-Funktion von numpy dafür verwendet.
3.) Der Baseline-Wert 28 hat was mit der qPCR zu tun. Die qPCR-Messung wurde bei dem Guo-Datensatz nur bis zum Zyklus 28 vorgenommen und alle Gene, die eine zu geringe Konzentration haben, werden auf diesen Wert gesetzt. Deswegen werden diese Matrix-Einträge bei der Vorverarbeitung extra behandelt.
Soll ich diese Informationen noch in das Blatt einfügen? Ich hatte bisher eher Abstand genommen von der Biologie, weil ich kein Biologie-Experte bin und selber die Sachen nur sehr oberflächlich verstehe.