Πρέπει να χρησιμοποιείτε αρνητικούς αριθμούς στις κλίμακες αξιολόγησης; – Μέτρηση U

September 30, 2022 0 Von admin

Υπάρχουν πολλές απόψεις σχετικά με τις καλύτερες μορφές για τις κλίμακες συμφωνίας. Μερικές φορές αυτές οι απόψεις υποστηρίζονται σθεναρά και μπορεί να οδηγήσουν σε μακροχρόνιες, έντονες συζητήσεις εντός των ερευνητικών ομάδων. Όταν οι διαφορές μορφής επηρεάζουν τις ιδιότητες μέτρησης, αυτές οι συζητήσεις μπορεί να είναι πολύ καλές για χρόνο, αλλά όταν οι μορφές δεν έχουν σημασία (ή έχουν πολύ μικρή σημασία), ο χρόνος χάνεται.

Γι‘ αυτό έχουμε έναν συνεχή ερευνητικό στόχο να εξερευνήσουμε αυτό το θέμα, να βρούμε τις διαφορές που έχουν σημασία και εκείνες που δεν έχουν, τουλάχιστον στο πλαίσιο της έρευνας UX.

Για την επιδίωξη αυτού του στόχου, αναφέραμε πρόσφατα συγκρίσεις δεδομένων UMUX-Lite που συλλέχθηκαν με τυπικές γραμμικές αριθμητικές κλίμακες πέντε σημείων και ρυθμιστικές κλίμακες, αξιολογήσεις πέντε αστέρων και κλίμακες emoji προσώπου.

Παρά τις σημαντικές διαφορές στη μορφή κλίμακας, μετά τη μετατροπή των δεδομένων αριθμητικής κλίμακας στην κλίμακα 0–100 βαθμών που είναι τυπική για το UMUX-Lite, οι μέσες διαφορές μεταξύ της τυπικής και της εναλλακτικής κλίμακας ήταν 0,7 για τα ρυθμιστικά, 1,3 για τα αστέρια και 0,5 για emoji προσώπου. Καμία από αυτές τις διαφορές δεν ήταν στατιστικά σημαντική.

Δεν περιμένουμε πλέον να βρίσκουμε μεγάλες διαφορές στις μετρήσεις UX όταν ο μόνος χειρισμός είναι οι μορφές στοιχείων. Και πάλι, η πραγματικότητα δεν ενδιαφέρεται για τις προσδοκίες μας, οπότε κατά καιρούς ερευνούμε διαφορετικές μορφές. Η κατοχή δεδομένων είναι ένας πολύ καλός τρόπος για να ευθυγραμμίσετε τις προσδοκίες σας με την πραγματικότητα.

Συνεχίζοντας αυτή τη γραμμή έρευνας, συλλέξαμε πρόσφατα ένα σύνολο δεδομένων για τη σύγκριση τυπικών γραμμικών αριθμητικών κλιμάκων πέντε σημείων (1 έως 5) και εναλλακτικών κλιμάκων πέντε σημείων από αρνητικό προς θετικό (Neg2Pos) με 0 στο κέντρο (- 2 έως +2).

Τι είναι οι κλίμακες Neg2Pos;

Οι ερευνητές UX συχνά συλλέγουν υποκειμενικά δεδομένα με κλίμακες συμφωνίας και μία από τις πιο κοινές μορφές είναι η γραμμική αριθμητική κλίμακα με ετικέτες τελικού σημείου και αριθμημένες επιλογές απόκρισης που ξεκινούν με το 1 στα αριστερά. Αυτή η μορφή είναι δημοφιλής για τυποποιημένα ερωτηματολόγια UX, συμπεριλαμβανομένων της κλίμακας χρήσης συστήματος (SUS), SUPR-Q και UMUX-Lite.

Μια ελαφρώς λιγότερο συνηθισμένη προσέγγιση είναι να αντιστοιχίσετε την επιλογή κεντρικής απόκρισης ως 0, με αρνητικούς αριθμούς στα αριστερά και θετικούς αριθμούς στα δεξιά. Δεν υπάρχει τυπικό όνομα για αυτήν τη μορφή, επομένως την αναφέρουμε ως κλίμακα αρνητικού σε θετικό (Neg2Pos). Τα σχήματα 1 και 2 δείχνουν παραδείγματα των τυπικών γραμμικών αριθμητικών εκδόσεων πέντε επιλογών και των εκδόσεων Neg2Pos του UMUX-Lite.

Εικόνα 1: Παράδειγμα τυπικής γραμμικής αριθμητικής έκδοσης του UMUX-Lite (δημιουργήθηκε με MUIQ).

Εικόνα 2: Παράδειγμα του UMUX-Lite χρησιμοποιώντας μια κλίμακα Neg2Pos πέντε σημείων (δημιουργήθηκε με MUIQ).

Η βιβλιογραφία που συγκρίνει τις κλίμακες Neg2Pos με τις τυπικές γραμμικές αριθμητικές κλίμακες είναι αραιή και μικτή. Σε μια πρόσφατη ανασκόπηση των μορφών στοιχείων, DeCastellarnau (2018) ανέφερε μόνο δύο σχετικές ερευνητικές εργασίες: η μία ανέφερε διαφορές στις κατανομές απόκρισης μεταξύ τυπικών και Neg2Pos κλίμακες και η άλλη δεν ανέφερε διαφορές.

Στο πρώτο (Schwarz et al., 1991 [PDF]), οι ερωτηθέντες σε συνεντεύξεις πρόσωπο με πρόσωπο κλήθηκαν να βαθμολογήσουν πόσο επιτυχημένοι ήταν στη ζωή τους μέχρι τώρα, χρησιμοποιώντας μια κλίμακα έντεκα βαθμών που αντιπροσωπεύεται ως σκάλα με «καθόλου επιτυχημένη» στο κάτω μέρος και «εξαιρετικά επιτυχημένη» στο η κορυφή. Κάθε βήμα της κλίμακας είχε επίσης έναν αριθμό, με τους μισούς από τους 1.032 ερωτηθέντες να βλέπουν το 0 έως το 10 και τους άλλους μισούς να βλέπουν -5 έως +5. Οι κατανομές απόκρισης ήταν σημαντικά διαφορετικές. Το 34% επιλέγει από το κάτω μισό της σκάλας με την πρώτη έκδοση (0 έως 5), αλλά μόνο το 13% επιλέγει από το κάτω μισό της σκάλας με τη δεύτερη έκδοση (-5 έως 0). Αυτό οδήγησε σε σημαντική διαφορά στα μέσα, με 6,4 για την πρώτη έκδοση και 7,3 για τη δεύτερη. (Εάν μετατραπεί σε κλίμακες 0–100 βαθμών, αυτή θα ήταν μια μέση διαφορά 9 βαθμών.)

Στη δεύτερη εργασία που αναφέρεται από τον DeCastellarnau, ο Reips (2000 [PDF—see pp. 95–104]) μελέτησε διάφορες επιδράσεις περιβάλλοντος σε έρευνες ιστού (n = 292). Οι ερωτηθέντες έδωσαν βαθμολογίες στην ερώτηση, „Συνολικά, πόσο ικανοποιημένος είστε με την ποιότητα της σύνδεσής σας στο Διαδίκτυο;“ Κανένας από τους πειραματικούς χειρισμούς – τύπος κλίμακας, κατευθυντικότητα ανάγνωσης, θέση εισαγωγής δρομέα, σειρά ερωτήσεων ή τύπος αριθμητικής επισήμανσης – δεν είχε σημαντικές επιπτώσεις στις προκύπτουσες μετρήσεις.

Αυτά τα πειράματα είχαν πολύ διαφορετικά αποτελέσματα, αλλά είχαν επίσης πολύ διαφορετικά πλαίσια. Στους Schwarz et al., οι ερωτηθέντες επέλεξαν την επιλογή απάντησής τους σε ένα περιβάλλον πρόσωπο με πρόσωπο όπου η ερώτηση είχε να κάνει με τα συναισθήματα επιτυχίας τους στη ζωή. Στο Reips, οι ερωτηθέντες ολοκλήρωσαν μια σύντομη διαδικτυακή έρευνα σχετικά με την ικανοποίηση από τη σύνδεσή τους στο Διαδίκτυο. Είναι εύλογο ότι στο πρώτο πλαίσιο, οι ερωτηθέντες ήταν απρόθυμοι να δώσουν αρνητικό αριθμό στην επιτυχία της ζωής τους και στο δεύτερο πλαίσιο, οι ερωτηθέντες ήταν απολύτως πρόθυμοι να εκχωρήσουν αρνητικούς αριθμούς για να ικανοποιήσουν τη σύνδεσή τους στο Διαδίκτυο.

Με βάση την περιορισμένη έρευνα, θα περιμέναμε ότι οι αξιολογήσεις UX και με τις δύο αριθμητικές μορφές θα παράγουν παρόμοια αποτελέσματα. Για να ελέγξουμε, εκτελέσαμε ένα πείραμα για να δούμε αν αυτές οι διαφορές μορφής επηρέασαν τις μετρήσεις που έγιναν με ένα σύντομο τυποποιημένο ερωτηματολόγιο UX, το UMUX-Lite.

Τυπικό σε σύγκριση με το πείραμα αριθμητικής κλίμακας Neg2Pos

Δημιουργήσαμε έναν ελληνολατινικό πειραματικό σχεδιασμό για να υποστηρίξουμε μια σύγκριση μεταξύ των θεμάτων των αξιολογήσεων UMUX-Lite μιας ποικιλίας ψυχαγωγικής προσέγγισης ροής. Συνολικά 256 συμμετέχοντες, που έλαβαν δείγμα τον Αύγουστο του 2020 από μια εταιρεία πάνελ των ΗΠΑ, βαθμολόγησαν έναν από τους Netflix, AT&T TV Now, Amazon Prime Video, Hulu, YouTube TV ή Disney+. (Για λεπτομερείς πληροφορίες σχετικά με τις μετρήσεις UX και συγκρίσεις μεταξύ δημοφιλών ιστότοπων και εφαρμογών ψυχαγωγίας ροής βίντεο, ανατρέξτε στο πρόσφατο άρθρο και την αναφορά μας.)

Σε αυτό το σχέδιο, υπήρχαν τρεις ανεξάρτητες μεταβλητές:

  • Μορφή αντικειμένου (τυπική αριθμητική, Neg2Pos—δείτε Εικόνες 1 και 2)
  • Πλαίσιο αξιολόγησης (αξιολόγηση της πιο πρόσφατης εμπειρίας με την υπηρεσία, αξιολόγηση της συνολικής εμπειρίας με την υπηρεσία)
  • Σειρά παρουσίασης (τυπική/πρόσφατη μετά Neg2Pos/συνολική· τυπική/συνολική μετά Neg2Pos/πρόσφατη· Neg2Pos/πρόσφατη μετά τυπική/συνολική· Neg2Pos/συνολική μετά τυπική/πρόσφατη)

Οι συμμετέχοντες ανατέθηκαν τυχαία σε μία από τις τέσσερις παραγγελίες που σχηματίστηκαν από τη διασταύρωση της Μορφής Αντικειμένου, του Περιεχομένου Αξιολόγησης και της Σειράς Παρουσίασης. Σε όλο το πείραμα, αυτό ελέγχει τις μεταβλητές «ενόχλησης» του πλαισίου αξιολόγησης και της σειράς παρουσίασης. (Εκτός από τα πειράματα που διεξάγουμε για τους εαυτούς μας, χρησιμοποιούμε επίσης αυτό το σχέδιο μελέτης για έργα πελατών, όταν χρειάζεται να ελέγξουμε αποτελεσματικά τις μεταβλητές όχλησης και θέλουμε τη βελτιωμένη ακρίβεια ενός σχεδιασμού εντός του θέματος.)

Αποτελέσματα

Συνδυάσαμε και μετατρέψαμε τις αποκρίσεις πέντε σημείων και για τις δύο εκδόσεις του UMUX-Lite στην τυπική τους κλίμακα 0–100 βαθμών και συμπτύξαμε τα δεδομένα σε όλες τις υπηρεσίες. Η μέση διαφορά (n = 256) ήταν μικρότερη από ένα σημείο (0,7) και όχι στατιστικά σημαντική (Εικόνα 3).

Σχήμα 3: Συνολική διαφορά μεταξύ των μέσων UMUX-Lite για τυπικές και αριθμητικές κλίμακες Neg2Pos (οι ράβδοι σφάλματος είναι 95% διαστήματα εμπιστοσύνης με περιθώριο σφάλματος ±1,9).

Μια ANOVA δεν έδειξε σημαντικές κύριες επιδράσεις ή αλληλεπιδράσεις (όλα p > 0,22 με 252 σφάλμα df). Επειδή η κύρια επίδραση της τάξης δεν ήταν σημαντική (F(1, 252) = 1,5· p = 0,21), δεν υπάρχουν πειστικές ενδείξεις ότι η ασύμμετρη μεταφορά παραμορφώνει τις αξιολογήσεις.

Ένα διάστημα εμπιστοσύνης 95% γύρω από την παρατηρούμενη διαφορά του 0,7 κυμαινόταν από -0,5 έως 1,9, επομένως μια διαφορά 0 είναι εύλογη, αλλά οποιαδήποτε απόλυτη διαφορά υπερβαίνει το 1,9 δεν είναι εύλογη. Δεν υπάρχει εξωτερικό σημείο αναφοράς για τον προσδιορισμό του μέσου όρου που είναι „σωστό“, αλλά το διάστημα εμπιστοσύνης δείχνει ότι όλες οι εύλογες διαφορές είναι μικρές δεδομένης της πλήρους εμβέλειας του UMUX-Lite (0 έως 100 βαθμοί).

Τα σχήματα 4 και 5 δείχνουν την κατανομή των απαντήσεων για τα στοιχεία Ευκολία και Χρησιμότητα („ανταποκρίνεται στις απαιτήσεις“) του UMUX-Lite και για τις δύο μορφές (αντιστοιχίζοντας τις επιλογές απόκρισης -2 έως +2 σε 1 έως 5 για αυτά τα γραφήματα). Όπως ήταν αναμενόμενο, οι κατανομές ήταν παρόμοιες.

Σημειώστε ότι αυτά τα αποτελέσματα είναι συγκεκριμένα για αυτούς τους τύπους ερωτήσεων σχετικά με έναν τύπο εμπειρίας (υπηρεσίες ροής). Θα περιμέναμε τα αποτελέσματα να γενικεύονται σε παρόμοιες μορφές στοιχείων σε παρόμοια περιβάλλοντα, αλλά είναι πάντα πιθανό να υπάρχουν μη γραμμικές κλίμακες με αρκετή απόκλιση από τη γραμμικότητα ώστε να επηρεάζουν την κατανομή των επιλογών απόκρισης. Για παράδειγμα, ο χειρισμός της διατύπωσης των στοιχείων στην Κλίμακα Ευχρηστίας Συστήματος δεν έχει ισχυρή επίδραση στις μετρήσεις που προκύπτουν, εκτός εάν ο χειρισμός του στοιχείου είναι ακραίος (π.χ. αλλαγή του στοιχείου 10 από „Χρειαζόμουν να μάθω πολλά πράγματα για να μπορέσω να λάβω πηγαίνοντας με το σύστημα“ σε „Νομίζω ότι θα χρειαζόμουν μια μόνιμη τηλεφωνική γραμμή στο γραφείο βοήθειας για να μπορώ να χρησιμοποιήσω τον ιστότοπο“). Τα αποτελέσματα μιας τέτοιας ακραίας διατύπωσης παραμένουν ανοιχτό ερευνητικό ερώτημα.

Εικόνα 4: Κατανομές απόκρισης για το στοιχείο Ease (με διαστήματα εμπιστοσύνης 90%).

Εικόνα 5: Κατανομές απόκρισης για το στοιχείο Χρησιμότητα (με 90% διαστήματα εμπιστοσύνης).

Περίληψη και Takeaways

Σε αυτό το πείραμα, δεν βρήκαμε σημαντικές διαφορές ή αλληλεπιδράσεις μεταξύ των μέσων αξιολογήσεων UMUX-Lite που συλλέχθηκαν με τυπικές γραμμικές αριθμητικές κλίμακες (1 έως 5) και Neg2Pos (-2 έως +2).

Η συνολική παρατηρούμενη διαφορά (0,7) ήταν σύμφωνη με τις διαφορές που βρήκαμε σε παρόμοια πειράματα που συγκρίνουν γραμμικές αριθμητικές κλίμακες με κλίμακες ρυθμιστικού (0,6), κλίμακες αστεριών (1,3) και κλίμακες emoji προσώπου (0,5). Αυτή η διαφορά είναι αρκετά μικρή σε σχέση με την πλήρη γκάμα του UMUX-Lite (0 έως 100 βαθμοί).

Ένα διάστημα εμπιστοσύνης 95% γύρω από την παρατηρούμενη διαφορά κυμαινόταν από -0,5 έως 1,9 μονάδες, επομένως μια πραγματική διαφορά 0 είναι εύλογη, αλλά οποιαδήποτε απόλυτη διαφορά υπερβαίνει το 1,9 δεν είναι.

Η κατανομή των απαντήσεων στις διαφορετικές εκδόσεις των στοιχείων Ευκολία και Χρησιμότητα διέφερε ελάχιστα.

Αυτά τα αποτελέσματα υποστηρίζουν τη χρήση οποιασδήποτε μορφής στην έρευνα UX για τη μέτρηση των συναισθημάτων ή των στάσεων σχετικά με προϊόντα ή υπηρεσίες. Επειδή δεν φαίνεται να υπάρχει κάποιο ιδιαίτερο πλεονέκτημα στη χρήση των κλιμάκων Neg2Pos σε αυτό το πλαίσιο, οι ερευνητές UX θα πρέπει να αισθάνονται άνετα με τις τυπικές γραμμικές αριθμητικές κλίμακες αξιολόγησης. Εάν απαιτείται να χρησιμοποιούν κλίμακες Neg2Pos, θα πρέπει να το κάνουν με σιγουριά, δεδομένης της αποδεδειγμένης ισοδυναμίας τους.

Οι ερευνητές θα πρέπει, ωστόσο, να είναι προσεκτικοί χρησιμοποιώντας τις κλίμακες Neg2Pos όταν βάζουν τους συμμετέχοντες να αξιολογούν τους εαυτούς τους (π.χ. επιτυχία στη ζωή όπως στο Schwartz et al., 1991), επειδή είναι εύλογο ότι οι άνθρωποι μπορεί να είναι απρόθυμοι να ορίσουν στον εαυτό τους αρνητικούς αριθμούς. Για αυτόν τον τύπο έρευνας, εκτός και αν υπάρχει επιτακτικός λόγος να χρησιμοποιηθούν κλίμακες με το 0 στο κέντρο, φαίνεται συνετό να χρησιμοποιηθούν πιο τυπικές κλίμακες.