Τι κερδίζετε από δοκιμές ευχρηστίας μεγαλύτερου δείγματος; – Μέτρηση U

September 30, 2022 0 Von admin

Συνήθως συνιστούμε μικρά μεγέθη δειγμάτων (5–10) για τη διεξαγωγή επαναληπτικών δοκιμών ευχρηστίας με σκοπό την εύρεση και τη διόρθωση προβλημάτων (διαμορφωτικές αξιολογήσεις).

Για συγκριτικές ή συγκριτικές μελέτες, όπου η εστίαση είναι στον εντοπισμό διαφορών ή στην εκτίμηση των παραμέτρων πληθυσμού (αθροιστικές αξιολογήσεις), συνιστούμε τη χρήση μεγαλύτερων μεγεθών δειγμάτων (20–100+).

Η δοκιμή ευχρηστίας μπορεί να χρησιμοποιηθεί για την αποκάλυψη προβλημάτων και την αξιολόγηση της εμπειρίας. Πολλά τεστ ευχρηστίας θα παίξουν και τους δύο ρόλους ταυτόχρονα, διαμορφωτικούς και αθροιστικούς, επομένως το μέγεθος του δείγματος καταλήγει να είναι μια ισορροπία για την κάλυψη των αναγκών και των δύο.

Πραγματοποιήσαμε πρόσφατα μια δοκιμή ευχρηστίας για έναν πελάτη. Ήταν ο δεύτερος γύρος δοκιμών πρωτοτύπων για ένα προϊόν που απευθύνεται στους καταναλωτές. Οι στόχοι ήταν παρόμοιοι με πολλά τεστ χρηστικότητας πολλαπλών σταδίων που εξισορροπούν τόσο τους διαμορφωτικούς όσο και τους αθροιστικούς στόχους:

  • Οι αλλαγές που έγιναν για την επίλυση των προβλημάτων που εντοπίστηκαν στον πρώτο γύρο βελτίωσαν την εμπειρία;
  • Οι διορθώσεις έφεραν νέα προβλήματα;
  • Είναι το προϊόν αρκετά καλό για το επόμενο στάδιο ανάπτυξης;

Αυτό ήταν ένα έργο που χρηματοδοτήθηκε από τα στελέχη και τα αποτελέσματα θα είχαν μεγάλο αντίκτυπο στο χρονοδιάγραμμα κυκλοφορίας. Προτείναμε ένα αρκετά μεγάλο μέγεθος δείγματος 18 για να αυξήσουμε την εμπιστοσύνη μας στα ευρήματα. Όπως είναι τυπικό για τις μελέτες μας, στη συνέχεια συμπεριλάβαμε βασικές μετρήσεις για να βοηθήσουμε στην ενημέρωση των αποφάσεων με δεδομένα στην ελεγχόμενη μελέτη μας.

Η ερευνητική μας ομάδα περιέγραψε και μέτρησε τη συχνότητα και τη σοβαρότητα των προβλημάτων ευχρηστίας που αποκαλύφθηκαν, και συλλέξαμε τα ποσοστά ολοκλήρωσης εργασιών και χορηγήσαμε την ερώτηση Single Ease Question (SEQ) για να μετρήσουμε την ευκολία εργασίας.

Μετά τη μελέτη, αναφέραμε τα αποτελέσματα, τα οποία περιλάμβαναν μια λίστα προβλημάτων με στιγμιότυπα οθόνης, εισαγωγικά και μια περίληψη των μετρήσεων σε επίπεδο εργασίας και μελέτης.

Η εκτελεστική περίληψη πρότεινε ότι τα πράγματα βελτιώθηκαν με το πρωτότυπο, καθώς διαπιστώσαμε ότι οι συμμετέχοντες είχαν μια γενικά καλή εμπειρία με λιγότερα προβλήματα που δεν είχαν καλυφθεί και υψηλότερες μετρήσεις εργασιών, αν και υπήρχαν ακόμη τομείς για βελτίωση. Ένα στέλεχος ήθελε να μάθει πόση πίστη θα έπρεπε να έχει στα αποτελέσματα με το μέγεθος δείγματος 18. Ο αριθμός των προβλημάτων που εντοπίστηκαν και η ακρίβεια των μετρήσεων γνωστοποίησαν για εμάς την αποτελεσματικότητα της μελέτης.

Εμπιστοσύνη σε προβλήματα που βρέθηκαν και δεν ανακαλύφθηκαν

Ανακαλύψαμε λίγα νέα προβλήματα σε αυτόν τον γύρο, και δεν ήταν σοβαρά. Και τα προβλήματα που εντοπίστηκαν στον πρώτο γύρο επιλύθηκαν ως επί το πλείστον αφού η ομάδα προϊόντων έκανε κάποιες επιδιορθώσεις. Πόσα ακόμη προβλήματα υπάρχουν εκεί έξω που δεν έχουμε εντοπίσει; Τι θα γινόταν αν δοκιμάσαμε με άλλους 10 ή 20 ή 50 συμμετέχοντες; Οι ερευνητές UX έχουν αντιμετωπίσει αυτά τα ερωτήματα για δεκαετίες και φυσικά, οι απαντήσεις έρχονται με κάποια διαμάχη. Πιστεύουμε ότι αυτό οφείλεται κυρίως στο ότι οι άνθρωποι παρεξηγούν ορισμένα βασικά σημεία. Αυτό που δεν είναι αμφιλεγόμενο είναι η βασική ιδέα ότι θα αποκαλύψετε τα περισσότερα από τα κοινά ζητήματα στους πρώτους συμμετέχοντες. Τα λιγότερο κοινά προβλήματα έχουν μικρότερες πιθανότητες να παρατηρηθούν σε ένα τεστ ευχρηστίας με λίγους συμμετέχοντες.

Το πώς ορίζουμε το „κοινό“ εξαρτάται από το πλαίσιο (δεν θέλουμε πολλά προβλήματα σε ένα πιλοτήριο αεροπλάνου!). Ωστόσο, μπορούμε ακόμα να εκχωρήσουμε αριθμούς στις λέξεις „κοινό“ και „λιγότερο κοινό“ για μια γενική εμπειρία χρήστη που μπορεί να τροποποιηθεί με βάση το περιβάλλον.

Συνήθη προβλήματα θα ήταν αυτά που επηρεάζουν ένα αρκετά μεγάλο ποσοστό χρηστών. Σίγουρα, αυτά θα ήταν προβλήματα που επηρεάζουν τους μισούς (50%) των συμμετεχόντων, αλλά θα υποστηρίζαμε ότι τα προβλήματα που επηρεάζουν μόλις το ένα τρίτο (33%) των συμμετεχόντων θα πρέπει να θεωρούνται κοινά. Εάν ένας στους δύο ή τρεις χρήστες αντιμετωπίζει το ίδιο πρόβλημα, είναι συνηθισμένο να παρατηρείτε.

Το Σχήμα 1 δείχνει τη αθροιστική διωνυμική πιθανότητα να δούμε ένα πρόβλημα τουλάχιστον μία φορά σε ένα τεστ χρηστικότητας δίνοντας διαφορετικά κατώφλια εμφάνισης για ένα μέγεθος δείγματος 18 και, για σύγκριση, για ένα μέγεθος δείγματος 5.

Εάν υπάρχει κάποιο πρόβλημα και επηρεάζει το 33% ή το 50% των χρηστών, ποιες είναι οι πιθανότητες να το δούμε σε αυτό το τεστ ευχρηστίας; Σε μέγεθος δείγματος 18, η απάντηση είναι μεγαλύτερη από 99% και για τους δύο ορισμούς του «κοινού».

Σε ένα μέγεθος δείγματος 5, η απάντηση εξακολουθεί να είναι ένα εντυπωσιακό 97% και 87%, οπότε δεν υπάρχει μεγάλη διαφορά. Και οι δύο προσφέρουν μεγάλη εμπιστοσύνη στην εύρεση κοινός προβλήματα.

Εικόνα 1: Πιθανότητα εμφάνισης ενός προβλήματος τουλάχιστον μία φορά για 5 και 18 χρήστες με βάση το πόσο κοινό θα ήταν το πιθανό πρόβλημα στη βάση πελατών.

Για λιγότερο συνηθισμένα προβλήματα, μπορούμε να εκχωρήσουμε αριθμούς 10% (1 στους 10 χρήστες) και 5% (1 στους 20 χρήστες). Κοιτάζοντας το Σχήμα 1, βλέπουμε ότι ένα δείγμα 18 έχει, αντίστοιχα, 85% και 61% πιθανότητα να ανιχνεύσει προβλήματα αυτών των συχνοτήτων τουλάχιστον μία φορά (βρείτε τα πράσινα σημεία πάνω από το 5% και το 10% στον οριζόντιο άξονα).

Αντίθετα, το μικρότερο μέγεθος δείγματος των 5 θα είχε αντίστοιχες πιθανότητες μόνο 41% ​​και 23% να εντοπίσει αυτά τα ζητήματα (βρείτε τα σημεία στη μπλε γραμμή πάνω από τα σημεία 5% και 10% στον οριζόντιο άξονα). Η διαφορά δείχνει το όφελος από το να έχετε μεγαλύτερο μέγεθος δείγματος 18: έχετε μεγαλύτερη εμπιστοσύνη ότι έχετε δει τόσο κοινά όσο και ασυνήθιστα (αλλά πιθανώς ακόμα κρίσιμα) προβλήματα.

Η ολοκλήρωση της εργασίας ήταν πάνω από το μέσο όρο

Περνώντας στις μετρήσεις για το ποσοστό ολοκλήρωσης εργασιών, βλέπουμε στο Σχήμα 2 ότι τα ποσοστά ολοκλήρωσης κυμαίνονταν μεταξύ 78% και 95% για τις πέντε εργασίες. Το γράφημα ράβδων περιλαμβάνει 90% διαστήματα εμπιστοσύνης. μπορούμε να χρησιμοποιήσουμε το χαμηλό άκρο της γραμμής διαστήματος για να έχουμε κάποια ιδέα για το κατώτερο όριο του ρυθμού ολοκλήρωσης, εάν δοκιμάζαμε δεκάδες ή εκατοντάδες ακόμη συμμετέχοντες. Ποιο είναι το αποδεκτό ποσοστό ολοκλήρωσης εργασιών; Και πάλι, αυτό εξαρτάται από το πλαίσιο και ορισμένες από τις εκτιμήσεις σε αυτό το πλαίσιο είναι ότι το προϊόν σίγουρα δεν συνεπάγεται συνέπειες ζωής και θανάτου και βρίσκεται ακόμη στα αρχικά στάδια ανάπτυξής του.

Αλλά σε οποιοδήποτε πλαίσιο, το υψηλότερο είναι, φυσικά, καλύτερο. Από τη μέτρηση περισσότερων από χίλιες εργασίες, διαπιστώσαμε ότι το ποσοστό ολοκλήρωσης 78% (ο μέσος όρος για όλες αυτές τις εργασίες) είναι αποδεκτό στα περισσότερα περιβάλλοντα. Χρησιμοποιήσαμε αυτά τα δεδομένα για να συνθέσουμε μια πρόχειρη καμπύλη κλίμακα βαθμολόγησης για τις ολοκληρώσεις εργασιών, που φαίνεται στον Πίνακα 1. Επειδή το 15% των εργασιών στην ομάδα αναφοράς μας είχε ποσοστά ολοκλήρωσης 100%, δεν είναι δυνατό να γίνει διάκριση θετικών ή πλην Ενα επίπεδο. Σχεδιαστικά, ο μέσος όρος του 78% βρίσκεται στο κέντρο του εύρους για έναν βαθμό C. Το χαμηλότερο ποσοστό ολοκλήρωσης για βαθμολογία C είναι 67,3.

Βαθμός Εύρος εκατοστημόριου Επιτυχία (%)
Α+ 96-100 100
ΕΝΑ 90-95 100
ΕΝΑ- 85-89 100
Β+ 80-84 96,9-99,9
σι 70-79 90,3-96,8
ΣΙ- 65-69 86,7-90,2
C+ 60-64 83,1-86,6
ντο 41-59 67,3-83,0
ΝΤΟ- 35-40 61,4-67,2
ρε 15-34 33,6-61,3
φά 0-33,5 0-33,5

Πίνακας 1: Καμπύλη κλίμακα βαθμολόγησης για ποσοστά ολοκλήρωσης εργασιών.

Το σχήμα 2 δείχνει ότι το κάτω όριο του διαστήματος εμπιστοσύνης 90% δεν πέφτει κάτω από το C για όλες τις εργασίες εκτός από την Εργασία 2, η οποία εμπίπτει στην περιοχή D. Έτσι, υπάρχει αρκετά μεγάλη εμπιστοσύνη ότι οι περισσότεροι χρήστες μπορούν να ολοκληρώσουν τις περισσότερες εργασίες. Η αποτελεσματικότητα, ωστόσο, είναι μόνο μία πτυχή της εμπειρίας χρήστη. είναι απαραίτητο αλλά όχι αρκετό.

Εικόνα 2: Ποσοστό ολοκλήρωσης εργασιών για τις πέντε εργασίες που αξιολογήθηκαν.

Η ευκολία εργασίας ήταν στον καλύτερο μέσο όρο

Περνώντας στην αντίληψη της εμπειρίας, το Σχήμα 3 δείχνει τη μέση βαθμολογία SEQ για κάθε εργασία και μια γραμμή με μέση ιστορική ευκολία περίπου 5,5. Μπορούμε να δούμε από το Σχήμα 3 ότι το κατώτερο όριο των διαστημάτων εμπιστοσύνης 90% για τρεις εργασίες ξεπέρασε τη μέση ιστορική ευκολία, αλλά για δύο δεν το έκανε. Είναι ιδιαίτερα ενδιαφέρον ότι παρόλο που η Εργασία 1 είχε υψηλό ποσοστό ολοκλήρωσης (89%), είχε τη χαμηλότερη βαθμολογία ευκολίας, που σημαίνει ότι οι χρήστες μπορούσαν να ολοκληρώσουν την εργασία, αλλά δεν πίστευαν ότι ήταν τόσο εύκολο. Για τις υπόλοιπες εργασίες, η επιτυχής ολοκλήρωση και η ευκολία ήταν συνεπείς. (Χωρίς την Εργασία 1, η συσχέτιση μεταξύ ολοκλήρωσης και ευκολίας ήταν 0,98· με την Εργασία 1, έπεσε σε 0,62.)

Εικόνα 3: Βαθμολογίες ευκολίας εργασίας (SEQ) για τις πέντε εργασίες που αξιολογήθηκαν.

Περίληψη

Τα περισσότερα τεστ ευχρηστίας συνδυάζουν διαμορφωτικούς και αθροιστικούς στόχους, τόσο για την εύρεση προβλημάτων όσο και για τη μέτρηση της απόδοσης, επομένως υπάρχει συχνά ανάγκη να εξισορροπηθούν οι απαιτήσεις μεγέθους δείγματος για κάθε σκοπό. Για να αξιολογήσετε την εμπιστοσύνη στην εύρεση προβλημάτων, χρησιμοποιήστε τον τύπο αθροιστικής διωνυμικής πιθανότητας για να αξιολογήσετε πόσα κοινά και ασυνήθιστα προβλήματα πιθανότατα έχετε δει (και πόσα παραμένουν άγνωστα). Είναι εύκολο να δείτε κοινά προβλήματα με ένα μικρό μέγεθος δείγματος, αλλά θα χρειαστείτε μεγαλύτερο μέγεθος δείγματος για να εντοπίσετε ασυνήθιστα προβλήματα.

Για να αξιολογήσετε την απόδοση, χρησιμοποιήστε μετρήσεις εργασιών, όπως το ποσοστό ολοκλήρωσης και η αντιληπτή ευκολία. Και τα δύο αυτά μέτρα λειτουργούν καλά τόσο σε πρωτότυπα όσο και σε πλήρως λειτουργικά προϊόντα και μπορούν να συγκριθούν με ιστορικά σημεία αναφοράς ή συμβάσεις.

Σε αυτή τη μελέτη περίπτωσης, με μέγεθος δείγματος 18, είχαμε μεγάλη εμπιστοσύνη ότι είδαμε τα περισσότερα από τα κοινά ζητήματα και πολλά από τα λιγότερο κοινά. Οι μετρήσεις εργασιών έδειξαν ότι οι περισσότεροι χρήστες μπορούσαν να ολοκληρώσουν τις περισσότερες εργασίες και με μία εξαίρεση, οι αξιολογήσεις ευκολίας ήταν σύμφωνες με τα ποσοστά επιτυχούς ολοκλήρωσης εργασιών. Οι σχετικά χαμηλές βαθμολογίες SEQ για τις Εργασίες 1 και 2 συν το χαμηλό ποσοστό ολοκλήρωσης για την Εργασία 2 έδειξαν ότι παρόλο που η εμπειρία χρήστη βελτιώθηκε από τον πρώτο έως τον δεύτερο γύρο δοκιμών, υπήρχε ακόμα περιθώριο βελτίωσης.