Σχεδιασμός διασύνδεσης φωνητικού χρήστη: Νέες λύσεις στα παλαιά προβλήματα

Γιατί φωνή; Γιατί τώρα? Εξετάζουμε για ποιο λόγο η τεχνολογία φωνής σκαρφαλώνει από μια δεκαετή μακρά ύπνο μέχρι την επιτυχία.

Τα τελευταία χρόνια, οι εμπειρίες φωνητικών χρηστών έχουν φτάσει σε κρίσιμη μάζα. Cortana. Alexa. Google.

Όπως και πολλές τεχνολογίες που φαίνονται φρέσκες στα πρέσες (εικονική πραγματικότητα, καθένας;), οι διασυνδέσεις φωνητικών χρηστών βρίσκονται στη δημόσια συνείδηση ​​εδώ και δεκαετίες και στους ερευνητικούς κύκλους ακόμη περισσότερο. Τα εργαστήρια Bell δημιούργησαν το 1952 το σύστημα "Audrey" (το πρώτο φωνητικά ελεγχόμενο UI), πριν από τον φιλοδοξία του Star Trek.

Τα συστήματα αναγνώρισης φωνής έχουν γίνει πραγματικότητα για περισσότερο από μισό αιώνα. (Φωτογραφία: AndroidAuthority)

Αλλά οι επιστήμονες ομιλίας έχουν από καιρό γνωρίσει τη μαγεία του μετασχηματισμού των αναλογικών σημάτων σε ψηφιακή έννοια που θα πάρει ένα πεδίο επεξεργασίας δύναμη που ξεπέρασε πολύ πρόωρες ταπεινές ρίζες της. Μόνο πρόσφατα, στην εποχή της πανταχού παρουσίας του cloud computing, οι καταναλωτές έχουν πρόσβαση σε αρκετή δύναμη επεξεργασίας ώστε οι φωνές τους να μπορούν να ακουστούν και να ερμηνευτούν σε πραγματικό χρόνο.

Ένα νέο σύνορο

Ως σχεδιαστές εμπειρίας χρήστη, είχαμε κατά πάσα πιθανότητα εκπαιδευτεί στην εκπόνηση εμπειριών σχεδιασμένων για γραφική παράσταση και φυσική εισαγωγή. Γνωρίζω ότι οι φωνητικές διεπαφές απέχουν πολύ από τη φαντασία των πανεπιστημιακών της εποχής μου - κατά τη διάρκεια των ανώτερων έργων μου, λάτρεψαμε το Palm Pilot και από τις γραφικές παραστάσεις που προκάλεσαν τα σημερινά UIs touchscreen.

Και όμως, ακριβώς όπως προσαρμόσαμε τις δεξιότητες που είχαμε μάθει για τον γενναίο νέο κόσμο της εισόδου πέρα ​​από το ποντίκι και το πληκτρολόγιο, έτσι είναι καιρός για ορισμένους από τους σημερινούς σχεδιαστές να επεκτείνουν τα σύνολα δεξιοτήτων μας ώστε να συμπεριλάβουν τη φωνητική είσοδο και την προκύπτουσα έξοδο στρώματα.

Η αφής και η είσοδος της πένας, όπως φαίνεται στη γλώσσα εισαγωγής του Graffiti από το Palm Pilot, ήταν κάποτε μια περίεργη οπισθοδρομική εξερεύνηση του σχεδιασμού. Οι διεπαφές φωνητικών χρηστών προέκυψαν από αυτή τη φάση.

Τα τελευταία χρόνια, ένας μικρός αλλά αυξανόμενος αριθμός σχεδιαστών εμπειρίας χρήστη έχει γίνει πλήρης σχεδιαστής διεπαφής φωνητικού χρήστη (VUI). Αν και μπορεί να φαίνεται μια ιδιόμορφη εξειδίκευση ειδικότητα, έτσι ήταν το κινητό σχέδιο πριν από 10 χρόνια. Ο σχεδιασμός διεπαφής χρήστη φωνής θα γίνει σύντομα βασική στρατηγική δεξιότητα για μια νέα γενιά σχεδιαστών.

Παλαιότερη διασύνδεση

Οι άνθρωποι αναπτύσσουν την τέχνη της συζήτησης για χιλιάδες χρόνια. Είναι μια δεξιότητα που οι ενήλικες αντλούν από ενστικτώδες τρόπο, καθημερινά, για το μεγαλύτερο μέρος της ζωής τους.

Η ομιλία είναι μία από τις πρώτες δεξιότητες που αποκτάμε στην παιδική ηλικία - και μία από τις τελευταίες που χάνουμε στα χρόνια του ηλιοβασιλέματος μας, πολύ καιρό μετά το ξεσηκωμό των οραμάτων και των κινητικών μας δεξιοτήτων.

Η βαθιά ενστικτώδης φύση της ομιλίας παρουσιάζει συγκεκριμένους περιορισμούς και νέες προκλήσεις. Οι εγκέφαλοί μας είναι βασικά καλωδιωμένοι για να ερμηνεύσουν την πηγή της ομιλίας ως ανθρώπινη. Με λίγες εξαιρέσεις, αναμένουμε επίσης μια προφορική απάντηση όταν μιλάμε σε κάποιον. Έτσι, μια συσκευή που μιλάει για μας είναι να βυθίζουμε σε ένα βαθύ ποτάμι των ψυχολογικών προσαρμογών, και με την επιφύλαξη ενός συνόλου υποθέσεων, ένα UI με βάση pixel δεν θα συναντήσει ποτέ.

Αυτός είναι και ο λόγος - τουλάχιστον προς το παρόν - ο σχεδιασμός για εμπειρίες φωνητικών χρηστών είναι εγγενώς διαφορετικός από τις διασυνδετικές διασυνδέσεις χρηστών, οι οποίες προς το παρόν είναι συνώνυμες με τα bots που βασίζονται σε κείμενο. Τα χιλιάδες χρόνια της αντίληψης που βασίζονται στην ομιλία και της ψυχολογίας δεν παρεμβαίνουν (ακόμη) στην ικανότητά μας να απολαμβάνουμε γραπτές συνομιλίες.

Το σημερινό Voice UX: Command and Control

Αλλά ας είμαστε πολύ σαφείς: οι εμπειρίες φωνητικού χρήστη που οι καταναλωτές μαθαίνουν να χρησιμοποιούν σήμερα είναι συνήθως FAR από συνομιλητές. Είμαστε ακόμα στις πρώτες μέρες.

Παρόλο που ορισμένοι παίκτες χρησιμοποιούν "φωνητικό περιβάλλον χρήστη" και "συνομιλητικό περιβάλλον χρήστη" εναλλακτικά, στην παρατήρησή μου δεν υπάρχουν ακόμα πραγματικά διεπαφές χρήστη με συνομιλίες ομιλίας. Είναι ακόμα λίγο πιο ακριβές να καλέσετε απλά τα συστήματα φωνητικού ελέγχου της Alexa, του Google Home και της Cortana "φυσικής γλώσσας", αλλά αυτή τη στιγμή η διάκριση έγκειται στα είδη των καθηκόντων που ζητούμε να ολοκληρώσουν οι βοηθοί με βάση τη φωνή τους. Στην πραγματικότητα, το κλειδί είναι η λέξη "εργασία". Αυτές οι συσκευές είναι εξειδικευμένες για να επιτρέπουν στους πελάτες να ολοκληρώνουν τις ΔΩΡΕΕΣ χρησιμοποιώντας τη φωνή τους.

Για παράδειγμα, ο τρόπος "φυσικής γλώσσας" για να απενεργοποιήσετε ένα φως δεν είναι βαθύς συνομιλητικός. Δεν θα γυρίσετε στο σύζυγό σας και θα πείτε: "Δεν είναι μια ψυχρή νύχτα; Αισθάνομαι λίγο κρύο. Γυρίστε το θερμοστάτη προς τα επάνω, έτσι δεν είναι; "(Αν δεν είστε σε ένα παιχνίδι Oscar Wilde, ίσως.) Θα έπρεπε πιθανότατα να πετάξετε έξω" Γυρίστε το θερμοστάτη προς τα κάτω. "Λιγότερο από μια συζήτηση, περισσότερο από ένα αίτημα.

Επιπλέον, ο τρόπος που ολοκληρώνετε τις απλές εργασίες είναι σχεδόν πάντα ο ίδιος, ανεξάρτητα από τη συγκίνηση, τη διάθεση ή το περιβάλλον. Ίσως να προσθέσετε "παρακαλώ" αν έχετε μια καλή μέρα ...

Αυτό δεν σημαίνει ότι δεν υπάρχει πολύ μεγάλη πολυπλοκότητα για να αποκτήσετε αυτό το φωνητικό UI σωστό - αλλά σε αντίθεση με την πραγματικά συνομιλητική UI, η οποία ζωγραφίζει σε επίθετα και αποχρώσεις, η εντολή και ο έλεγχος φωνής UI ασχολείται με την απλότητα και την ευρωστία.

Προς το παρόν, οι σχεδιαστές διασύνδεσης φωνής συχνά ξοδεύουν σημαντικό μέρος του χρόνου σχεδίασης εστιάζοντας στο πώς να βοηθήσουν τους πελάτες μαζί όταν τα πράγματα πάνε στραβά. Τι συμβαίνει εάν κάποιος λέει απλώς "Ρύθμιση συναγερμού" χωρίς να καθορίσετε χρόνο; Ή αν το σύστημα κάνει λάθος "AM" αντί "PM"; Με την κατανόηση του πώς μπορεί να αποτύχει μια φωνητική διασύνδεση, οι σχεδιαστές της VUI μπορούν να βρουν τρόπους να μετατρέψουν αυτές τις αποτυχίες σε τελικές επιτυχίες.

Προσαρμογή των ενστικτωδών σας σχεδιασμού

Ο χρόνος που δουλεύω στο VUI για τα Windows Automotive, Cortana και Alexa μου έδωσε μια εκτίμηση για τις διαφορές στη διαδικασία σχεδιασμού μεταξύ οπτικής και φωνητικής UX και ένα πάθος για να μοιραστώ αυτή τη γνώση όπως μοιράστηκε με μερικούς αξιότιμους συνεργάτες (ευχαριστώ, Lisa Stifelman, Sumedha Kshirsagar, και Stefanie Tomko, μεταξύ άλλων).

Ως αποτέλεσμα αυτού του πάθους, τιμήσαμε να κάνουμε ένα ντεμπούτο στο εργαστήριό μου που έδωσε τη φωνή στα φωνητικά σας σχέδια στο Interaction 17, μια παγκόσμια διάσκεψη σχεδίασης που υποστηρίζεται από την Ένωση Σχεδίασης Αλληλεπίδρασης (IxDA).

Στο εργαστήρι μου # Ixd17, ξεκινήσαμε με ένα πρωτότυπο βασικών όρων και εννοιών που σχετίζονται με το συστατικό της φωνητικής διεπαφής της επιστήμης της ομιλίας: πώς μετατρέπεται μια αναλογική φωνή "utterance" σε μια αναπαράσταση του ψηφιακού συστήματος της "πρόθεσης" ενός πελάτη. Συνήθως, αυτή η διαδικασία ερμηνείας εκτείνεται σε πολλά διαφορετικά αλλά συνδεδεμένα συστήματα, και γι 'αυτό το cloud computing έσπασαν τις πόρτες VUI ευρύτατα ανοικτές.

Εξερευνήσαμε τους κοινούς περιστασιακούς περιορισμούς και μερικές απλές οδηγίες για να τις δημιουργήσουμε για την επιτυχία στην τελική φάση της τάξης, όπου περπατήσαμε σε μια διαδικασία σχεδιασμού από άκρο σε άκρο με παραδοτέα σχεδιασμού για μια φωνητική δεξιότητα τρίτου μέρους.

Περπατώντας τους συμμετέχοντες στο workshop μέσω της διαδικασίας δημιουργίας μιας ροής αλληλεπίδρασης για ένα χαρακτηριστικό φωνής τρίτου μέρους στο # IxD17 - ειρωνικά, σε ένα στούντιο στην Σχολή Εικαστικών Τεχνών του NYC. Φωτογραφική πίστωση Μαλίκα Χαλαπάλη.

Οι συμμετέχοντες μου εντυπωσίασαν πραγματικά με τις στοχαστικές ερωτήσεις που οδήγησαν σε μερικές βαθύτερες προκλήσεις που αντιμετωπίζουν οι φωνητικές διεπαφές, όπως η συνειδητοποίηση και η "μνήμη" με την πάροδο του χρόνου. (Ένα τελευταίο άρθρο θα ασχοληθεί με μερικές από αυτές τις έννοιες.) Αυτοί οι επαγγελματίες είναι ένας σαφής δείκτης ότι πολλοί από τους σημερινούς σχεδιαστές μπορούν να μεταφέρουν τις υπάρχουσες δεξιότητες σχεδίασης σε φωνή με κάποια απλή αναδιαμόρφωση και λίγο πρόσθετη εμπειρογνωμοσύνη.

Οι αλλαγές εισόδου φωνής ζουν

Παρόλο που τα τρέχοντα UI φωνής είναι λίγο πιο απλοϊκά από ό, τι οι ονειροπόλοι μεταξύ μας θα ήθελαν να δουν, δεν μπορούμε να χάσουμε από την οπτική γωνία των πραγματικών ωφελειών που παρέχουν οι φωνητικές εμπειρίες, ακόμα και απλοϊκές, όταν γίνονται σωστά.

Οι μεγαλύτερες και πιο αποτελεσματικές εμπειρίες φωνητικών χρηστών ωφελημάτων παρέχουν είναι πολύ βελτιωμένη προσβασιμότητα. Ψάχνετε για έμπνευση; Διαβάστε τα σχόλια του Amazon Echo. Υπάρχουν τόσες πολλές ιστορίες από πελάτες με μειωμένη κινητικότητα, πελάτες με προβλήματα όρασης και πελάτες με γνωστικές διαταραχές σχετικά με το πώς η συσκευή έχει αλλάξει τη ζωή τους στο σπίτι.

Αυτό είναι το πραγματικό κβαντικό άλμα εδώ. Οι διεπαφές φωνητικού χρήστη δεν επιλύουν τυχόν ΝΕΑ προβλήματα ... ακόμα. Αλλά λύουν τα υπάρχοντα προβλήματα με νέους τρόπους που βελτιώνουν σημαντικά τη ζωή πολλών ατόμων.

Θέτοντας συναγερμοί, παίρνοντας απαντήσεις σε ερωτήσεις πληροφοριών που βρέθηκαν εύκολα στη Wikipedia ... ναι, θα μπορούσαμε να κάνουμε αυτά τα πράγματα πριν από τα smartphones μας και τους υπολογιστές μας. Αλλά έπρεπε να στρέψουμε την προσοχή μας σε μια συσκευή για να το πράξουμε. Και εκείνη την στιγμή, ανταλλάσσουμε λίγο από την ανθρωπότητά μας, προσωρινά, για την ανταλλαγή των υπηρεσιών.

Τα φωνητικά περιβάλλοντα χρήστη μας επιτρέπουν να παραμείνουμε πλήρως ανθρώπινοι στις αλληλεπιδράσεις μας. Μας επιτρέπουν να παραμείνουμε πιο συνδεδεμένοι με τους άλλους ανθρώπους στην αίθουσα. Και αυτά τα VUIs μεταβάλλουν τη ζωή για εκείνους που δεν μπορούν εύκολα να προσαρμοστούν για την παραδοσιακή χρήση του υπολογιστή.

Επομένως, η ανάγκη για εμπειρίες φωνητικών χρηστών - ακόμα και η σημερινή συγκομιδή ελεγχόμενων, λιγότερο συνομιλητικών UIs - είναι πραγματική, και αυτές οι εμπειρίες αλλάζουν ζωές. Μπορεί να μην αντικαθιστάτε την υπάρχουσα εμπειρία σας, αλλά ακόμη και η προσθήκη φωνητικού περιβάλλοντος χρήστη για την επέκταση μιας υφιστάμενης εμπειρίας μπορεί να έχει σημαντικό αντίκτυπο στους πελάτες σας.

Βρείτε τη δική σας φωνή

Εμπνευσμένος? Το ελπίζω. Προκαλώ κάθε σχεδιαστή να αρχίσει να εξετάζει τη φωνητική είσοδο ως έναν σημαντικό νέο τρόπο σύνδεσης με τους πελάτες. Υπάρχουν αναπάντητες ευκαιρίες που θα μπορούσαν να μετατρέψουν τον τρόπο με τον οποίο οι πελάτες χρησιμοποιούν το προϊόν σας; Ακόμα καλύτερα, μεταμορφώνουν τη ζωή τους;

Και ακόμα κι αν είστε "παραδοσιακός" σχεδιαστής, μην είστε αμέσως εκφοβισμένοι. Πολλοί ασκούμενοι ξεκίνησαν ακριβώς όπως κάνατε, σε έναν παραδοσιακό οπτικά προσανατολισμένο κόσμο. Οι σχεδιαστές είναι εγγενώς περίεργοι και διανοητικά ανθεκτικοί. Μπορείτε να επαναπροσδιορίσετε τη σκέψη σας με κάποια νέα γνώση και λίγες προσαρμοσμένες δεξιότητες.

Αλλά υπάρχουν πολλά περισσότερα στον κόσμο των εμπειριών φωνητικού χρήστη. Στην επόμενη δημοσίευσή μου, θα μιλήσουμε για διασυνδετικές διασυνδέσεις χρηστών, ένα καυτό θέμα που εμφανίστηκε επανειλημμένα στο Interaction 17. Και θα μιλήσουμε για το πώς οι διασυνδέσεις φωνητικών χρηστών και οι διεπαφές συνομιλητικών χρηστών με βάση το κείμενο του σήμερα μπορεί σύντομα να αρχίσουν να διασταυρώνονται .

Η φωνή να είναι μαζί σου.

Η Cheryl Platz έχει εργαστεί σε διάφορες διασυνδέσεις φωνητικών χρηστών, όπως το Echo Look και Echo Show, η πλατφόρμα Alexa του Amazon, η Windows Automotive και η Cortana. Αυτή τη στιγμή είναι υπεύθυνη για το Design Lead για την ομάδα Cloud + AI Admin Experience της Microsoft.
Ως ιδρυτής της εταιρείας σχεδιαστικής εκπαίδευσης Ideaplatz, η Cheryl επίσης περιοδεύει σε όλο τον κόσμο με τις αναγνωρισμένες φυσικές συνομιλίες διεπαφής χρήστη και εργαστήρια. Θέλετε να συνεχίσετε τη συζήτηση; Ακολουθήστε την στο Twitter.

Για να παραμείνετε ενημερωμένοι με τη Microsoft Design, ακολουθήστε μας στο Dribbble, στο Twitter και στο Facebook ή να συμμετάσχετε στο πρόγραμμα Windows Insider. Και αν σας ενδιαφέρει να συμμετάσχετε στην ομάδα μας, κατευθυνθείτε στο aka.ms/DesignCareers.