본문바로가기

User Experience Evaluation Method using Multi-Criteria Decision Making

Abstract

Objective: This study was conducted for the purpose of proposing a method to evaluate user experience for a system using a multi-criteria decision making model based on the evaluation factors of user experience.

Background: User experience refers to a direct or indirect experience that a user obtains in the process of using a product or service. As various digital products and services become popular and competition intensifies in modern life, user experience is becoming more and more important. Various studies have been attempted to evaluate user experience according to such necessity. Since the user experience that an individual has for the same system can be different, it is important how the user experience evaluation of the system incorporates this subjectivity.

Method: In this study, a method to obtain the user experience score was proposed by using importance weights of the user experience evaluation criteria and averaging the scores for each evaluation criterion of the system. To this end, we first determined the criteria for evaluating user experience based on the honeycomb model. AHP was used as a method to derive the relative importance weight of evaluation criteria. In addition, a Likert scale from 1 to 5 was used to give a rating for the user experience evaluation criteria.

Results: In order to examine the applicability of the method proposed in this study, it was applied to the user experience evaluation problem for car rental websites. In this study, 'useful, usable, findable, credible, desirable, accessible, and valuable' presented in the honeycomb model were used as user experience evaluation criteria. Both the UX score and the SUS score showed a statistically significant difference at the significance level of 0.05 for each of the three car rental websites. A similar pattern was also observed in the average score. And the UX score showed a significant correlation with the SUS score of 0.509.

Conclusion: User experience evaluation using the multi-criteria decision-making method showed a high correlation with SUS, which has been used as an effective usability evaluation method in many studies. From this fact, it can be seen that the user experience evaluation method proposed in this study can be effectively applied to the user experience evaluation problem of a system.

Application: The results of this study could be used as a method to evaluate user experience on a digital system.



Keywords



User experience Multi-criteria decision making AHP Honeycomb model SUS



1. Introduction

사용자 경험(User experience)이란 사용자가 제품 또는 서비스와 인터랙션하는 과정에서 얻게 되는 모든 직간접적인 경험을 말한다(Desmet and Hekkert, 2007). 현대 사회에서 디지털 기술이 대중화되면서 디지털 디바이스나 서비스에 대한 사용자 경험의 중요성이 더욱 높이지고 있다. 따라서 디지털 디바이스나 서비스에 대한 사용자 경험 평가 방법에 대한 연구가 진행되어 왔는데, Finstad (2010)은 사용성 평가 방법에 기반하여 사용자 경험을 평가하고자 하였고, Hazlett et al. (2007)은 사용자의 감성적 반응을 바탕으로 사용자 경험을 평가하고자 하였다. 이외에도 Hassenaahl and Ullrich (2007)은 제품의 매력 정도를 측정하는 설문지를 사용하였고, Mandryk et al. (2006)은 생리적 반응을 측정하여 사용자 경험을 평가하였다. 이와 같이 기존에 연구된 사용자 경험의 평가 방법론은 해당 연구에서 사용자 경험을 구체적으로 어떻게 정의하였는가에 따라 다른 양상을 보인다. 그리고 대부분의 연구가 사용성 또는 감성 공학에서의 일부 평가 방법을 그대로 제안했다는 한계가 있다(Moon et al., 2010).

Moon et al. (2010)은 사용자 경험을 사용성, 감성, 그리고 사용자 가치로 나누어 각각에 해당하는 평가 방법들을 조사 분석하였다. 세 가지 구성요소들을 모두 측정할 수 있는 방법으로 질의 기법(Query technique)과 언어 평가(Verbal assessment)을 제시하였다. 사용성 평가 방법으로는 검사 기법(Inspection technique), 모델링과 시뮬레이션(Modeling & Simulation), 생리반응 측정, 자가 성찰 기법(Introspection technique), 실증 테스트(Empirical testing), 관찰 기법(Observation technique) 등의 방법을 제시하였다. 감성을 평가하기 위한 방법으로는 비언어적 평가(Nonverbal assessment) 기법을, 사용자 가치의 평가 방법으로는 비언어적 평가 방법과 관찰 방법을 제시하였다.

Ko and Kim (2019)는 배달 애플리케이션을 통한 사용자 경험을 비교분석 하는 연구를 진행하였다. 이들은 세 가지의 배달 애플리케이션의 사용성에 대한 선호도를 심층면접을 통하여 수행하였고, 사용자 경험 만족에 영향을 주는 허니콤 모형의 7개 요인 중에서 6개 요인을 대상으로 7점 척도로 평가하였다. 그 결과 선호도와 7개 평가요인을 연계하여 해석하였다.

Ardévol (2013)은 UX 평가를 위한 목적으로 개발된 방법은 아직 존재하지 않지만, 사용성 평가 방법을 사용할 수 있다고 하였다. 그리고 사용성을 평가하는 가장 전통적인 방법 중 하나인 휴리스틱 평가 방법론을 기반으로 한 UX 평가 방법을 제시하였다.

You et al. (2019)는 스마트 가전의 모바일 애플리케이션 개발과정에서의 UX 디자인 평가에 관한 문제를 연구하였다. 이 연구에서는 스마트 가전 애플리케이션의 UX 디자인에 관한 사용자 평가 방법에 대하여 분석하고, 정량적 평가 방법과 정성적 평가 방법을 혼합하여 UX 디자인의 평가 문제에 활용하고자 하였다. 그리고 허니콤 모델 등의 정량적 평가를 통하여 사용자 경험에 관한 속성을 탐색적으로 규명하고, 사용자 심층 인터뷰 등의 정성적 평가를 통하여 사용자 경험의 속성 중에서 구체적인 서비스 요소를 측정하고 검증하는 것이 가능하다고 하였다.

Han (2012)은 사용자 경험의 평가 방법으로 사용성 또는 감성 공학에서의 일부 평가 방법을 그대로 사용하고 있다고 하였다. Han (2012)은 다양한 문헌을 통하여 사용자 경험 평가를 위하여 가능한 방법으로 총 45종류의 평가 방법 별로 정의/특징/장단점/수행 방법/주요 결과물을 정리하여 사용자 경험 평가를 위한 가이드라인을 제시하였다. Finstad (2010)은 사용성 평가 방법에 기반하여, Hazlett and Benedek (2007)은 사용자의 감정적 반응을 바탕으로 사용자 경험을 평가하고자 하였다. Tullis and Albert (2008)는 사용자 경험 평가의 방법으로 수행도 평가 방법, 자가기록 평가 방법, 행태 및 생리학적 평가 방법, 이슈기반 평가 방법을 제시하였다. 하지만 이들 방법은 모두 사용성 평가 방법에 기반한 방법들이다.

이상의 연구에서 보는 바와 같이 사용자 경험을 평가하기 위한 다양한 방법들이 제시되었지만, 대부분 사용성이나 감성적 평가 방법에 기반한 방법들로 사용자 경험에 특화된 평가 방법은 거의 연구되지 않았다. 그리고 시스템에 대한 사용자 경험을 종합적으로 평가할 수 있는 방법은 제시되지 못한 것을 알 수 있다. 이러한 측면에서 시스템에 관한 사용자 경험을 종합적으로 평가할 수 있는 방법을 연구하는 것이 필요하다.

2. Method

2.1 UX evaluation criteria

Morville (2004, 2006)은 사용자 경험을 구성하는 요소로 유용성(useful), 사용성(usable), 발견 용이성(findable), 신뢰성(credible), 호감도(desirable), 접근성(accessible), 가치성(valuable)의 7가지를 제시하였다. Figure 1은 Morville에 의하여 제시된 사용자 경험의 허니콤 모형이다. 허니콤 모형은 사용자 경험의 해석과 평가를 위한 요인으로 여러 연구에서 활용되어 왔기 때문에(Ko and Kim, 2019; You et al., 2019), 사용자 경험 평가를 위한 다기준 의사결정 모델에서 평가기준으로의 활용에 관한 의미있는 근거를 제공한다.

Figure 1. Honeycomb model

허니콤 모형에서의 각 요소에 대한 정의는 다음과 같다. 유용성(useful) 제품이나 서비스가 사용자에게 얼마나 유용한지를 나타내는 속성이다. 사용자에게 유용하지 않은 제품이나 서비스는 좋은 경험을 제공할 수 없다. 사용성(usable) 사용자가 제품이나 기능을 얼마나 편하게 사용할 수 있는지를 나타내는 속성이다. 사용성은 사용자가 제품이나 서비스의 사용 목표를 효과적이고 효율적으로 달성할 수 있도록 하는 것과 관련이 있다. 좋은 사용자 경험을 갖는 제품은 많은 사용자들이 쉽고 편하게 사용할 수 있어야 한다. 발견 용이성(findable)은 사용자가 필요로 하는 정보를 얼마나 쉽게 발견할 수 있는지를 나타내는 속성이다. 뉴스 웹 페이지에 있는 모든 콘텐츠가 스포츠, 엔터테인먼트, 비즈니스 등과 같이 잘 구조화된 섹션으로 구성되지 않고 무작위로 페이지 공간에 할당된 경우, 사용자는 필요한 콘텐츠를 찾는데 많은 어려움을 경험할 것이다. 따라서 발견 용이성도 제품이나 서비스의 사용자 경험에 매우 중요하다. 신뢰성(credible)은 제공된 정보가 얼마나 정확하고 목적에 부합하는지를 나타내는 속성이다. 제품이나 서비스에서 제공하는 정보의 신뢰성이 결여되어 있다면 사용자 경험에 부정적 영향을 미칠 것이다. 매력성(desirable)은 제품이나 서비스가 사용자에게 얼마나 차별화된 경험을 제공하고, 감성적 측면에서 즐거움을 제공하는지를 나타내는 속성이다. 매력성은 브랜딩, 이미지, 아이덴티티, 미학, 감성 등에 의하여 결정된다. 매력성이 높을수록 사용자들은 제품이나 서비스에 대한 더 높은 사용자 경험을 갖게 될 것이다. 접근성(accessible)은 청각 장애, 시각 장애, 운동 장애 또는 학습 장애와 같은 일부 장애가 있는 사용자를 포함하여 모든 능력의 사용자가 쉽게 접근할 수 있어야 한다는 속성이다. 제품이나 서비스는 장애가 있는 사용자도 다른 사용자와 동일한 사용자 경험을 가질 수 있도록 설계되어야 한다. 접근성을 고려하여 디자인할 때 장애가 있는 사람을 포함한 모든 사용자들이 좋은 사용자 경험을 갖게 될 것이다. 가치성(valuable)은 제품이나 서비스가 브랜드나 아이덴티티의 가치를 얼마나 많이 포함하고 있는지를 나타내는 속성이다. 가치성이 제공되지 않으면 제품이나 서비스의 초기 성공이 장기적으로 훼손되어 좋은 사용자 경험을 방해할 것이다.

2.2 Rating of UX evaluation criteria

사용자 경험의 7가지 요소를 기반으로 한 사용자 경험 평가 방법은 Figure 2와 같은 구조를 갖고 있다. Figure 2에서 볼 수 있는 바와 같이 본 연구에서 제시한 사용자 경험 평가 방법은 두 단계로 구성되어 있는데, 첫 번째 단계는 평가하고자 하는 시스템에 대한 7가지 사용자 경험 평가기준들의 점수를 5점 리커트 척도를 사용하여 구하는 것이다. 그리고 두 번째 단계는 평가기준들의 사용자 경험에 대한 중요도 가중치를 활용하여 사용자 경험 점수의 가중평균을 구하는 것이다.

Figure 2. UX evaluation model

본 연구에서는 제품이나 서비스에 대한 UX 평가기준의 평점으로 5점 리커트 척도를 사용하도록 설계되었다. Table 1은 UX 평가기준에 대한 평가척도를 나타낸다.

Evaluation
criteria

Question

Evaluation scale

Strongly

bad

Bad

Neutral

Good

Strongly

good

Useful

How useful is a product or service to users?

 

 

 

 

 

Usable

How easy is it for users to use a product or service?

 

 

 

 

 

Findable

How easily can users find the information
they need?

 

 

 

 

 

Credible

How accurate and purposeful is the information provided?

 

 

 

 

 

Desirable

To what extent does a product or service provide users with a differentiated experience and provide pleasure in the emotional aspect?

 

 

 

 

 

Accessible

Can users with disabilities easily use the
product or service?

 

 

 

 

 

Valuable

How much does a product or service contain the
value of the brand or identity?

 

 

 

 

 

Table 1. UX Evaluation Form

2.3 Weighting of UX evaluation criteria

본 연구에서는 평가하고자 하는 시스템에 대한 평가기준들의 중요도 가중치를 결정하기 위하여 분석계층과정(analytic hierarchy process; AHP) (Saaty, 1977)을 활용하도록 설계되었다. AHP는 인간의 상대판단능력이 절대판단능력보다 더 우수하다는 사실을 근거로 복잡한 의사결정 문제를 효과적이고 체계적으로 해결할 수 있다는 특성 때문에 여러 가지 의사결정문제에 활용되어 왔다. Table 2는 AHP에서 사용되는 척도의 정의와 설명이다.

Scale

Definition

Explanation

1

Equal importance

Two activities contribute equally to the objective

3

Moderate importance of one over another

Experience and judgment strongly favor one activity
over another

5

Essential of strong importance

Experience and judgment strongly favor one activity
over another

7

Very strong importance

An activity is strongly favored and its dominance demonstrated in practice

9

Extreme importance

The evidence favoring one activity over another is of the
highest possible order of affirmation

2, 4, 6, 8

Intermediate values between the two
adjacent judgment

When compromise is needed

Table 2. Fundamental scale of AHP (Saaty, 1977)

2.4 Calculating UX score

시스템에 대한 사용자의 UX 점수를 계산하기 위하여 평가할 시스템에 대한 각 평가기준들의 평점을 사용자 경험에 대한 평가기준들의 중요도 가중치를 사용하여 가중평균하는 것이 필요하다. 하지만 평가기준들의 평점을 가중평균하면 1에서 5 사이의 값으로 계산되기 때문에, 가중평균된 점수를 100점 척도로 변환하기 위하여 각 평가기준의 평점에서 1을 뺀 값에 25를 곱하여 가중평균한다. 따라서 본 연구에서 제시된 방법에 따라 사용자 경험 점수를 계산하는 식은 다음과 같다. 여기서 Wi는 i번째 평가기준의 중요도 가중치이고, Ri는 i번째 평가기준에 대한 평점이다.

UX score

3. Application

3.1 Application system

본 연구에서는 제주 렌터카 업체 중에서 2021년 12월 기준 네이버 검색량 상위 3개 업체인 롯데렌터카, 빌리카, SK렌터카를 대상으로 실험을 진행하였다. 롯데렌터카는 브랜드스탁이 조사한 대한민국 렌트카 부문 브랜드가치 1위, 전국 220여 개 지점과 22만대가 넘는 국내외 차량을 보유한 업체이다. 빌리카는 SK렌터카의 세컨브랜드이며 합리적인 가격, 저렴한 차량 대여료로 유명한 업체이다. 그리고 SK렌터카는 렌트카 점유율 20.7%로 그동안 독보적인 1위 롯데(23.4%)를 추격하는 회사이다. Figure 3은 렌터카 3개 업체의 홈페이지이다.

Figure 3. Application system

3.2 Experiment for UX evaluation

본 연구에서는 제주 렌터카 상위 3개 업체의 웹 페이지에서 제주 지역의 렌터카 예약하기와 관련한 작업을 수행하도록 하였다. 기본적으로 회원가입하기, 로그인하기, 자동차 렌트 예약하기(제주도 지역에서 5월 20일부터 27일까지 소형 승용차(연료: 휘발류, 보험: 완전자차)로 예약하시오), 지점 찾기 등의 작업을 10분 동안 수행하도록 한 후에, 세 업체의 웹사이트에 대한 사용성 평가와 사용자 경험 평가를 수행하였다.

실험은 세 업체를 통하여 자동차를 렌트한 경험이 없는 대학생 30명을 대상으로 하였고, 30명의 평균연령은 23.1세(STD=1.04)였다. 세 사이트에 대한 실험 순서는 무작위로 진행되었다. 한 사이트에 대한 실험이 종료된 후에는 Table 3의 SUS 평가 항목과 Table 1의 UX 평가기준에 대한 평가를 수행하였다. SUS는 John Brooke가 1986년에 개발한 사용성 평가 방법으로, 사용성을 쉽고 빠르게 측정할 수 있는 10개의 설문 항목으로 구성되어 있다. 그동안 많은 연구에서 SUS를 사용하여 하드웨어, 소프트웨어, 모바일 장치, 웹사이트 및 응용 프로그램을 비롯한 다양한 제품과 서비스의 사용성을 평가하여 왔다(Bangor et al., 2008).

Evaluation Items

Evaluation scale

Strongly
disagree

Disagree

Neutral

Agree

Strongly
agree

I think that I would like to use this system frequently.

 

 

 

 

 

I found the system unnecessarily complex.

 

 

 

 

 

I thought the system was easy to use.

 

 

 

 

 

I think that I would need the support of a technical person
to be able to use this system.

 

 

 

 

 

I found the various functions in this system were well integrated.

 

 

 

 

 

I thought there was too much inconsistency in this system.

 

 

 

 

 

I would imagine that most people would learn to use this system very quickly.

 

 

 

 

 

I found the system very cumbersome to use.

 

 

 

 

 

I felt very confident using the system.

 

 

 

 

 

I needed to learn a lot of things before I could get going
with this system.

 

 

 

 

 

Table 3. SUS evaluation form (Tullis and Albert, 2007)

시스템에 대한 UX 평가기준의 평가 후에는 시스템의 사용자 경험 측면에서 평가기준의 상대적 중요도를 AHP를 활용하여 평가하였다. AHP를 사용한 평가기준의 중요도 평가는 AHP Priority Calculator (https://bpmsg.com/ahp/ahp-calc.php)를 활용하였다(Goepel, 2022). 아래의 Figure 4는 한 명의 피실험자로부터 도출된 평가기준의 상대적 중요도 가중치이다.

Figure 4. AHP application of a subject for rental website

3.3 Analysis

세 개의 렌터카 웹사이트에 대한 사용자 경험과 사용성 평가 결과를 분석한 결과를 나타내는 Figure 5를 보면 웹사이트의 사용자 경험 점수의 평균과 사용성 점수의 평균이 유사한 패턴으로 나타남을 알 수 있다. 그리고 그 차이는 분산분석표 Table 4에서 볼 수 있는 것과 같이 유의수준 0.05에서 유의하게 나타났다. 또한 본 연구에서 제시한 사용자 경험 점수와 SUS 방법을 사용한 사용성 평가 점수의 상관분석결과를 보면(Table 5), 상관계수가 0.509로 두 점수 사이에 유의한 상관관계가 존재함을 알 수 있다. 이러한 사실로부터 본 연구에서 제시된 방법은 시스템에 대한 사용자 경험 평가에 효과적으로 활용될 수 있음을 알 수 있다.

Figure 5. Mean score of UX and SUS for three rental websites

 

Sum of squares

Deg. of dreedom

Mean squares

F

Sig.

UX

Between groups

1178.871

2

859.436

11.248

0.000

Within groups

6647.279

87

76.406

 

 

Total

8366.150

89

 

 

 

SUS

Between groups

201.051

2

100.525

3.568

0.032

Within groups

2451.449

87

28.178

 

 

Total

2652.500

89

 

 

 

Table 4. ANOVA for three rental websites

 

UX

SUS

UX

Pearson Correlation

1

.509**

Sig. (2-tailed)

 

.000

N

90

90

SUS

Pearson Correlation

.509**

1

Sig. (2-tailed)

.000

 

N

90

90

**Correlation is significant at the 0.01 level (2-tailed)

Table 5. Correlation analysis between UX and SUS
4. Conclusion

본 연구에서는 다기준 의사결정 모델을 활용하여 시스템에 대한 사용자 경험을 분석할 수 있는 방법을 제안하였다. 기존의 사용자 경험 평가 방법들이 주로 감성이나 사용성 평가 방법들에 기반하여 제안되어 왔기 때문에, 시스템의 사용자 경험을 정량적 수치로 표현할 수 있는 방법의 필요성이 제시되어 왔다. 그러한 측면에서 본 연구에서는 사용자 경험의 허니콤 모델에서 제시한 7가지의 사용자 경험 요소를 평가기준으로 활용하여 시스템에 대한 사용자 경험을 정량적 수치로 표현할 수 있는 방법을 제안하였다. 그리고 본 연구에서 제시된 방법의 실제 문제에 대한 적용 가능성을 알아보기 위하여 렌터카 회사의 웹사이트에 관한 사용자 경험을 평가하는 문제에 적용하였다. 그 결과로부터 기존의 많은 연구에서 효과적 방법으로 활용되어 왔던 SUS와의 높은 상관성을 보임을 알 수 있었다. 이러한 사실로부터 본 연구에서 제시된 방법이 실제 시스템의 사용자 경험 평가에 효과적으로 적용될 수 있음을 알 수 있었다.

본 연구의 결과는 어떠한 시스템이 사용자 경험 측면에서 얼마나 적합하게 디자인되었는지 평가하는 문제에 효과적으로 적용할 수 있다. 그리고 사용자 경험 측면에서 여러 시스템들의 우선 순위를 결정하는 문제에도 적용할 수 있다. 본 연구에서 제안한 방법은 렌터카 웹사이트의 사용자 경험 평가에 적용되었고, SUS와의 관계를 통하여 그 적용 가능성을 알아 보았지만, 향후 다양한 시스템에 대하여 다양한 관점에서 그 방법의 타당성을 검증하는 것도 필요할 것이다.



References


1. Ardévol, L.M., User experience methodology for the design and evaluation of interactive systems, PhD Thesis, University of Lleida, 2013.

2. Bangor, A., Kortum, P.T. and Miller, J.T., An Empirical Evaluation of the System Usability Scale, International Journal of Human-Computer Interaction, 24(6), 574-594, 2008.
Google Scholar 

3. Desmet, P. and Hekkert, P., Framework of Product Experience, International Journal of Design, 1(1), 2007.
Google Scholar 

4. Finstad, K., The usability metric for user experience, Interacting with Computers, 22(5), 323-327, 2010.
Google Scholar 

5. Goepel, K.D., AHP Priority Calculator, https://bpmsg.com/ahp/ahp-calc.php, 2022.


6. Han, S.H., User experience evaluation for mobile phones and mobile services, Ministry of Education, Science and Technology of Korea, 2012.


7. Hazlett, R.L. and Benedek, J., Measuring emotional valence to understand the user's experience of software, International Journal of Human-Computer Studies, 65, 306-314, 2007.
Google Scholar 

8. Hassenaahl, M. and Ullrich, D., To do or not to do: Differences in user experience and retrospective judgments depending on the presence or absence of instrumental goals, Interacting with Computers, 19, 429-437, 2007.
Google Scholar 

9. Ko, E.S. and Kim, S.I., Comparative Analysis of User Experience with Delivery Applications -Focused on BaeMin, Yogiyo, Baedaltong-, Journal of Digital Convergence, 17(8), 393-399, 2019.
Google Scholar 

10. Mandryk, R.L., Inkpen, K.M. and Cavert, T.W., Using psychophysiological techniques to measure user experience with entertainment technologies, Behavior and Information Technology, 25(2), 141-158, 2006.
Google Scholar 

11. Moon, H., Han, S.H., Park, J., Kim, H.K. and Oh, S., A literature survey of measuring the user experience, 2010 Fall Conference of Ergonomics Society of Korea, 114-117, 2010.


12. Morville, P., Ambient Findability, Educational technology research and development, 54(6), 623-626, 2006.
Google Scholar 

13. Morville, P., User Experience Design, https://semanticstudios.com/user_experience_design, 2004.


14. Saaty, T., A scaling method for priorities in hierarchical structures, J. Mathematical Psychology, 15, 234-281, 1977.
Google Scholar 

15. Tullis, T. and Albert, B., Measuring the User Experience, 2008.
Google Scholar 

16. You, S.C., Choi, J. and Sim, M., UX Design Evaluation and its Approach to Mobile Applications for Smart Appliances, Smart Media Journal, 8(3), 70-79, 2019.
Google Scholar 

PIDS App ServiceClick here!

Download this article