eISSN: 2093-8462 http://jesk.or.kr
Open Access, Peer-reviewed
Dhong Ha Lee
10.5143/JESK.2019.38.6.435 Epub 2020 January 02
Abstract
Objective: The aim of this study is to investigate whether an artificial intelligence technique can be successfully applied to safety culture survey data classification.
Background: Without help of artificial intelligence technique, classifying safety culture level from safety culture scores collected from a large-scale survey would require a lot of experts' time and effort.
Method: Two convolution layers and 1 pooling layer was used as the middle layer of the artificial neural network to design a classifier for safety culture level. 1045 safety culture survey data collected from power plant workers used to train and validate the classifier.
Results: After 40 epochs' training the classifier approached near 95% precision in classifying "safe" and "need to be improved" classes of safety culture level. Precision, recall and F1-score for the test data set showed over 95% of accuracy performance.
Conclusion: An artificial intelligence technique using such as convolution neural network can help classification of safety culture survey data.
Application: The safety culture level classifier using deeper neural network and big survey data might improve the performance and might substitute expert interviewers for safety culture evaluation.
Keywords
Artificial intelligence Convolution neural network Safety culture Survey data Classification Classifier
안전문화는 조직과 개인의 안전에 대한 인식과 태도로 정의되는데(Lee, 2016a) 조직의 안전 수준을 체계적으로 모니터링하기 위해서 주기적인 평가가 요구된다. 주기적인 안전문화 평가를 통하여 조직이 적절한 안전문화 수준을 지속적으로 유지하는가를 확인할 수 있고 취약점을 찾아서 개선안을 도출하는데 활용할 수 있다.
조직원의 안전에 대한 태도를 측정하는 방법은 설문지(questionnaire), 면담(interview), 및 관찰(observation) 방법이 많이 사용된다(Kim and Choi, 2016). 설문지에 의한 방법은 대규모의 조직원에게 구조적 질문(structured questionnaire)을 사용하여 조직의 안전 취약 사례 등에 대한 의견을 비교적 짧은 시간 안에 수집할 수 있다. 필요한 경우 전 조직 구성원을 대상으로 폭넓은 분야에 대해 광범위한 의견을 수렴할 수 있는 장점이 있으나 조직 내부에서 공식적으로 거론하기 어려운 심화된 구조적 취약점 등을 파악하기 어려운 단점이 있다.
면담에 의한 안전문화 측정은 조직에 경험이 많은 면담자(interviewer)들의 심층적 질문을 통해 조직 내의 감춰진 안전 취약점을 파악할 수 있다는 장점이 있으나 면담자의 즉흥적 판단에 따라 선택되는 비구조적 질문에 의해 질문의 일관성이 떨어지는 단점이 있다. 안전문화 수준에 대한 평가 기준(norm) 역시 주관적일 수밖에 없다. 또한 많은 수의 피면담자(interviewee)를 대상으로 면담하는 경우에는 면담자의 시간과 노력이 많이 드는 단점이 있다.
안전문화 측정에서 관찰은 실제 조직의 현장에 방문하여 업무 수행 과정을 지켜보면서 안전에 관한 업무 수행도를 관찰자가 직접 확인하고 평가를 할 수 있다는 장점이 있으나 이 방법 역시 시간과 인력이 많이 소요되고 평가 결과가 특정 시점 및 특정 장소에서 포착된 안전문화 수준의 표본에 불과하므로 평가 결과를 일반화하기 어려운 단점이 있다.
설문지에 의해 안전문화 수준을 평가할 때 중요한 요구사항 중의 하나는 평가 기준이다. 안전문화 평가 결과 "양호" 또는 "개선요망"과 같은 판정을 내릴 수 있는 근거가 되는 안전문화 점수는 유사한 설문 응답에 대한 이전의 통계로부터 수집되어야 하고 표본 수가 충분히 많아야 통계적 유의성을 인정받을 수 있다. 설문지에 의한 안전문화 평가는 대규모의 조직원을 대상으로 데이터 수집이 가능하므로 안전문화 수준에 대한 평가 기준의 통계적 유의성 확보에 유리하다.
최근에 빅데이터 기반의 인간행동예측 기법이 활발하게 연구되고 있는데(Lee, 2016c) 대규모 표본으로부터 수집된 안전문화 응답 데이터로부터 안전문화 수준을 분류하는 작업 역시 인공지능 기법의 도움으로 효율적으로 처리될 수 있는 분야 중 하나라고 할 수 있다. 본 연구의 목적은 안전문화 설문지 응답 데이터를 인공지능이 학습하는 경우 안전문화 수준에 대한 인공지능의 예측 정밀도가 실무에서 활용할 수 있는 수준이 되는지 확인하는 것이다.
2.1 Safety culture survey data collection
안전문화 평가 시 평가 대상이 되는 항목으로 이전의 문헌(Stanton et al., 2010; Lee, 2016a)에서 제안된 것을 요약하면 Table 1과 같다.
Table 1에 요약한 이전의 연구에서 공통적으로 채택된 안전문화 평가항목을 고려하여 본 연구에서는 안전기법 적용, 안전규칙/절차 적용, 실수 보고에 태도, 안전에 대한 헌신 태도(commitment), 스트레스 관리, 사고원인규명 태도, 교육 및 훈련에 대한 태도(Kim et al., 2016), 의사소통의 효율성 및 안전관리시스템에 대한 태도 등 9개 분야를 선정하였다. 또한 각 분야별 보충 문항을 추가하여 총 48개의 문항으로 설문지를 구성하였다.
Authors |
Safety culture features |
Reason (1997) |
Reporting culture Just culture Flexible culture Learning culture |
Muniz et al. (2007) |
Managers' commitment to safety Involvement of employees Running of safety
management system with safety policy, incentive plan, continuous training,
emergency planning, information system about risk and feedback |
HSE (2005) |
Leadership Two-way communication Employee involvement Learning culture Attitude toward blame |
Ball and Scotney (1998) |
Leadership style and improvement Training Self-assessment Communication Safety attitude and risk perception Safety rules and procedures Safety behaviors Safety organization Human resource, quality and stress management Employee involvement |
Pidgeon and O'Leary
(1994) |
Commitment to safety Shared care and concern for hazards Realistic and flexible norms and rules Organizational learning through monitoring, analysis and feedback |
Olive et al. (2006) |
Commitment Communication Resilience and flexibility Vigilance |
Hale and Hovden (1998) |
Availability of resources, work forces, training, communication,
procedures Learning system Communication and leadership style Openness to criticism Management commitment |
본 연구에서 사용한 안전문화 설문지 질문 문항의 분야와 각 분야에 대한 질문의 예는 Table 2와 같다.
Topic of questions |
Examples of sub-questions |
Opinion about availability of safety practice |
I think the human error prevention techniques work well I think the safety proposal system work well |
Opinion about safety rules and procedures |
Keeping
the instructions of the health and safety managers do me more chores than
benefit Managers tend not to accept ignoring minor mistakes |
Opinion about blame |
I can talk to managers about the near miss without hesitation I have an experience of skipping a near miss reporting |
Opinion about commitment to safety |
I think safety has priority over work schedule in this company I think the safety
monitoring system is dedicated to improving safety level of the company |
Attitude towards stress management |
Tight schedule leads me to make a mistake Long delivery time or waiting time disturb the work process |
Attitude towards causes of accidents |
I think skill level of the job has to do with accident occurrence
potential Biorhythm might influence performance of a job |
Attitude about education and training |
I was taught how to deal with the contingency plan Education program
covers types of judgement mistakes that might be made during emergency
situations |
Efficiency of communication |
I tend to hesitate when
it comes to sharing information with my neighboring partners My partners willingly share referential data with me |
Opinion about safety management system |
The excessive
regulations might decrease efficiency of the current working procedures The emergency plan of the company even covers rare accidents |
안전문화 설문지에 대한 응답 데이터는 구성원의 70% 이상이 30~40대이며 52% 이상이 경력 10년 이하인 발전소 종사자 1,045명으로부터 수집되었다(Table 3).
|
Career
(year) |
Total |
||||
Under
2 |
2~5 |
5~10 |
Over
10 |
|||
Age (year) |
Under 20 |
6 |
2 |
0 |
0 |
8 |
30's |
7 |
12 |
14 |
4 |
37 |
|
40's |
1 |
2 |
7 |
26 |
35 |
|
Over 50 |
1 |
1 |
1 |
18 |
21 |
|
Total |
14 |
17 |
21 |
48 |
100% |
응답 데이터의 형식으로서 Table 2와 같은 안전문화 질문에 대한 동의 여부를 5점 리커트 척도(5 point Likert scale)로 표현하도록 하였다. 48개의 문항 중에는 안전문화에 관한 긍정적 질문과 부정적 질문이 혼재되어 있는데 이 중 부정적 질문에 대한 동의 여부는 역방향 척도를 사용하여 전 문항에 있어서 5점이 안전문화에 대한 강한 긍정, 1점이 강한 부정을 표시하도록 설계하였다. 응답 데이터를 인공신경망(artificial neural network)에 입력할 때에는 0~1사이의 값을 가지도록 정규화 처리를 하였다.
2.2 Design of artificial neural network applied to the safety culture survey data
최근 빅데이터 처리에 많이 활용되는 인공신경망은 회귀(regression)와 분류(classification) 문제를 해결하는데 탁월한 성능을 보인다. 안전문화 질문에 대한 조직원 각 개인의 응답이 건전한 안전문화 수준을 나타내는지 아니면 개선이 요망되는 안전문화 수준을 나타내는지를 판단하는 것은 전형적인 인공신경망의 클래스 분류 문제에 해당한다. 인공신경망을 이용한 분류 방법을 상기 안전문화 수준 분류에 적용하기 위해서는 레이블 데이터라고 하는 안전문화 수준의 높고 낮음을 구분하는 클래스 분류 데이터가 필요하다. 본 연구에서는 편의상 안전문화 수준을 "안전" 및 "개선요망"의 2 클래스(class)로 구분하였다. 클래스를 구분하는 평가 기준으로는 각 응답자의 전 질문에 대한 응답 평균이 응답자 전체 평균(2.8) 이상인 경우 안전문화 수준을 "안전" 클래스로, 그 미만의 경우 "개선요망" 클래스로 분류하였다.
인공신경망을 훈련시키는 오픈소스 소프트웨어 라이브러리로서 구글에서 공개한 텐서플로(tensorflow)를 사용하였다. 텐서플로는 2015년에 발표된 이래로 대규모의 데이터 세트에 대해 거대한 인공신경망을 분산 처리 등의 기법을 통하여 비교적 빠른 시간에 처리하며 확장성, 유연성 측면에서 호평을 받는 것으로 알려져 있다(Geron, 2017).
인공신경망을 이용한 분류에는 일반적으로 세 종류의 데이터 세트가 필요하다. 훈련 데이터 세트(train data set)는 손실함수를 최소화하는 인공신경망의 가중치를 결정하는데 사용한다. 검증 데이터 세트(validation data set)는 반복된 훈련 결과가 인공지능의 추정 정밀도를 향상시키는지 확인하는 과정에서 사용한다. 훈련한 모델의 최종 정밀도는 테스트 데이터 세트(test data set)를 이용하여 평가한다. 본 연구에서는 1,045개의 응답 데이터 중 660개(63%)를 훈련 데이터 세트로 채택하여 인공신경망의 가중치를 학습하는데 사용하였다. 200개(19%)는 검증 데이터 세트로 사용하였다. 나머지 185개의 데이터(18%)는 테스트 데이터 세트로서 사용하였다. 훈련 데이터 세트와 테스트 데이터 세트 및 검증 데이터 세트는 각 데이터 집단간 상호 연관성을 배제하고, 특히 인공신경망 모델이 훈련 데이터에만 과도하게 적합화(overfitting) 되는 것을 차단하기 위해 1,045개의 모집단 데이터에서 상호 배타적으로 무작위 추출하였다.
인공신경망으로 분류 작업을 수행할 경우 컴퓨터의 배열 계산효율의 장점을 살리기 위해 데이터를 배치(batch)로 묶어서 순전파 및 역전파 과정을 진행하는데 본 연구에서는 86개의 자료를 1 배치(batch)로 처리하였다. 배치 당 86개로 구성된 데이터 세트를 활용하여 모델의 가중치를 결정하기 위한 훈련을 진행하고 훈련 데이터 세트를 모두 소진할 때까지의 학습 주기(에폭; epoch)를 100회 (100 에폭) 반복하여 모델의 가중치를 최적 모델에 수렴되도록 하였다. 매 에폭마다 검증용 데이터 세트를 활용하여 모델의 정밀도 향상 추이를 평가하였다.
안전문화 질문에 대한 응답 데이터로부터 "안전" 및 "개선요망" 클래스를 분류하기 위하여 인공신경망 모델의 가중치를 최적화하는 판단 기준으로서 손실함수(loss function)가 필요하다. 본 연구에서는 손실함수로서 교차엔트로피(cross entropy) 함수를 사용하였다.
인공신경망 중 심층신경망(deep neural network)은 많은 계산 부하로 인해 학습시간이 많이 소요된다. 학습 과정의 속도를 가속하기 위해 텐서플로는 경사하강 옵티마이저, 모멘텀 옵티마이저, RMSProp optimizer 등 다양한 옵티마이저를 내장하고 있는데 본 연구에서는 그 중에서 모멘텀 옵티마이저와 RMSProp 옵티마이저의 혼합형인 Adam (Adaptive moment estimation) 옵티마이저를 사용하였다. 학습률은 너무 작게 잡으면 학습시간이 많이 소요되고 너무 크게 잡으면 최적 가중치에 도달하지 못하고 발산할 수가 있다. 본 연구에서는 Adam 옵티마이저의 초기 학습률(η)로서 기본(default)으로 채택하는 η=0.001로 하고 학습이 진행되면서 자동으로 학습률을 감소시켜 나아감으로써 학습의 효율을 높였다.
인공신경망 중 합성곱신경망(convolution neural network)은 일부 이미지 분류 작업에서 인간의 분류 성능보다 탁월한 능력을 보였을 정도로 분류 작업에 효율이 뛰어난 인공신경망이다. 본 연구에서는 안전문화 수준을 분류하는 기법으로 합성곱신경망을 인공신경망의 중간층으로 활용하였다.
실제 입력 특성값은 1차원의 48문항이지만 합성곱신경망을 적용하기 위해 입력 특성값 주변의 빈 공간을 0의 값으로 채우는 제로패딩(zero padding) 기법을 적용하여 입력층의 노드를 28*28의 2차원 공간으로 구성하였다(Figure 1).
인공신경망의 중간층은 2개의 합성곱층과 1개의 풀링층으로 구성하였다. 합성곱층의 첫 번째 은닉층에서는 안전문화의 저수준 특성을 반영하고 그 다음의 은닉층은 안전문화에 관한 보다 추상화된 특성을 반영하는 계층구조로 설계하였다. 두 개의 합성곱층을 통과한 데이터는 2차원 공간 축소를 위한 1개의 풀링층(pooling layer)과 1개의 완전연결층(fully connected layer)을 거쳐 출력층에 연결된다. 출력층의 노드는 "안전" 및 "개선요망"의 2클래스 범주이고 출력층에서 사용하는 활성화함수는 소프트맥스(softmax) 함수를 사용하였다. 본 연구에서 적용한 인공신경망의 중간층 매개변수 구성은 Table 4와 같이 요약할 수 있다.
Middle layers |
Parameters for the tensorflow |
The first convolution layer |
Filters=32 |
Kernel size=3 |
|
Stride=1 |
|
Padding=zero padding |
|
Activation function=Relu |
|
The second convolution
layer |
Filters=64 |
Kernel size=3 |
|
Stride=2 |
|
Padding=zero padding |
|
Activation function=Relu |
|
Pooling layer |
Kernel=2*2 |
Stride=2*2 |
|
Padding=valid |
|
Fully connected layer |
Node number=64 |
Activation function=Relu |
훈련데이터 세트를 활용한 훈련 과정에서의 분류 성능은 훈련데이터 세트가 아닌 별도의 검증 데이터 세트에 적용한 분류 정밀도(precision)로 평가된다. 분류 정밀도는 검증 데이터 세트 중 "안전" 클래스와 "개선요망" 클래스로 추정한 것 중 올바르게 분류된 데이터의 비율로 표현된다. 100회의 학습 주기 동안 검증데이터 세트를 활용한 인공신경망의 정밀도 추이는 Figure 2와 같다. 약간의 등락이 있으나 제1학습 주기에서 성취한 50%의 추정 정밀도가 40학습 주기 이후 평균적으로 95%에 접근하는 수준으로 향상되었다.
"안전"과 "개선요망"의 2 클래스로 안전문화를 분류하는 분류기(classifier)로서의 최종 성능은 별도로 준비된 테스트 데이터 세트에 대한 오차행렬(confusion matrix)로부터 확인할 수 있다(Table 5).
|
Prediction |
|
||
Safe |
Need to be improved |
|||
Class |
Safe |
94 |
2 |
96 |
Ned to be improved |
5 |
84 |
89 |
|
|
99 |
86 |
185 |
총 185개의 테스트 데이터 세트 중 "안전" 클래스로 추정한 99개 중 94개, "개선요망" 클래스로 추정한 86개 중 84개의 자료를 올바르게 분류하여 평균 96%의 정밀도를 달성하였다(Table 6). "안전"으로 예측한 99개의 데이터에 대한 예측 정밀도는 95%, "개선요망"으로 예측한 86개의 데이터에 대한 예측 정밀도는 98%였다.
|
No. of data |
Precision |
Recall |
F1-score |
|
Class |
Safe |
96 |
0.95 |
0.98 |
0.96 |
Need to be improved |
89 |
0.98 |
0.94 |
0.96 |
|
|
Average |
|
0.96 |
0.96 |
0.96 |
일반적으로 분류기의 성능 지표로는 정밀도 이외에 재현율(recall) 및 F1-score가 사용된다(Table 6). 분류기의 성능 척도 중 민감도 지표인 재현율은 각 클래스 데이터 수에 대한 올바른 예측의 비율로 측정된다. "안전" 클래스에 대한 재현율은 98%, "개선요망" 클래스에 대한 재현율은 94%로 측정되었다. 정밀도와 재현율의 통합 지표로서 이 둘의 조화 평균으로 표현되는 F1-score는 두 클래스 모두 96%로 측정되었다.
본 연구에서는 안전문화 수준을 분류하는 분류기를 설계하는데 비교적 간단한 수준의 합성곱신경망을 사용했음에도 불구하고 평균 정밀도, 재현율 및 통합 지표 F1-score 모두 95% 이상이 되는 성능을 보였다. Table 6의 결과는 인공지능을 활용한 안전문화 수준 분류 방법이 현실적으로 확대 적용될 수 있다는 것을 시사한다.
본 연구에서 사용한 안전문화 측정 질문에 대하여 리커트 척도로 얼마 이상의 긍정적 동의가 안전문화의 "안전" 수준인가에 대해서는 토론의 여지가 있다. 본 연구에서는 편의상 평균 점수를 기준으로 채택하였으나 실제 현장에서는 안전문화를 측정하기 위해 피면담자를 면담하는 전문가의 주관적 판단이 기준이 된다. 면담자가 피면담자에게 조직의 안전문화에 관한 심층 질문을 한 후 피면담자의 응답을 토대로 면담자의 주관적 판단에 따라 피면담자가 속한 환경의 안전문화 수준을 "안전" 또는 "개선요망" 등으로 판정하는 것이다. 이와 같이 전문가의 주관적 판정에 기반한 분류 작업은 피면담자가 많지 않을 경우에는 가능하나 설문지를 사용하는 경우와 같이 응답자의 수가 많아질 경우에 적용하기 어렵다. 대량의 응답 데이터를 전문가를 대신하여 처리할 수 있는 대체수단이 인공지능인데 데이터로부터 학습하는 인공신경망 기법의 경우 추가되는 데이터를 지속적으로 학습하면서 정교하게 안전문화 수준을 분류하는 모델을 찾아낼 수 있고 분류 결과를 지속적으로 사후 평가하면서 보다 개선된 모델을 사용하여 안전문화 수준을 분류하는 평가 기준 역시 추가적으로 개선해 나갈 수 있다. 물론 이를 뒷받침하기 위해서는 안전문화에 대한 데이터 수집이 일회성이 아닌 주기적 일상화하는 것으로 안전문화 평가 업무관행을 변화시켜야 한다(Lee, 2016b).
여러 인공신경망 중 합성곱신경망을 활용한 안전문화 측정 데이터에 대한 학습 속도는 40 에폭 이후 95% 수준의 정밀도에 도달하는 것을 보면 비교적 빠른 편이라 할 수 있다. 그러나 그 이후의 진전은 완만하여 예를 들어 99%와 같은 고수준의 정밀도에 도달하기 위해서는 훨씬 더 많은 학습 주기가 요구될 것으로 보인다. 본 연구에서는 안전문화 측정 데이터를 인공신경망이 학습할 경우 현실적으로 사용가능한 분류기를 개발할 수 있을 것인가에 대한 예비 타당성을 살펴보기 위해 컴퓨터 계산 부하가 그다지 크지 않은 2개층의 합성곱층과 1개의 풀링층 만을 동원하여 시도하였다. 추후의 연구를 통하여 GPU 등 계산 역량이 증대된 컴퓨터가 지원되고 더 깊은 심층신경망을 사용한다면 보다 고수준의 분류 정밀도도 기대할 수 있을 것이다.
References
1. Ball, P.W. and Scotney, V., Approaches to Safety Culture Enhancement, Daresbury, U.K., British Nuclear Fuels, Ltd., 1998.
Crossref
2. Geron, A., Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, O'Leilly, 2017.
Crossref
Google Scholar
3. Hale, A. and Hovden, J., Management and Culture: the Third Age of Safety. A Review of Approaches to Organizational Aspects of Safety, Health, and Environment. In A. Feyer and A. Williamson (Eds.), Occupational Injury: Risk Prevention, and Intervention, Taylor & Francis, London, 129-166, 1998.
Google Scholar
4. Health and Safety Executive (HSE), A Review of the Safety Culture and Safety Climate Literature for the Development of the Safety Culture Toolkit, HSE Research Report 367, London, HSE Books, 2005.
5. Kim, B.S., Lee, Y. and Chang, S.R., A methodology for establishment of safety culture in industry through global company practices, Journal of the Ergonomics Society of Korea, 35(2), 85-95, 2016.
Google Scholar
6. Kim, D.H. and Choi, J.Y., Measuring safety culture to promote aviation safety culture, Journal of the Ergonomics Society of Korea, 35(2), 111-123, 2016.
Google Scholar
7. Lee, D.H., Suggestions for more reliable measurement of Korean nuclear power industry safety culture, Journal of the Ergonomics Society of Korea, 35(2), 75-84, 2016a.
Google Scholar
8. Lee, Y.H., Current status and issues of nuclear safety culture, Journal of the Ergonomics Society of Korea, 35(4), 247-261, 2016b.
Google Scholar
9. Lee, Y.H., Safety culture, a new challenge to human factors engineering for 21st century, Journal of the Ergonomics Society of Korea, 35(6), 473-492, 2016c.
Google Scholar
10. Muniz, B.F., Peon, J.M.M. and Ordas, C.J.V., Safety culture: analysis and the causal relationships between its key dimensions, Journal of Safety Research, 38, 627-641, 2007.
Google Scholar
11. Olive, C., O'Conner, M.T. and Mannan, S.M., Relationship of safety culture and process safety, Journal of Hazardous Materials, 130, 133-140, 2006.
Google Scholar
12. Pidgeon, N.F. and O'Leary, M., Organizational Safety Culture: Implications for Aviation Practice. In N. Johnston, N. McDonald and R. Fuller (Eds.), Aviation Psychology in Practice, 21-43, Aldershot, Avebury, 1994.
Crossref
Google Scholar
13. Reason, J., Managing the Risks of Organizational Accidents, Burlington, VT, Ashgate, 1997.
Crossref
Google Scholar
14. Stanton, N.A., Salmon, P., Jenkins, D. and Walker, G., Human Factors in the Design and Evaluation of Central Control Room Operations, CRC Press, 2010.
Google Scholar
PIDS App ServiceClick here!