핵심 개념
크리켓 실시간 텍스트 해설 데이터를 활용하여 선수의 강점 규칙과 약점 규칙을 계산하고 시각화하는 방법을 제안한다.
초록
이 연구는 크리켓 경기의 실시간 텍스트 해설 데이터를 활용하여 선수의 강점과 약점을 분석하는 방법을 제안한다.
먼저 데이터 처리 과정에서 실시간 텍스트 해설 데이터에서 batting 특징과 bowling 특징을 추출하고 이를 대조행렬로 표현한다.
다음으로 대응분석(Correspondence Analysis) 기법을 활용하여 선수의 강점 규칙과 약점 규칙을 계산한다. 강점 규칙은 선수가 공격적으로 대응한 batting 특징과 bowling 특징의 관계로 정의되며, 약점 규칙은 선수가 당한 batting 특징과 bowling 특징의 관계로 정의된다.
마지막으로 계산된 강점 규칙과 약점 규칙을 바이플롯(biplot) 시각화를 통해 표현한다. 또한 t-SNE 기법을 활용하여 선수들의 강점 및 약점 유사도를 시각화한다.
제안된 방법론은 전문가 분석과 통계적 검증을 통해 유효성이 입증되었다. 이를 통해 비정형 데이터인 실시간 텍스트 해설 데이터가 선수 분석에 유용하게 활용될 수 있음을 보여준다.
통계
선수가 0점을 기록한 횟수는 1331회이다.
선수가 1점을 기록한 횟수는 157회이다.
선수가 2점을 기록한 횟수는 47회이다.
선수가 3점을 기록한 횟수는 5회이다.
선수가 4점을 기록한 횟수는 40회이다.
선수가 5점을 기록한 횟수는 1회이다.
선수가 6점 이상을 기록한 횟수는 3회이다.
선수가 아웃된 횟수는 14회이다.
인용구
"Steve Smith scores high runs on deliveries that are either short-pitched or full length"
"Steve Smith struggles to score runs and tends to get out on deliveries that are either bowled outside the off stump or moving away"
"Steve Smith plays shots to square leg area on moving in deliveries"
"Steve Smith plays shots to third man area on moving away deliveries"
"Steve Smith plays in backfoot on moving in deliveries"
"Steve Smith plays in frontfoot on deliveries that are either bowled outside the off stump or on spin deliveries"