[빅데이터가 시민 안전 지킨다] 어떻게 분석했나

부산닷컴 기사퍼가기

트위터 게재 데이터 40억 개 일일이 검색 유형별로 세분화

본보 공동취재팀은 이번 조사를 위해 대표적 소셜미디어인 트위터에 2년 6개월 동안 올라온 총 40억여 개의 데이터를 분석해 부산지역 16개 구·군과 재난 및 범죄 유형별로 세분화했다.

트위터는 월 평균 1억 4천여 개의 트윗이 작성되는 대표적 개방형 소셜미디어로, 최근 실시간 정보 공유 등을 통해 재난·범죄 예방에 큰 효과를 보이고 있다.

공동취재팀은 40억여 개의 데이터 가운데 안전, 사고, 재난 등과 관련 있는 핵심 데이터 1억 5천여 개를 다시 추려냈다.

빅데이터 규모가 워낙 방대하다보니 취재팀은 빅데이터 전문분석업체인 ㈜사이람의 첨단 프로그램인 '소피언'을 통해 데이터 하나하나를 일일이 검색·분석했다.

취재팀은 '대형사고' '대형참사' 등 재난·범죄와 관련된 단어를 담고 있는 데이터와 '건물에 금이 갔다' '어두컴컴해 불안하다' 등 이상 징후를 나타낸 데이터들을 골라내고, '재난영화를 봤다' 등 재난 관련 단어는 포함돼 있으나 실제 재난과 관련 없는 데이터는 제외시켰다.

이 같은 분석작업 끝에 재난은 크게 안전사고, 자연재해, 범죄사고, 대중교통사고 등 4개 유형으로 지도가 나왔다.

안전사고는 공공시설 사고와 화재·폭발·붕괴·익사 및 낙상 등 5개 유형으로, 범죄사고는 강도·절도·상해·성폭행·살인 등 5개 유형으로, 자연재해는 낙뢰 및 우박·대기·방사능·지진·산사태·해난·강풍·폭설·폭우 등 9개 유형으로, 대중교통사고의 경우 지하철 사고·버스 사고·단순 교통사고·항공기 사고·선박 사고 등 5개 유형으로 각각 나뉘어 분석됐다.

이와 함께 취재팀은 재난·범죄 관련 데이터에서 가장 많이 등장하는 부산지역의 구·군을 분석하면서 각 지역별 재난·범죄 유형도 파악했다.

취재팀은 현재 재난·범죄 예방에 필요한 더욱 충실한 자료를 확보하기 위해 이상 징후 지도를 각 동과 읍·면별로까지 확대 분석하는 등 더욱 체계적으로 세분화하는 작업을 진행하고 있다. 김 형 기자


당신을 위한 AI 추천 기사