Grunnleggende konsepter
바이에른 방언은 표준 독일어와 어휘 분포, 통사 구조, 개체 정보 등에서 차이가 있다. 이 논문은 바이에른 위키피디아 기사와 트윗에 대한 첫 번째 방언 고유 명사 인식 데이터셋인 BarNER를 소개한다. 바이에른 방언과 독일어 간 도메인 간 차이를 보여주며, 순차적 및 다중 작업 학습을 통해 바이에른 고유 명사 인식 성능을 향상시킨다.
Sammendrag
이 논문은 바이에른 방언 데이터에 대한 첫 번째 고유 명사 인식(NER) 데이터셋인 BarNER를 소개한다.
BarNER에는 바이에른 위키피디아 기사(bar-wiki)와 트윗(bar-tweet) 161K 토큰이 포함되어 있다. 이는 CoNLL 2006 독일어 가이드라인과 GermEval을 바탕으로 한 것으로, 인물(PER), 장소(LOC), 조직(ORG), 기타(MISC) 개체를 포함한다. 또한 파생 및 부분적으로 포함된 개체와 기타 개체 유형에 대한 세부적인 주석도 포함한다.
바이에른 방언은 표준 독일어와 어휘 분포, 통사 구조, 개체 정보 등에서 차이가 있다. 바이에른 위키와 트윗 데이터를 독일어 데이터와 비교한 결과, 방언 간 어휘 차이가 장르 간 차이보다 더 크다는 것을 보여준다. 또한 개체 유형의 분포와 텍스트가 방언, 장르, 주제에 따라 크게 다르다.
in-domain, cross-domain, 순차적, 다중 작업 학습 실험을 통해 바이에른 NER 성능을 향상시킨다. 독일어 NER 데이터를 활용하면 바이에른 NER 성능이 크게 향상되며, 반대로 바이에른 데이터로 사전 학습하면 독일어 NER에도 약간의 도움이 된다. 또한 NER과 방언 식별 다중 작업 학습을 통해 bar-wiki NER에서 최신 기술 수준을 달성한다.
이 연구는 방언, 장르, 주제의 다양성이 NER과 방언 식별 성능 향상에 중요함을 보여준다.
Statistikk
바이에른 방언은 표준 독일어와 어휘 분포, 통사 구조, 개체 정보 등에서 차이가 있다.
바이에른 위키와 트윗 데이터의 어휘 유사도는 독일어 내 장르 간 유사도보다 낮다.
개체 유형의 분포와 텍스트는 방언, 장르, 주제에 따라 크게 다르다.
Sitater
"바이에른 방언은 표준 독일어와 어휘 분포, 통사 구조, 개체 정보 등에서 차이가 있다."
"바이에른 위키와 트윗 데이터의 어휘 유사도는 독일어 내 장르 간 유사도보다 낮다."
"개체 유형의 분포와 텍스트는 방언, 장르, 주제에 따라 크게 다르다."