toplogo
Sign In

Deep Learning Misconduct and Post-Selection Analysis


Core Concepts
Post-Selection in Deep Learning is statistically invalid and traditional cross-validation does not rescue it.
Abstract
The paper discusses the theoretical analysis of misconduct in Deep Learning, focusing on Post-Selection. It highlights the issues of cheating and hiding bad-looking data in machine learning methods. The author argues that Post-Selection is statistically invalid, even with cross-validation. Various types of cross-validation and their limitations are discussed. The implications of Post-Selection on social issues and national development are explored.
Stats
"The first peer-reviewed papers on Deep Learning misconduct are [32], [37], [36]." "NNWT and PGNN guarantee to reach a zero validation error due to Post-Selection step during training." "NNWT and PGNN should not generalize well, as they simply find the luckiest fit in the absence of a test."
Quotes
"Post-Selection is invalid statistically even in the presence of nest cross-validation." "NNWT and PGNN with input-output cross-validation can give a zero validation error."

Key Insights Distilled From

by Juyang Weng at arxiv.org 03-05-2024

https://arxiv.org/pdf/2403.00773.pdf
Misconduct in Post-Selections and Deep Learning

Deeper Inquiries

Post-Selection이 유효한 통계적 과정인가요?

Post-Selection은 통계적으로 유효한 과정이 아닙니다. 이 연구에서 증명된 바에 따르면, Post-Selection은 F와 V의 공간에서 단일 랜덤 샘플을 다루며, 이 단일 샘플은 단일 세대, 기하학적으로 제한된 범위 및 역사적으로 제한된 범위를 나타냅니다. Post-Selection은 F와 V의 랜덤 데이터 세트에 대한 편향으로 오염되어 있으며, 인간 그룹의 편향에서 비롯된 최소 "오류"를 선택하기 위해 사용됩니다. 그룹은 최소 "오류"를 갖는 랜덤 샘플을 단순히 Post-Select하고, 모든 다른 덜 운이 좋은 시스템을 숨기지 않고 고려하지 않습니다. 이러한 단기적인 인간 행동은 일반적입니다. 정치인은 "어떤 비용이든 우리는 반드시..."라고 말할 것입니다.

리소스 고려 부족이 NNWT 및 PGNN과 같은 모델 개발에 어떻게 영향을 미치나요?

NNWT 및 PGNN과 같은 모델은 개발에 사용된 리소스를 고려하지 않는 것은 두 가지 주요 문제가 있습니다. 첫째, 매우 오랜 시간이 걸릴 수 있으며, 이는 Post-Selection에서 고려되지 않는 모델이 개발되기까지 매우 오랜 시간이 걸릴 수 있음을 의미합니다. 둘째, 이러한 모델은 일반적으로 일반화가 잘 되지 않습니다. NNWT는 쿼리 xq의 레이블이 Fi의 가장 가까운 이웃까지의 거리에 따라 함수라고 가정하며, 이는 실제 세계 문제에서 종종 사실이 아닙니다. PGNN은 쿼리 xq의 레이블이 Fi의 가장 가까운 이웃의 고정 레이블이라고 가정하며, 이 또한 실제 세계 문제에서 종종 사실이 아닙니다.

통계적 프레임워크가 국가 및 인간 발전에 어떻게 도움이 될 수 있나요?

이 연구에서 제시된 통계적 프레임워크는 국가 및 인간 발전에 도움이 될 수 있습니다. Post-Selection의 한계를 고려하지 않고 F와 V의 공간에서만 Post-Select된 모델을 고려하는 것은 덜 신뢰할 수 있습니다. 이러한 통계적 프레임워크는 국가 발전 및 인간 발전에도 혜택을 줄 수 있습니다. 국가 발전에 대한 자원의 중요성을 무시하지 않고, F와 V의 공간에서만 Post-Select된 최소 "오류"를 고려하는 대신, 모든 랜덤 샘플의 평균을 계산해야 합니다. 이러한 접근 방식은 국가 발전 및 인간 발전에 대한 더 나은 평가를 제공할 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star