Поїзд, перевірка, тестовий набір у машинному навчанні - як зрозуміти

Поїзд, валідація та тестовий набір - це три найбільші жаргони машинного навчання та ШІ. Здається, багато хто це неправильно розуміє. Коли я запитую у своїх друзів про відмінності між поїздом, валідацією та тестовим набором, вони не можуть відповісти на це. Сьогодні я поясню вам все про три вищевикладені термінології.

Набір тренувань

Ви можете собі уявити, що алгоритм машинного навчання як учень у класі, так і дані - це знання, які дає вчитель. Учитель використовує знання, щоб навчити учнів розв’язувати задачу. У машинному навчанні навчальний набір відомий від викладача для навчання студента. Студент (модель машинного навчання) намагається запам’ятати та з’ясувати уявлення про навчальний набір, а потім зберегти цю інформацію до її параметрів (або ваги), використовуючи алгоритми оптимізації. Здатність учня відображається через помилку навчання. Студент має меншу похибку в навчанні, краще, ніж один має вищу помилку навчання. Однак пам’ятайте, що наша кінцева мета - знайти студента, який добре працює в небачених даних, я маю на увазі дані в майбутньому.

Набір перевірки

Набір перевірки, який іноді називають набором розробки (набір розробників). Основні цілі розробки розробників - запобігання машині переобладнання та вибір гіперпараметрів. Запобігання машині від переналагодження допомагає моделі машинного навчання краще працювати з майбутніми даними, а також заважає студенту навчатись за допомогою ротації. Вибір гіперпараметрів допомагає знайти найкращий алгоритм машинного навчання решти, а також знайти найкращого учня в класі, який має певний дар.
Вибір гіперпараметрів: окрім параметрів, засвоєних на основі даних поїздів, кожен алгоритм машинного навчання, як правило, має деякі гіперпараметри. Ці параметри потрібно вибирати вручну. У реальному світі ми маємо багато типів даних від місця маркетингу до НЛП, медичних тощо. Кожен тип даних як предмет у школі. І кожен учень хороший у певному предметі через своє хобі та подарунок. Так що вчитель у класі повинен використовувати деякий набір розробників, щоб знайти найкращого учня для кожного типу предметів.

Ілюстрація для вибору гіперпараметрів алгоритму машинного навчання

Запобігайте надмірному навантаженню: іноді студенти вчаться на мотузку. Так що ми повинні використовувати програму dev, встановлену для тестування студентів. Набір розробників може розглядатися як тестовий викладач, виготовлений незалежно від набору поїздів. Як показано на малюнку нижче, точки - це дані тренувань, а криві - ваші алгоритми. Зелена крива витончена, а чорна - добре.

Ілюстрація для проблеми з приміркою

Тестовий набір

Цей набір даних є незалежним набором формувань поїздів та розробок, але три набори даних повинні мати однаковий розподіл. Уявляючи собі, після того, як студент навчається з набору поїздів і після того, як викладач вибере найкращого учня, використовуючи розроблений набір Тест встановлений як іспит для перевірки реальної здатності студента після навчання.

Підсумок

Набір поїздів: Використовується для тренування та оптимізації параметрів моделі
Набір розробок: вибирайте гіперпараметри та запобігайте надягання
Тестовий набір: дайте неупереджену оцінку для вашої моделі

Довідково