BCOR 2205 FINAL EXAM QUESTIONS WITH ACCURATE
SOLUTIONS
Machine Learning -- Answer ✔✔ the extraction of knowledge from data based on
.l .l .l .l .l .l .l .l .l .l .l .l
algorithms created from training data
.l .l .l .l .l
Exploratory Data Analysis (EDA) -- Answer ✔✔ examining data for potentially important
.l .l .l .l .l .l .l .l .l .l .l
patterns and relationships, especially through the use of simple graphical techniques and
.l .l .l .l .l .l .l .l .l .l .l .l
numerical summaries
.l .l
Feature engineering -- Answer ✔✔ Cleaning data, combining features, splitting features into
.l .l .l .l .l .l .l .l .l .l .l
multiple features, handling missing values, and dealing with text, etc.
.l .l .l .l .l .l .l .l .l .l
Algorithm selection and hyper-parameter tuning -- Answer ✔✔ Keeping up with the
.l .l .l .l .l .l .l .l .l .l .l
"dizzying number" of available algorithms and their quadrillions of parameter combinations
.l .l .l .l .l .l .l .l .l .l .l
Model diagnostics -- Answer ✔✔ Evaluation of top models
.l .l .l .l .l .l .l .l
8 Criteria of Auto ML Excellence -- Answer ✔✔ 1.Accuracy
.l .l .l .l .l .l .l .l .l
2.Productivity
3.Ease of use
.l .l
4.Understanding and learning .l .l .l
5.Resource availability .l
6.Process transparency- effects understanding and learning
.l .l .l .l .l
7.Generalizability across contexts .l .l
8.Recommended actions .l
Business Problem -- Answer ✔✔ An issue of strategic or tactical importance preventing an
.l .l .l .l .l .l .l .l .l .l .l .l .l
enterprise or organization from achieving its goals.
.l .l .l .l .l .l .l
, categorical data -- Answer ✔✔ Data that consists of names, labels, or other nonnumerical
.l .l .l .l .l .l .l .l .l .l .l .l .l
values
.l
Numerical data -- Answer ✔✔ Data that consists of numbers .l .l .l .l .l .l .l .l .l
Date/Time data -- Answer ✔✔ recognized formats for date and time values
.l .l .l .l .l .l .l .l .l .l .l
string data type -- Answer ✔✔ A sequence of characters and punctuation that contains
.l .l .l .l .l .l .l .l .l .l .l .l .l
textual information (also called text data type)
.l .l .l .l .l .l .l
Algorithms -- Answer ✔✔ very specific, step-by-step procedures for solving certain types
.l .l .l .l .l .l .l .l .l .l .l
of problems
.l .l
Training Set -- Answer ✔✔ subsection of a dataset from which the machine learning
.l .l .l .l .l .l .l .l .l .l .l .l .l
algorithm uncovers or "learns" relationships between the features and the target variable
.l .l .l .l .l .l .l .l .l .l .l .l
validation set -- Answer ✔✔ A data set in which the input is provided to the computer and
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
the desired output is known, so that it can be determined how well a machine learning an
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
algorithm is working.
.l .l .l
Holdout Set -- Answer ✔✔ a subsection of a dataset to provide a final estimate of the
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
machine learning model's performance after if has been trained and validated. Holdout sets
.l .l .l .l .l .l .l .l .l .l .l .l .l
should never be used to make decisions about which algorithms to use for improving tuning
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
algorithms.
.l
Overtraining -- Answer ✔✔ a model with poor generalization => memorizes examples .l .l .l .l .l .l .l .l .l .l .l
instead
.l
k-fold validation -- Answer ✔✔ Partitioning the data set into k equal subsets
.l .l .l .l .l .l .l .l .l .l .l .l
Autopilot Modeling -- Answer ✔✔ The normal setting that is used to evaluate data
.l .l .l .l .l .l .l .l .l .l .l .l .l
Quick Autopilot -- Answer ✔✔ Fewer blueprints
.l .l .l .l .l .l
Manual mode -- Answer ✔✔ Choose the blueprints
.l .l .l .l .l .l .l
SOLUTIONS
Machine Learning -- Answer ✔✔ the extraction of knowledge from data based on
.l .l .l .l .l .l .l .l .l .l .l .l
algorithms created from training data
.l .l .l .l .l
Exploratory Data Analysis (EDA) -- Answer ✔✔ examining data for potentially important
.l .l .l .l .l .l .l .l .l .l .l
patterns and relationships, especially through the use of simple graphical techniques and
.l .l .l .l .l .l .l .l .l .l .l .l
numerical summaries
.l .l
Feature engineering -- Answer ✔✔ Cleaning data, combining features, splitting features into
.l .l .l .l .l .l .l .l .l .l .l
multiple features, handling missing values, and dealing with text, etc.
.l .l .l .l .l .l .l .l .l .l
Algorithm selection and hyper-parameter tuning -- Answer ✔✔ Keeping up with the
.l .l .l .l .l .l .l .l .l .l .l
"dizzying number" of available algorithms and their quadrillions of parameter combinations
.l .l .l .l .l .l .l .l .l .l .l
Model diagnostics -- Answer ✔✔ Evaluation of top models
.l .l .l .l .l .l .l .l
8 Criteria of Auto ML Excellence -- Answer ✔✔ 1.Accuracy
.l .l .l .l .l .l .l .l .l
2.Productivity
3.Ease of use
.l .l
4.Understanding and learning .l .l .l
5.Resource availability .l
6.Process transparency- effects understanding and learning
.l .l .l .l .l
7.Generalizability across contexts .l .l
8.Recommended actions .l
Business Problem -- Answer ✔✔ An issue of strategic or tactical importance preventing an
.l .l .l .l .l .l .l .l .l .l .l .l .l
enterprise or organization from achieving its goals.
.l .l .l .l .l .l .l
, categorical data -- Answer ✔✔ Data that consists of names, labels, or other nonnumerical
.l .l .l .l .l .l .l .l .l .l .l .l .l
values
.l
Numerical data -- Answer ✔✔ Data that consists of numbers .l .l .l .l .l .l .l .l .l
Date/Time data -- Answer ✔✔ recognized formats for date and time values
.l .l .l .l .l .l .l .l .l .l .l
string data type -- Answer ✔✔ A sequence of characters and punctuation that contains
.l .l .l .l .l .l .l .l .l .l .l .l .l
textual information (also called text data type)
.l .l .l .l .l .l .l
Algorithms -- Answer ✔✔ very specific, step-by-step procedures for solving certain types
.l .l .l .l .l .l .l .l .l .l .l
of problems
.l .l
Training Set -- Answer ✔✔ subsection of a dataset from which the machine learning
.l .l .l .l .l .l .l .l .l .l .l .l .l
algorithm uncovers or "learns" relationships between the features and the target variable
.l .l .l .l .l .l .l .l .l .l .l .l
validation set -- Answer ✔✔ A data set in which the input is provided to the computer and
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
the desired output is known, so that it can be determined how well a machine learning an
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
algorithm is working.
.l .l .l
Holdout Set -- Answer ✔✔ a subsection of a dataset to provide a final estimate of the
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
machine learning model's performance after if has been trained and validated. Holdout sets
.l .l .l .l .l .l .l .l .l .l .l .l .l
should never be used to make decisions about which algorithms to use for improving tuning
.l .l .l .l .l .l .l .l .l .l .l .l .l .l .l
algorithms.
.l
Overtraining -- Answer ✔✔ a model with poor generalization => memorizes examples .l .l .l .l .l .l .l .l .l .l .l
instead
.l
k-fold validation -- Answer ✔✔ Partitioning the data set into k equal subsets
.l .l .l .l .l .l .l .l .l .l .l .l
Autopilot Modeling -- Answer ✔✔ The normal setting that is used to evaluate data
.l .l .l .l .l .l .l .l .l .l .l .l .l
Quick Autopilot -- Answer ✔✔ Fewer blueprints
.l .l .l .l .l .l
Manual mode -- Answer ✔✔ Choose the blueprints
.l .l .l .l .l .l .l