Evaluación de exactitud de Naive Bayes y Regresión Logística para clasificación con atributos y clases binarios
DOI:
https://doi.org/10.18004/rcfacen.2022.13.1.73%20Palabras clave:
Naive Bayes, regresión logística, clasificación, aprendizaje supervisadoResumen
En ciencia de los datos, la mayoría de los modelos de clasificación están en la categoría de modelos discriminativos o de modelos generativos. Los modelos discriminativos solamente capturan la relación entre los atributos de una instancia y su clase, mientras que los modelos generativos buscan representar toda la distribución de datos. Aunque la mayoría de los modelos de clasificación sean discriminativos, no se puede asegurar que este tipo de modelos sea mejor que los modelos generativos. En ese sentido, se aborda la comparación de los algoritmos Naive Bayes y Regresión Logística como modelos muy representativos de los clasificadores discriminativos y generativos, respectivamente. En este trabajo son evaluadas la exactitud de los modelos de Naive Bayes y Regresión Logística en función al número de atributos e instancias de un conjunto de datos artificiales, donde tanto los atributos como las clases son binarios. A diferencia de otras metodologías que emplean los conjuntos de datos para aproximar el error de clasificación, este trabajo solo emplea los conjuntos de datos para realizar el entrenamiento de los modelos, mientras que el error de clasificación es calculado de forma exacta para la distribución de los datos. Los experimentos muestran una exactitud de clasificación binaria que tiende a ser levemente mejor para la Regresión Logística usando 50 a 500 instancias de entrenamiento, cuando promediamos los resultados de distribuciones generadas aleatoriamente con 1 a 6 atributos binarios.
Referencias
Aborisade, O. & Anwar, M. (2018). Classification for authorship of tweets by comparing logistic regression and naive bayes classifiers. Pp.
269–276, in Bilof, R. (Ed.). Proceedings of the 2018 IEEE 19th International Conference on Information Reuse and Integration for Data Science. Salt Lage City: IEEE Computer Society Conference Publishing Services. 546 pp.
Chiok, C. (2017). Predicción del rendimiento académico aplicando técnicas de minería de datos. Anales Científicos, 78(1): 26–33.
Dong, L., Wesseloo, J., Potvin, Y. & Li, X. (2016). Discrimination of mine seismic events and blasts using the fisher classifier, naive bayesian classifier and logistic regression. Rock Mechanics and Rock Engineering, 49(1): 183–211.
Gladence, L., Karthi, M. & Anu, V. (2015). A statistical comparison of logistic regression and different Bayes classification methods
for machine learning. ARPN Journal of Engineering and Applied Sciences, 10(14): 5947–5953.
Golpour, P., Ghayour-Mobarhan, M., Saki, A., Esmaily, H., Taghipour, A., Tajfard, M., Ghazizadeh, H., Moohebati, M. & Ferns, G. (2020). Comparison of Support Vector Machine, Naïve Bayes and Logistic Regression for Assessing the Necessity for Coronary Angiography. International Journal of Environmental Research and Public Health, 7(18)6449: 1–9.
Hilbe, J.M. (2009). Logistic regression models. London: Chapman and hall/CRC. xviii + 638 pp. Itoo, F., Meenaksi & Singh, S. (2021). Comparison
and analysis of logistic regression, Naïve Bayes and KNN machine learning algorithms for credit card fraud detection. International Journal of Information Technology, 13(4): 1503–1511.
Ng, A. & Jordan, M. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. Pp. 841–848, in Dietterich, T.G., Becker, S. & Ghahramani, Z. (Eds.). Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic. Cambridge: MIT Press. 1594 pp.
Nhu, V.-H., Shirzadi, A., Shahabi, H., Singh, S., Al-Ansari, N., Clague, J., Jaafari, A., Chen, W., Miraki, S., Dou, J., Luu, C., Górski, K., Pham, B.T., Nguyen, H.D. and Ahmad, B.B. (2020). Shallow landslide susceptibility mapping: A comparison between logistic model tree, logistic regression, naïve bayes tree, artificial neural network, and support vector machine algorithms. International journal of environmental research and public
health, 17(8)2749: 1–30.
Othman, N. & Din, W. (2019). Youtube spam detection framework using naive bayes and logistic regression. Indonesian Journal
of Electrical Engineering and Computer Science: 14(3), 1508–1517.
Prabhat, A. & Khullar, V. (2017). Sentiment classification on big data using Naïve Bayes and logistic regression. Art. CS364, pp 1–5
in Sri Shakthi Institute of Electrical and Electronics Engineers (Ed.). Proceedings of the 2017 International Conference on Computer Communication and Informatics (ICCCI). Coimbatore: Sri Shakthi Institute of Electrical and Electronics Engineers. 665 pp
Pranckevičius, T. & Marcinkevičius, V. (2017). Comparison of naive bayes, random forest, decision tree, support vector machines, and
logistic regression classifiers for text reviews classification. Baltic Journal of Modern Computing, 5(2): 221–232.
Pundlik, R. (2016). Comparison of sensitivity for consumer loan data using Gaussian Naïve Bayes (GNB) and logistic regression (LR).
Pp. 120–124, in Al-Dabass, D., Achalakul, T., Sarochawikasit, R. & Prom-On, S. (Eds.). Proceedings of the 2016 7th International
Conference on Intelligent Systems, Modelling and Simulation (ISMS). Salt Lage City: IEEE Computer Society Conference Publishing
Services. xvii + 456 pp.
Sehgal, C., Cary, T., Cwanger, A., Levenback, B. & Venkatesh, S. (2012). Combined Naïve Bayes and logistic regression for quantitative breast sonography. Pp. 1686-1689, in Weihnacht, M. & Schmidt, H. (Eds.). 2012 IEEE International Ultrasonics Symposium. Dresden: Institute of Electrical and Electronics Engineers. 2772 pp.
Seka, D., Bonny, B., Yoboué, A., Sié, S. & AdopoGouréne, B. (2019). Identification of maize (Zea mays L.) progeny genotypes based on two probabilistic approaches: Logistic regression and naïve Bayes. Artificial Intelligence in Agriculture, 1: 9–13.
Stylianou, N., Akbarov, A., Kontopantelis, E., Buchan, I. & Dunn, K. (2015). Mortality risk prediction in burn injury: Comparison of logistic regression with machine learning approaches. Burns, 41(5): 925–934.
Utami, D., Nurlelah, E. & Hasan, F. (2021). Comparison of Neural Network Algorithms, Naive Bayes and Logistic Regression to predict diabetes. Journal of Informatics and Telecommunication Engineering, 5(1): 53–64.
Van Eeden, W., Luo, C., van Hemert, A., Carlier, I., Penninx, B., Wardenaar, K., Hoos, H. & Giltay, E. (2021). Predicting the 9-year course of mood and anxiety disorders with automated machine learning: A comparison between auto-sklearn, naïve Bayes classifier, and traditional logistic regression. Psychiatry Research, 299(113823): 1–10.
Vapnik, V. (1998). Statistical learning theory. New York: Wiley-Interscience. 768 pp.
Webb, G., Keogh, E. & Miikkulainen, R. (2010). Naïve Bayes. Pp. 713–714, in Sammut, C. & Webb, G.I. (Eds.). Encyclopedia of Machine
Learning. New York: Springer Science & Business Media. 1031 pp.












Todo el contenido de esta revista está bajo una