ÀÇ·á°è¼Ò½Ä
ºÐ´ç¼¿ï´ëº´¿ø ±è°æÈÆ ±³¼öÆÀ, ¼Ò¾Æ õ¸íÀ½ Áø´Ü AI ¸ðµ¨ °³¹ß
ÀÌÇØ¸² ±âÀÚ
ÀÔ·Â 2025/04/10 10:59
ºÐ´ç¼¿ï´ëº´¿ø ¼Ò¾ÆÃ»¼Ò³â°ú ±è°æÈÆ ±³¼öÆÀÀÌ ¼Ò¾Æ ȯÀÚÀÇ Ãµ¸íÀ½À» ºÐ·ùÇÒ ¼ö ÀÖ´Â Æ®·£½ºÆ÷¸Ó ±â¹Ý ÀΰøÁö´É(AI) ¸ðµ¨À» °³¹ßÇß´Ù. ÀÌ ¸ðµ¨ÀÇ Ãµ¸íÀ½ ºÐ·ù Á¤È®µµ´Â 91.1%·Î, ÀÓ»ó¿¡¼µµ Ȱ¿ëÀÌ °¡´ÉÇÒ °ÍÀ¸·Î ±â´ëµÈ´Ù.
õ¸íÀ½Àº ±âµµ°¡ Á¼¾ÆÁö°Å³ª ¸·Çô¼ ¹ß»ýÇÏ´Â °íÀ½ÀÇ ¡®½Ù½Ù¡¯°Å¸®´Â È£ÈíÀ½ÀÌ´Ù. ÁÖ·Î ¼Ò¾Æ õ½ÄÀ̳ª ¸¸¼º Æó¼â¼º Æó Áúȯ µî È£Èí±â Áúȯ¿¡¼ ³ªÅ¸³ª¹Ç·Î È£Èí±â ÁúȯÀ» Á¶±â Áø´ÜÇÏ´Â µ¥ Áß¿äÇÑ ÁöÇ¥·Î »ç¿ëµÈ´Ù. Áö±ÝÀº ÀÇ·áÁøÀÌ È¯ÀÚ °¡½¿¿¡ ûÁø±â¸¦ ´ë°í È£ÈíÀ½À» µè´Â ¹æ½ÄÀ¸·Î Áø´ÜÇÑ´Ù. ÀÇ·áÁø ¼÷·Ãµµ¿Í °æÇè¿¡ µû¶ó Áø´Ü Á¤È®µµ°¡ ´Þ¶óÁú ¼ö ÀÖ¾î °´°üÀûÀÎ Áø´Ü¹ýÀÌ ÇÊ¿äÇÏ´Ù.
ÃÖ±Ù±îÁö´Â ¼Ò¸®¸¦ À̹ÌÁö·Î º¯È¯ÇØ ºÐ¼®ÇÏ´Â AI ±â¼úÀÎ ¡®ÇÕ¼º°ø ½Å°æ¸Á(Convolutional Neural Network, CNN)¡¯ À» ÀÌ¿ëÇÑ Áø´Ü¹ýÀÌ ¿¬±¸µÅ¿Ô´Ù. ±×·¯³ª CNNÀº ªÀº ½Ã°£ ´ÜÀ§ ³»ÀÇ ¼Ò¸®¸¸ ºÐ¼®ÇÒ ¼ö ÀÖ¾î, È£Èí ÀüüÀÇ È帧À» ÆÄ¾ÇÇØ õ¸íÀ½À» ºÐ·ùÇÏ´Â µ¥ ÇѰ谡 ÀÖ¾ú´Ù.
ÀÌ¿¡ ±è°æÈÆ ±³¼öÆÀÀº Æ®·£½ºÆ÷¸Ó ±â¹ÝÀÇ ¡®È£ÈíÀ½ ºÐ¼® º¯È¯ ¸ðµ¨(Audio Spectrogram Transformer, AST)¡¯ °³¹ß¿¡ ³ª¼¹´Ù. ¿¬±¸ÆÀÀÌ °³¹ßÇÑ AST ¸ðµ¨Àº ¼Ò¸®¸¦ Á֯ļö ÇüÅ À̹ÌÁö·Î º¯È¯ÇÑ ¡®¸á ½ºÆåÆ®·Î±×·¥¡¯À» ÀÛÀº Á¶°¢µé·Î ³ª´©°í, Á¶°¢ °£ °ü°è¸¦ ÇнÀÇÔÀ¸·Î½á ÀüüÀûÀΠȣÈí È帧À» ÆÄ¾ÇÇÑ´Ù. È£Èí ÀϺΠ±¸°£¸¸ ºÐ¼®ÇÏ´Â CNNº¸´Ù õ¸íÀ½ ÆÐÅÏÀ» Á¤¹ÐÇÏ°Ô È®ÀÎÇÒ ¼ö ÀÖ´Ù.
¿¬±¸ÆÀÀº õ¸íÀ½ 194°³¿Í ±âŸ È£ÈíÀ½(½ÉÀå ¼Ò¸® Æ÷ÇÔ) 531°³ µî ÃÑ 725°³ È£ÈíÀ½ Áß 80%¸¦ AST ¸ðµ¨¿¡ ÇнÀ½ÃÄ×´Ù. õ¸íÀ½°ú õ¸íÀ½ÀÌ ¾Æ´Ñ È£ÈíÀ½Àº ¼Ò¾Æ Æó Àü¹®ÀÇ 2¸íÀÌ Æò°¡Çß´Ù.
ÇнÀÀ» ¸¶Ä£ AST¿Í CNN ¸ðµ¨ÀÌ ³ª¸ÓÁö 20%ÀÇ È£ÈíÀ½ Áß Ãµ¸íÀ½À» ±¸ºÐÇØ³»µµ·Ï ÇÑ °á°ú, AST ¸ðµ¨Àº Á¤È®µµ 91.1%, Á¤¹Ðµµ 88.2%ÀÇ ¼º´ÉÀ» º¸¿´´Ù. 83.6%, Á¤¹Ðµµ 74.2%ÀÎ CNN ¸ðµ¨º¸´Ù ßíÀ½ ºÐ·ù ¼º´ÉÀÌ ¿ì¼öÇß´Ù.
ºÐ´ç¼¿ï´ëº´¿ø ¼Ò¾ÆÃ»¼Ò³â°ú ±è°æÈÆ ±³¼ö´Â ¡°¼Ò¾Æ´Â ¼ºÀκ¸´Ù ÆóÆ÷ Ç¥¸éÀûÀÌ ÀÛ¾Æ È£Èí±â Áúȯ¿¡ ´õ Ãë¾àÇϹǷΠõ¸íÀ½À» Á¤È®È÷ ±¸ºÐÇÏ´Â Á¶±â Áø´Ü¹ýÀÌ ÇÊ¿äÇÏ´Ù¡±¸ç ¡°AST ¸ðµ¨ÀÇ ¼Ò¾Æ È£ÈíÀ½ ºÐ¼® ±â¼úÀ» ½º¸¶Æ® ±â±â¿¡ Àû¿ëÇØ ½Ç½Ã°£ Áø´Ü¿¡ Ȱ¿ëÇϰí, ÀÇ·á Á¢±Ù¼ºÀÌ ³·Àº Áö¿ª¿¡¼µµ Á¤È®ÇÑ Ãµ¸íÀ½ Áø´ÜÀÌ °¡´ÉÇÒ ¼ö ÀÖµµ·Ï ÈÄ¼Ó ¿¬±¸¡¤°³¹ßÀ» ÃßÁøÇÒ °èȹ¡±À̶ó°í ¹àÇû´Ù.
õ¸íÀ½Àº ±âµµ°¡ Á¼¾ÆÁö°Å³ª ¸·Çô¼ ¹ß»ýÇÏ´Â °íÀ½ÀÇ ¡®½Ù½Ù¡¯°Å¸®´Â È£ÈíÀ½ÀÌ´Ù. ÁÖ·Î ¼Ò¾Æ õ½ÄÀ̳ª ¸¸¼º Æó¼â¼º Æó Áúȯ µî È£Èí±â Áúȯ¿¡¼ ³ªÅ¸³ª¹Ç·Î È£Èí±â ÁúȯÀ» Á¶±â Áø´ÜÇÏ´Â µ¥ Áß¿äÇÑ ÁöÇ¥·Î »ç¿ëµÈ´Ù. Áö±ÝÀº ÀÇ·áÁøÀÌ È¯ÀÚ °¡½¿¿¡ ûÁø±â¸¦ ´ë°í È£ÈíÀ½À» µè´Â ¹æ½ÄÀ¸·Î Áø´ÜÇÑ´Ù. ÀÇ·áÁø ¼÷·Ãµµ¿Í °æÇè¿¡ µû¶ó Áø´Ü Á¤È®µµ°¡ ´Þ¶óÁú ¼ö ÀÖ¾î °´°üÀûÀÎ Áø´Ü¹ýÀÌ ÇÊ¿äÇÏ´Ù.
ÃÖ±Ù±îÁö´Â ¼Ò¸®¸¦ À̹ÌÁö·Î º¯È¯ÇØ ºÐ¼®ÇÏ´Â AI ±â¼úÀÎ ¡®ÇÕ¼º°ø ½Å°æ¸Á(Convolutional Neural Network, CNN)¡¯ À» ÀÌ¿ëÇÑ Áø´Ü¹ýÀÌ ¿¬±¸µÅ¿Ô´Ù. ±×·¯³ª CNNÀº ªÀº ½Ã°£ ´ÜÀ§ ³»ÀÇ ¼Ò¸®¸¸ ºÐ¼®ÇÒ ¼ö ÀÖ¾î, È£Èí ÀüüÀÇ È帧À» ÆÄ¾ÇÇØ õ¸íÀ½À» ºÐ·ùÇÏ´Â µ¥ ÇѰ谡 ÀÖ¾ú´Ù.
ÀÌ¿¡ ±è°æÈÆ ±³¼öÆÀÀº Æ®·£½ºÆ÷¸Ó ±â¹ÝÀÇ ¡®È£ÈíÀ½ ºÐ¼® º¯È¯ ¸ðµ¨(Audio Spectrogram Transformer, AST)¡¯ °³¹ß¿¡ ³ª¼¹´Ù. ¿¬±¸ÆÀÀÌ °³¹ßÇÑ AST ¸ðµ¨Àº ¼Ò¸®¸¦ Á֯ļö ÇüÅ À̹ÌÁö·Î º¯È¯ÇÑ ¡®¸á ½ºÆåÆ®·Î±×·¥¡¯À» ÀÛÀº Á¶°¢µé·Î ³ª´©°í, Á¶°¢ °£ °ü°è¸¦ ÇнÀÇÔÀ¸·Î½á ÀüüÀûÀΠȣÈí È帧À» ÆÄ¾ÇÇÑ´Ù. È£Èí ÀϺΠ±¸°£¸¸ ºÐ¼®ÇÏ´Â CNNº¸´Ù õ¸íÀ½ ÆÐÅÏÀ» Á¤¹ÐÇÏ°Ô È®ÀÎÇÒ ¼ö ÀÖ´Ù.
¿¬±¸ÆÀÀº õ¸íÀ½ 194°³¿Í ±âŸ È£ÈíÀ½(½ÉÀå ¼Ò¸® Æ÷ÇÔ) 531°³ µî ÃÑ 725°³ È£ÈíÀ½ Áß 80%¸¦ AST ¸ðµ¨¿¡ ÇнÀ½ÃÄ×´Ù. õ¸íÀ½°ú õ¸íÀ½ÀÌ ¾Æ´Ñ È£ÈíÀ½Àº ¼Ò¾Æ Æó Àü¹®ÀÇ 2¸íÀÌ Æò°¡Çß´Ù.
ÇнÀÀ» ¸¶Ä£ AST¿Í CNN ¸ðµ¨ÀÌ ³ª¸ÓÁö 20%ÀÇ È£ÈíÀ½ Áß Ãµ¸íÀ½À» ±¸ºÐÇØ³»µµ·Ï ÇÑ °á°ú, AST ¸ðµ¨Àº Á¤È®µµ 91.1%, Á¤¹Ðµµ 88.2%ÀÇ ¼º´ÉÀ» º¸¿´´Ù. 83.6%, Á¤¹Ðµµ 74.2%ÀÎ CNN ¸ðµ¨º¸´Ù ßíÀ½ ºÐ·ù ¼º´ÉÀÌ ¿ì¼öÇß´Ù.
ºÐ´ç¼¿ï´ëº´¿ø ¼Ò¾ÆÃ»¼Ò³â°ú ±è°æÈÆ ±³¼ö´Â ¡°¼Ò¾Æ´Â ¼ºÀκ¸´Ù ÆóÆ÷ Ç¥¸éÀûÀÌ ÀÛ¾Æ È£Èí±â Áúȯ¿¡ ´õ Ãë¾àÇϹǷΠõ¸íÀ½À» Á¤È®È÷ ±¸ºÐÇÏ´Â Á¶±â Áø´Ü¹ýÀÌ ÇÊ¿äÇÏ´Ù¡±¸ç ¡°AST ¸ðµ¨ÀÇ ¼Ò¾Æ È£ÈíÀ½ ºÐ¼® ±â¼úÀ» ½º¸¶Æ® ±â±â¿¡ Àû¿ëÇØ ½Ç½Ã°£ Áø´Ü¿¡ Ȱ¿ëÇϰí, ÀÇ·á Á¢±Ù¼ºÀÌ ³·Àº Áö¿ª¿¡¼µµ Á¤È®ÇÑ Ãµ¸íÀ½ Áø´ÜÀÌ °¡´ÉÇÒ ¼ö ÀÖµµ·Ï ÈÄ¼Ó ¿¬±¸¡¤°³¹ßÀ» ÃßÁøÇÒ °èȹ¡±À̶ó°í ¹àÇû´Ù.