Þ Þ ÐÒ Ô Ð Ò ÕÜ Û Ñ Õ Û ÜØ Þ Ö ØÝ ¾¼½ lresisi Õ ÕÜ Ü Ð ¾¼¼ ¼½½½ mikab4 ÓÛÜ Û Ò ¾¼½ ÙÜÒ ¾
Ñ Ô ÔÖ Ó Þ Ò I Ñ Þ Þ Ü ÝÛ Þ Ö ØÝ ÞÒ ÝÒ II Ó Ò ÜÒ Ð Ó Ò ÜÒ Ð Ñ Ô ÞÔ Õ III º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ ØÝ ÞÜ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ó Ò ÜÒ Ð Ø Ñ ÕÛ Ü ÛÒ ¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ñ ÜÛ Ñ ÔÒ Õ Ð Ø Ñ ÒÞ Ü Ð IV º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ø Û ¹ Þ Ô Ý º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ü Ü ØÕ º½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Borda Count Þ Ý º¾ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Õ Õ Ý ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-grams Ø Ö º½ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÑÜ Ô º½º½ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Ý Ü Þ Þ Ý º½º¾ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Õ Þ Þ Ý º½º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Þ ÒÚµ ÑÜ º½º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ØÝ Ð ÐÝ Ñ Ü Û ÓØ º¾ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÛÝÒ º¾º½ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÒ ÕÛÒ ÜÖ ÞÜ º¾º¾ ½½ º º º º º º º º º º º º º º º º º º º º º Ó Ô Ü Û Ð ØÝ Ü Û Ó Û ÜÒ Þ Ò ÓØ º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÝØ Û ÜÒ º º½ ½¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÛ Û ÜÒ º º¾ ½¾ º º º º º º º º º º º º º º º º º º º º º º º Ñ Ü Û Ó Þ Õ Ô Õ Û Ø Ö Ó Ò º º ½¾ º º º º º º º º º Þ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ µ Kullback-Leibler Û ÜÒ º º ½¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º Ranksµ Ñ Û Ò Ñ ÝÜØ Ñ Õ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÕÔ ÞÒÜ Ô º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð ÚÖ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-grams Ø Ö º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÑÜ Ô º½º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Ý Ü Þ Þ Ý º½º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Õ Þ Þ Ý º½º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Þ ÒÚµ ÑÜ º½º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Ú ÛÐ ÔÛÐ ÓØ º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ü µ Ò Þ Þ ÚÛÔ Ø º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Entropy ØÐ º º½
½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Information Gain ØÐ º º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Information Gain Ratio ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Gini Gain ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Train Error ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÙÖ Þ Ô Ð ÑÞ Ü Ð º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º classificationµ ØÝ ÕÐ ÑÞ Ü Ð º ½ Þ Ú Þ V ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ø Û µ Þ Ô Ý ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Õ Õ Ý ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ñ Ü Û Ó Û ÜÒ Þ Ò ÓØ Ø Ö º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-gram Ø Ö º¾ ¾¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ý ÓÒ µ Ò Ð ÚÛ º ¾½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º overfitting¹ Þ ÛÖ º ¾½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º recall, precision, F1 Ò º ¾¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð ÚÖ ¾¾ º º º º º º º º º º º º º º º º º º º º º º º º Ü µ Ò Þ Þ ÚÛÔ ØÐ Õ n-gram Ø Ö º½ ¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ý ÓÒ µ Ò Ð ÚÛ º¾ ¾ ÞÖÐ Þ Ý Ò Þ ÔÛÕÒ Ó VI ¾ Þ Ü ÛÒ VII ¾ Þ Õ Õ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ VIII ¼ Ð ÚÖ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ IX
I ÛÐ Ò Þ Ô Ý Þ ØÝ ½¾¼¹Ò ÜÞ ÐÝ ÓÞ Þ Ð ÝÒÝÒ ÑÐ Ö Þ Ú ØÔ Þ Þ ÜÖÒÒ Þ Ô Ð Þ ØÐ Þ ØÝ ØÕ Ô Ó Ð Þ Õ Õ Þ Þ ¾ ÐÐ º ³ Þ ÐÕ Þ Ô ÒÜ Þ Ô Ò Üµ Þ Ô Ý Þ ØÝ Þ ØÝÒÒ ¹Ð ÜÔ Ý Ò Ý º ØÝÐ Þ ØÐ Þ Ñ Þ Ð Ö ÔÝ Ñ ÜÛ Ñ ÔÒ Õ µ Ñ Ò Ñ ÔÒ Õ Þ Ò ÕÒ Þ Ð ÓÞ Ô Ú Ñ Þ Ô Ð Þ Þ Þ ÕÛ ÓÞÔ ¹ ÞÜ Þ Ò ÞÔ ÔÖÒ Þ Ý Ö ÐÖÒ Þ Ø Þ Þ Ö ØÝ ÖÒ Ñ Ü Ñ ØÔÖ Ú Ô Û ÖÒ Þ Ý Þ ÔÝÐ Þ ÔÝÐ ÞÒ µ Ñ Ü Ñ Ò Þ Ø ÛÒ Ö Ñ Û Ü ÛÕÒ ÐÝ Þ ÔÝÐ Þ Õ ØÞ Ó Ð Ð Ô Ò Ð ºÞ Ü Þ Ü Þ Ð Ý ÐÖÒ Ý Ò Þ Ð Ñ Ò Ð ØÝ Ñ Ý Ü Ô Ô ÓØ ÞÒ Þ Ô Û Þ Ð Ý Þ Ö Þ ØÝ ÐÝ Ñ ÐÕÜ Ô Ð Ö ÞÒ Ñ Ü Ñ ÛÜØ Ñ Ý Ò Ý Ð Ý Ü Þ Ü Þ ÔÔ Ö Ý Ü Ð Ý Ð ÛÒ ºÑ Ð Ò ÐÝ Õ Õ Þ Ô º³ Ò Ñ ÜÞ Ð Þ Ó Ý Ü ÐÝ Ñ ÒÕÒ ÑÖ Ö ÕÛ Ý Ø Þ Ò ÝÒ Cryptanalysis ÐÝ Ñ Þ Ü ÖÐ Ð Þ Ô Ý Þ ØÝ Þ Þ ÐÝ Þ Ü Þ Þ Ô ÜØ Þ ØÝ Ó Ñ Ð Ñ ÕÛ ÐÝ ÔÖØ ÔØÚ Þ Ò ÝÒÒ ÛÐ Ñ Õ ÐÛ Ñ ÔØÚ ØÐ ÔØ Ú ÐÝÒе Ö Ò Ó º³ ÓÒØ Û ÞÒ µ Ö Ò ÐÝ Õ Û ÔÖ ØÒ ÒÕÒ ÞÒ ÖÐ Ü ÛÒ ÒÕÒ Ñ Õ Ø Ñ Þ Ý NLP¹ Ñ Þ Ý Ô¹ÞÞ µ Þ Ö ØÝ Þ Ö ÐÝ Þ ÝØ Ò ÕÜ Û ÕÖÞ ÔÐÝ Ö Þ Ý ØÝ Þ Ò ÓØ Þ Ð ÒÐÐ ÓÞ Ô Ó Ñ Ü Ü ÞÔ Ð Ò AI¹ ÑÐ Ö Ò Ó ÔÖÒ Þ Ô Ð Þ Þ Þ Þ Ô ÜÝ Ý ÜÒ Þ Ü Ò Þ ØÝ ÜØÕÒ ÐÝ Ó Ò Ó Ò Ó ÞÔ ÕÛ Þ ÔÒ Ü Þ ÜØÕ Þ ÔÒÜ Þ ÛÐ Þ Ý Þ ÔÐ Ø Þ Ü Ô Þ Ô Ô Þ Ü Ø Þ ÛÜ Þ Ð Ô Þ ÞØÜÚ Þ Ô Ð ÕÔÛ ÜØ Þ Þ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð ÐÝ Û ÜØ Ð Ò ÔÞ Ô Ý Õ Õ Ó ÖÜ ÐÝ Þ ÐÝ Ñ ÒÜ Ô µ Þ Þ Þ ÐÝ Þ Õ Þ Ý Ý ØÚÔ Ò Ð º ØÝ Þ Ô Ý Ñ Ð Ò Ü ÝÛ Ð Ò Õ Ð Ò Ý Ü ÞÒ ÕÒ Þ ÐÝ Þ Ý Ý Ó ØÝÐ ØÝÒ Ô Ý Þ Ñ ÒÜ µ Þ Þ Ü Ö ÐÐ Ñ Õ Ø Þ ÒÐÐ Þ ÕÔÐ Ô Ð Ó ÖÜ Ü Ð º Ö ÕÐ ÐÖ Ö Ð Ð ØÐ ØÝÐ Ñ Õ Ø Ñ Ô ÞÔ ÐÖ ÒÞÕ Ó ÞÔ ÕÛ ÐÝ ØÝ Þ Þ Ð Ð Ô Ñ Û Ð Ð ÖÐ Þ ØÝ ½ ¹Ò º ÔÒÐÝ 2010-2011 Ð ÔÝ ÜÒÞ ÓÜ Ò Ö Þ ÔÝ "Natural Language Detection" Ö ÑÖ Þ ÞÞ ÔÞ Ö Þ Ú Þ Þ Ü Þ Ð ÕÔÔ Ô Ý Ü Ú Ö Þ ÛÞÐ ÕÔÔ ÔÞ Ö º Ò Ò ÝÒ ÑÖ ÒÞ Ý Ö Ð ÔÐ Ö Õ Ý Þ Þ ÐÒ Ô Ñ ÞÒ Ñ Ü Ñ ØÕ Ô Ñ Ð Ý Ò Ý Þ Ý Þ Ü ÛÒ Þ Ü Ò Ý ¹ Þ Ô Ò ÒÐ Þ Ý Þ ÖÚÒ Ö Ð Ý Ô Ô Ô Ñ Þ Ü ÛÒ Þ Þ Ò ºÜÞ Þ Þ Ú ÞÐ Ð ÑÐ ºÓ Ò ÜÒ ÞÒ Þ ØÝ Õ Þ ÚÛÔ Ø Þ Ô Ð ÕÔÔ Ð ÚÖ Þ ÖÚÒ Ñ Õ Õ Ñ Ð Ð Ð Ð Ð Ð Ð Ý Ò ØÝ Ò Ñ ØÐ Ñ Ô Ø Ò ÞÜ Ó Ò Þ Ö ÞÝ Ó Þ Ò Ñ Ñ ÒÞ Ü Ð Þ ÐÒ Ø Ý Ü Ñ Ò Ý Ò Ý ÝÖÔ Ñ Ñ Õ Õ Ñ Ð Ð ÚÖ
Þ Ü ÛÒ Þ Ü Ò Ð ÖØ Ý Ð ÐÖ Ñ ØÕ Ô Ñ ÒÞÒ Ñ Ý Þ Ô ÖÜ Ð ÖØÔ Ð Õ Ô ºÝÒÞÝ Ð ÔÜ ÞÒ ÕÒ ØÝ Þ Ð ÕÔÔ Ð Þ ØÝ ÝÝ Ó Ü ÕÒ Ý Ñ ÛÒ Ý Õ ÞÒ ÝÒ Þ ÜÔ ÜÚÒ ÞÜ Ô Ü Ú Ò ÝÒ Þ ÕÒ Ó Ò Ý Òµ Ô Ð Þ ØÐ Þ Þ ÔÝ Þ ØÝ ÐÝ ÜÞ Ü Ó Ò ÞÒ º Ñ ØÕ Ô Ñ Ü Ñ Ü ÒÜØ Þ Ý Þ ÐÖ ÐÒ ÐÝ Ô ÚÜ Ü Ò Ô ÐÖ Þ Ô Ð Ò Ü ºPython3.0¹ Þ Ô Û ÜØ ÞÜ ÕÒ Û Ý NLTK ÞÒ µ Ý ÜÒ Ñ Ü Ò Ñ Ð ÐÖ ÕÕ Þ Ð Ô ÚÜ Ð Ô Ö ÑÞ Ñ ÜÒ ÐÖ Ñ ÒÞ Ü Ð Þ Þ README.txt Ù Û ÚÜ Þ Ü ÐÐ µ Ý Ô Û ÐÐ º ÔÐÝ Þ Ý Ò Þ Ò Þ Ð Ð Ñ Ð http://tinyurl.com/qda6f5h
II ÛÐ Ñ Þ Þ Ü ÝÛ Þ Ö ØÝ ÞÒ ÝÒ Ü Ö Ô ÔÞ Ö Ü ÚÐ ºÓ ÞÔ ÕÛ ÐÝ ØÝ ÞÒ ÝÒ ÖÚ Ð Ô Ö Ü Ò Þ Ò ÛÐ Ñ Ô Ø Ò ÞÜ Þ Ô Ò ÒÐ ÐÝ Þ Ô Ý Þ Ý Þ ÖÚÒ Ö Þ ÛÞÐ Ð ÔÝ ÝÒÞÝÔ Ñ ÜÝ Ñ ÔÝÐ Ñ Ô Ø Ò bigramsµ Ñ ÒÜ unigramsµ Ñ ÒÜ Ô ÐÝ Þ Ý Û Ô Ð Þ Ò ÛÐ º ÐÐ Ñ Ô Ø Ò ÐÖ ÒÞÕ Ý Þ Þ ÒÚ ÞÒ ÕÒ Þ ÞÖØ ÐÝ Þ Ü ÞÕ Þ ÚÒÔ ÜÒ Ð Þ Û Ô Þ ØÝ Ò Þ Þ ÐÝ Ñ ØÕ Ô Ñ Ô Ø Ò º Þ ÕÛ ØÝ ÐÖ Ò ÒÐÐ µ Ò ÐÝ Ð Ð Ô Ñ Û Ô ÞÒ ÕÒ ØÝ Ð Ò Ý Ü ÞÒ ÕÒ Þ ÞÖØ Þ ÝÐ Þ Õ Þ ÐÐ ¹ Þ Ü ÛÒ Ö Õ Þ Ð Ñ Ð ¹ Ó ÔÝ º³ Þ Ð Ô Ü Ô Þ ÛÐ Ý Ð Ò Õ Þ ÐÝÒе Ð Ò Õ Ñ ÜÛ Ñ ÔÝÐ Ö ÜÛ Ô Ö ÑÛРݵ ÐÐ Ñ Ô Ø Ò Þ ÒÐÐ ÕÔÔ ÔÝÐ ÞÖ Ñ ÞÒ Ô Ý Ó Ñ Ü Û Þ Ý µ ÝØ Þ Õ Õ Û Ü ÚÐ Ó Ñ ÝÒÞÝÔ Ò ÓØ NLP¹ Ñ Þ ÞÜ ÕÒ º ³ information gain Ø Ü Ô ÞÒ µ Þ Ô Ý Ü Þ ÚÛÔ Ø Ý Ò Ý Þ Ð ÚÖ Þ Ô Ü ÚÐ ÐÝ Þ Ü Þ ØÕ Ô Þ Ý ÝÒÞÝÔ Þ Ü ÛÒ Ö Ý Ò Ý ÝÖÔ Ó Þ ÞÒ Þ Ü Þ Ð ÕÔÔ Ö ÞÒÜ Ô Ý Ò Ý Ö Ü Ö Ð ÛÞ Ý Þ Ú Þ Þ ÜØÝÐ ÓÞ Ô Ñ Û Ô Ò Ð ºÞ Ü ÛÒ Ö Û Ô ÐÝ Ø Õ º³ Kullback-Leibler Û ÜÒ ÞÒ Ñ ØÕ Ô Ñ Ð Ý Ò Ý Ñ Ò Þ ØÝ Þ Ý ÑÝÐ ÕÔ Ñ Û ÐÝ Õ ÞÜ Ú Þ Þ ÐÒ Ô Ñ ÞÒ Ñ Ð ÞÐÖØ Þ ÜÞ Þ Þ Ú ÞÐ Ö Ð ÚÜÔ Ü ºÓ Ò ÜÒ ÒÕ ÐÖ ÒÐ Ý Ñ Õ Ø ÕÛ Þ Þ ÜÒ Ñ Ð Ò Ý Ø Ö Þ Ð Ð Þ Ó ÞÔ ÕÛ ØÝ Ð Þ Ô Ü Ü Ö Ó Ð Ò Û ÞÐ ÜÒ Ð µ Þ ÒÞÔ Þ ØÝ Ò Ñ Ð Ò Ð Þ Ð Ð Ý Ö Ö Ò Ü Ò Û Ô Þ ÑÖ º ÜÛ ØÝ Þ Ü Ð Ó ÞÔ ÕÛ Ñ Ð Ò Ò ÝØ Ð Þ ÒÞÔ Þ ØÝ Ò Þ ØÝ Ò Ü Öµ Ý Ñ ÚÖ Ö Ò Ü Ò Ý Ø ÝÒ Ñ ÛÒ ÞÔ Ò ÜÛ Ò Ý Ô Ó ÜÞØ ÞÜ Þ Ý ÐÝ Ô ÝÒÞÝ Ð Ð ÜÝØ Ü Ø Ý ºÞ Ð Ö Þ ÒÜ Ü Ú Ö ØÝ Ò Ò Ü Þ Ð ÝÖ Ô ÜÚÛ ÞÐÖ Ò Þ ØÝ Ð Ñ Ð Ò Þ Ý Þ ÐØÞ Ý ½ Ü Ý Ø ³ Ü ³ ÚÒÜ ØÔ Ñ Ð Ò ½¼¼¹ Õ Ø ÕÛ Ñ ÖØ Ò Ò 25%¹ Þ Õ Ò Þ Ð Ô ÜÞ Þ Ú ØÔ Ñ Ð Ò ½¼ ÐÝÒÐ Ü Ð Ð Ý ÑÚÒ ÚÒ Ü ÒÐ Ü Ò Ü Ò Þ ÑÚÒÚÐ ÓÞ Ô ÜÒ Ð ºÑ ÖØ Ò Ò 45%¹ Þ Õ Ò Ü Þ Ú ØÔ Þ Þ Ô Ø ÒÝ Þ Ü Ý Û Þ Ð Ò Þ ØÝ Ò Þ Ú ØÔ Ñ Ð Ò Þ Ò µ Þ ÜÝÖ Ò ÐÝ Ò ÝÜ Ô ¹ Ñ ÛÒ Þ Ø Þ Þ ÖÒÝÒ Þ Ü Ú Þ ÕÒ Þ Ø Þ Þ ÖÒÝÒ Ý ÐÖ ¹ Ý ÒÐ ÑÐ º ØÝ Ñ Ð Ò Þ Ð ÚÜÔÝ Ñ ÜÛÒ Þ Ý Ò Ý Þ Ð Ò ÜÞ Þ Þ ÐÒ Ô ÞÔ Ò ÞÔ ÔÖÒ ÞÒ ÞÜ Ü ÚÒÐ ÚÜÔÝ Ó Ò ºÞ Ú ØÔ Ò Ñ Ð Ò Õ Þ Ð Ò ÐÐ ÐÝ Ñ Ð Ò ÜØÕÒ ÐÝ ÚÜ Þ Þ Ü ÞÕ Ó ÞÔ ÕÛ ÐÝ ØÝ Þ Ý ÕÒ ØÐ Þ Ô Ð Ó ÞÔ Ó Ò ÜÒ ÐÖ ÒÞÕ Ð Ð ÞÝ º Ý Þ Ñ ÜÚÛ Ô ÔÞ Ö Þ ÑÖ ºÓÞ Ô Ð ¹ Ð Ò ÕÜ Û Ñ ÔÜ ÐÖ ØÝ ÞÒ ÝÒ Ó ÜÞ ØÐ ÜÞ ÞÔ ÔÖÒ Þ Ö Ü ÒÐ ÐÖ Ñ ÕÕ ÞÒÝ Ñ Ð Ñ Google Translate ÞÒ NLP¹ Ñ Þ Ñ Ü Ñ Ò Ñ Ð ºÞ Ý Þ ÔÝÐ Ñ Ú Ü Ô Ô Ó Ñ Ð Þ Ý Þ ÔÝÐ Ñ Þ Ñ Ü Ñ ÜÛ Ò Ó Ò ºÞ Û Õ Õ ÐÖ ÒÐ ºÖ Ð Ð Ô Þ Ú Þ Ð Ð ¹ Ó Ò Ó ØÔ Ü Ö ¹ Û Ð ÝÒ Ð George K. Zipf (1949), Human Behavior and the Principle of Least Effort, Addison-Wesley. ½
III ÛÐ Ó Ò ÜÒ Ð Ó Ò ÜÒ Ð Ñ Ô ÞÔ Õ Þ Þ ÖÒÝÒ Ò Þ Ð ÜØÕÒ Ð ÛÐ ÔÚÐ Ô Ò ÝÒ ÑÖ ÒÞ Ð Ô Þ ØÝ ÞÜ ½ ÞÒ Öе Þ Ð Ð ÔÝ Þ ØÝ ÜØÕÒ Þ ÞÜ Ô Ü Ú Ð Ð Ô ÒÚÖÐ Ô Ú Ý Ñ Ü ÛÒ Ñ Ö ÐÖ Ò Ö ØÝÒ Ó Ý Ò Þ Þ ÖÒÝÒ ÓÞ Þ ØÝ Þ Ò ÞÜ º Þ Ü ÛÒ Ö Þ ØÝ ÝÝ Þ Ý Þ Þ Õ Ð Ð ÐÖ Ü ÔÝ ØÝ Ð Ò ÜÞ ºÓ Ò ÜÒ ØÔ ÐÖ Ñ Ò ÞÜ Ô Ü Õ Ð Ð Ð ÔÝ ÚÒ Ð ÞÒ ÝÒ ÐÖ ÐÛ Ð Ð ÚÒÝ Ò Þ Ý å ÞÒ µ Ð Þ Ý ÜÒ Ð ÙÖ Ð Þ Þ Þ ÖÒÝÒ Ü Ú Ð Ð Ñ ÒÜ Ò Ü Ò µ Ñ ÒÜ Ô Þ Ò Þ ÞÜ Ô Ü Ú ¹ ÜÛ Ö Þ Ô ÞØÕ Ô Þ ÜÝØ Ö º ÔÜÚ Ý Ñ Ú Û Ð Þ Ú Ü ÝÒ Þ Þ ÒÜ Ü Ú Ü Ð ¹ Þ ØÝ Ó Ó Ò Ü ÝÛ ÞÜ Ö ºÜÞ Þ ÕÒ Þ Ð Ð ÐÖ ÜÞ Þ Û Þ ØÝ Ó Ò ÜÒ Þ Ý Ð Þ ÐÝ Ø Õ º Ð ÐÖ Þ ÝÛ Ð Ð Ý Ò Þ Ò Ò Þ ØÝ Ó Þ ÔÐ ÕÔÛ ÜØ Ò Ð ÔØÕ Ó Ð Þ Ü ÛÒ Ö Ò Þ ØÝ Þ Þ ÐÐ Ý Ð ÖÐ Ü ØÝ Þ ØÝ ½ Þ Ü Ð Ô Ð Ý Þ ØÝÒÒ Þ ØÝ Þ Ô Ð Þ ÛÐ Ò Ðµ Þ ÝÒ Ü Õ Ü ÛÒ Þ ÐÖ Þ Ò Þ ØÝ ¹ Þ Ô ÔÖÒ Þ ØÝ º ³ Þ ÐÕ ØÝ Þ ÔÐ Ø Þ Ô ÒÜ ØÝ Þ Ý Þ Ô Ò Ü ØÝ Þ ÔÒ Ü ÐÝÒе Þ Ô Ý Þ ØÝ Ó Ò ÜÒ Ð Ø Ñ ÕÛ Ü ÛÒ ¾ ÕÛ ÞØÝ Þ Þ Ð Þ ÜÝØ ÞÝ Û ÜØ Þ Ý Ü ÔÒÚÖ ÔØ Ô Ú Ý Þ Ý Þ Ü Ò Þ Ü ÛÒ Ü Ò º ÔÜ Ô Ð Ø Û ÜÖ Ü Ý ÜØÕ Ó Þ ÖÒ ÛÐ Ñ ¹ Ü ÛÒÐ ÜÝÛ ÐÐ Ñ Ð Ò Ü Ñ ØÝÒ Ü Þ Þ Þ ÐØÞ ÐÖ Ñ Ð Ò ÜÚ ÐÖ Ò Ö ØÝ Ð Ñ Ð Õ ÕÛ ºÑ Ô Ý ØÝ ÐÝÒ ÜÞ Ý Ò Ñ Õ ÒÝ Ñ Ô Ý Þ Ü ÛÒÒ Ó Ò ÜÒ Ý Ð ÔÐ Ý Ñ ÝÒÞÝÒ Ó ¹ ÜÒ ÝÒÞÝ Ð Ô ÚÜ Ð Þ Ú Þ Þ Þ Ð Ð Ý Ñ ÜÛ Ñ ÕÛ ÐÖ ÜÝØÞ Ð Ô ÚÜ Ð Õ Ô Ó Ý Ð ÐÛÝ Þ Ý Ô Þ ØÝ Ñ ¹ Þ ØÝ Ó Ò Ò Û ÒÜ ÓÞ Ô Ð Þ Ó Ò Ó Ò Þ ÛÜ Þ Ô Ô ÞÒ µ Ó Ñ Ý Ô Þ Ø Ñ ÜÒ Ý Þ ØÝ Ñ Þ ÞØÜÚ Þ ÔÒÜ Þ Ð Ô ÞÒ µ Ñ ÜÒ Ü Ð º ÐÐ Þ ØÝ Þ Ñ Ü Ð Ô Ô Þ Ñ ÜÒ Þ Þ ÜÖ Ð ÝÛ ÔÐ Õ Ô º ÕÔÛ ÜØ ÞÜ Ü Ò Þ Ý Ð ÜÞ Ü ÛÒ Ô ÚÒ Ñ ÕÛ ÐÝ Ò Ü Ó Ò Ý Ø Û ÒÖÒ Û Ü Õ ÔØ ÜØÕµ Þ Ô Ý Þ Ü ÛÒ Ñ ÜØÕ ÞÜ ÐÖ ÔØÛ ºÞÝÜ Þ ØÝ Ó Ò Ñ Ô Ü ÛÐ Ñ ÜØÕ ºÑ Ô Ý ØÝ ÐÝÒ ÐÖ ÖÚ ÞÞ ÒÐ Ý Ô ³ Ü Ý ÔÝÝ Ü Ò Ñ Ð Ò ÝÒ Þ ØÐ ÐÐ Ý Ñ ØÝÒ Þ ÛÜ ÔÜÒÝ Ñ ØÝÒÐ ÔÛÜ Ø Ñ Ô Ý Ñ ÕÛ Þ ØÝÐ Ò Ý Ó Ò Ð Ø ÜØ Ñ ØÐ Ý Ð Ð ÔÝ Þ Þ Û ØÕÒ Ñ Ð Ò Ð ÜÞ Ñ ÜÚÛ Ñ ØÝÒÝ Þ Þ Ð Þ Ô Ø Õ Ô ºÑ Ô Ý Ñ ØÝÒ ¾¼¼¼ Þ ØÐ Ð Ð ØÝ Ð Ó Ò ÜÒ Ý Ð Ô º ÝÐ ºlower case¹ð Ü Ö º Ø Û ¹ Þ Ð Þ Ô Ý Ü ÛÒÒ Û Þ Ô ÛÐ ÓÞ Ô Ð Ó Ò ÒÚÖ Ó Ò ÜÒ Ý ØÝ ÞÛ Ô ØÝ Ý Ô Ò ÐÝ ÚÜ ØÝ µ Ø Û ÜÖÒ Ñ ØÝÒ ÐÐ Ó Ò ÜÒ ØÝ Ð Þ ÒÝ ÐÐ Ð ÐÝÒе Þ Ü Þ ØÝ Ö Ò Ò ÖÒ Ð Ð Ó Ò ÑÝ Ö Ò Ý Ý Ò ÞÒ Þ ÒÝÜ ÔÝÒÞÝ Þ ÜØÕ Ü Ö ÐÝÒÐ º ØÝ Þ Ñ Ý Ò Ñ Ô Ò Ð Þ Ð Ô Ñ Ü Ñ ÖÒ Ñ Ô Ò º Û ÜØ Ñ Ü ÜÖ ÔÝÒÞÝ ÕÔÛ ÜØ Ü Ö ÜØÕ ÜÖ
Ñ ÜÛ Ñ ÔÒ Õ Ð Ø ºÞ Ð Ô Ò ÔÐ Þ Ü Ò Þ Þ ¾ ¹Ð Ü ÖÒ Þ ØÕ Ô Þ Þ Þ Ò Û Þ Ô Ð Þ Þ Þ Þ Ô Þ ØÝ Ò Þ Ü Ð Ò ÐÝ ÓØ ÐÖ Ñ Ö ØÝÒ Ñ ØÜ ÞÜ Ñ ÔÒ Õ Ñ Ñ ÜÛ Ñ ÔÒ Õ Ñ ÜÛÔ Ð Ñ ÔÒ Õ ă á ä Þ Ð Ð a Þ Ò Ð º Ð Ü Þ Ð Þ ÞÒ ÐÖÒ ÝÐ ÓÒ Õ ÞØÕ Ö Ð ÛÞ Ñ ÐÝ Þ ÖÒÝÒ Þ Ñ Ð Ð Ò ÐÝ Þ Þ ÔÝÐ ÛÜ Ð Ð ÜÛ ÓÒ Õ Ý Ò Ý ÜÝ ³ ǎ º Ü schon Ð Ò Þ ÖÒÝÒ Ö Ø schön Ð Ò Þ ÖÒÝÒ Þ ÔÒÜ ØÝ ÐÝÒе ÐÖ Þ ÝÛ Ð µ ÐÛ Ð Û ÜØ ÐÖ Þ Þ ÖÒÝÒ Ü Ú Ö ØÝ Ð Ð Ñ ÜÛ Ñ ÔÒ Õ Ü Ð Ñ ÔÒ Õ ÜÖ Ö Þ ÔÒÜ ÞÛ Ô ØÝ Ý ÐÖ ÞÛ Ò Ü Ú ÖÞ ß Þ ÐÝÒÐ º ØÝ Ô Ó Ö Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Õ Ð Ñ Ú Ü Ô Ý Ô Þ ÑÖ ºÞ Ð Ô ÐÖ ÒÜÒ Ñ ÜÛ Ð Ü a¹ð ä Ø Ð ÐÝÒе Þ Þ Ð ÜÒ ÞÐ ÝÒÞÝ Ð ÓÞ Ô ¹ Þ Þ ÝÖÐ Ú Ö Ü Ð Ñ ÝÜÔ º ÐÐ Ñ ÔÒ Õ Ò Ð Ð ÑÐÖÞ Ð Ð Ø Þ ÔÒÜ ÔÝ Ø ss¹ð ß ae¹ð ä Ø Ð ÐÝÒе Þ Þ ÞÝÐ Ý Ò Ý Ñ Ý Ö Ô Ô Ñ Ñ Ü Û ÐÐ ÐÖ Þ ÐØÞ ÐÖ ÞÜ Ô Ü Ú Ö ØÝ Ð Ð Ý Ó Û Þ Ð Ü Ò Þ ÔÝÐ Ô Ò ÜÖ ÞÜÕ Ñ ÜÛ Ñ ÔÒ Õ ÐÝ ÜÕ Ð Ü ÖÒ º Û ÜØ Þ Ú Þ Þ Þ ÔÝÐ ºÑ Ð Ò Ñ ÚÒÒ ØÝ Þ Ó Ð Ð Ñ ÔÝÒ Ô Ô Ó Ý Û Ð Ô Ð Þ Ý Þ ÔÝÐ Ñ ÞÒ Ñ ÜÛ Ñ ÔÝÐ ÜØÕÒ ÑÖ Þ ÚÖ Þ ÐÐ Ý ¹ Ñ Ü Ñ Ð Ü Ð ¹ÜÛ Ñ ÔÒ Õ ÞÜÕ ÜÝ Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Ñ ÜÛ Ñ ÔÒ Õ ÑÖ Ñ ÔØ ÔÝ Þ Ú Þ Þ NFD (Normalization Form ÒÜ Ø Ý Ò Ý Ó ³Þ Ø ÐÝ unicodedata Þ ÜØÕ Ý Ò Ý Þ ÖÚ Þ Ñ ÐÖ Ò Ñ ÐÛÒ Ñ ÜÛ Ñ ÔÒ Õ ØÐµ ÔÐÝ ÜÖÝ Þ Û Ð Ð Ô ºCanonical Decomposition) ºÑ ÜÛ Ñ ÔÒ Õ Þ Ü Õ Ý Þ Ü ÛÒ ÖÐ ÔÞ Ö Þ Ú Þ Þ Þ Ý Ð Ð Ô Ó ØÝ
IV ÛÐ Ñ ÒÞ Ü Ð Ý Þ ÜÚÛ Û Ð Ñ ÔÜ ÑÐ Ð ÚÖ Þ Õ Õ Ý ÐÖ Ý ÔÒÝ ÔÞ Ö Ü Ò º Ø Û ÐÖ ÞÕÕ ÞÒÝ Þ Ô Ø Û ¹ Þ Ô Ý ÜÕ µ Ó Ý Ò Ý Þ Ý ØÐ ÝÐ Þ Ö ØÝ Ñ Ð Ò Þ ÜÔ Ñ ØÐ Ü ØÒ Û Ø Û 1 i ¹Ð Þ ÐÔ ÚÜØ ÜØÝ Þ Ü Þ ÞÐÖ i¹ Ð Ò ÚÒÔ Ü Þ Ý occurances(w i ) = K i º ÝÐ Ö Û K¹ Þ Ü Þ i¹ Ð Ò ÐÝ Þ ÖØ ÜØÕÒ occurances(w i ) ÜÝ ÒÐ Ó Ó Ó Ý Þ Þ ÐÒ Ô ÞÔ Ò ÞÔ ÔÖÒ ÞÒ Ô Þ Ô Ý Ò ÛÐ Ü Ò Ð Ý ÔÝ Ü Õ Þ ÛÔ Þ Ð Ó ÔÐ Ô ÚÒ Þ ÑÖ ºÑ Ð Ò ÞÒ ÝÜ ÝØ Ý Ø Ð º Ý Þ Ü Ð Ð Ò Ò ÓØ ØÝ ÞÒ ÝÒ ÐÖ Ü Ð Ó Ô Ó Ò Ü Ð Þ Ô Ð ÖÒе Þ Û Ô Þ ØÝ Ò ÜÞ Þ Ú ØÔ Ñ Ð Ò ÞÒ ÝÜ Þ Ô Ü Ó Ý Ü ÐÝ Ð Ò Ð ÐÖ ÔÚÜ ÞÖ ºx {10,20,50,100,500,1000} ÜÝ ØÝ Ð Þ Ú ØÔ Ñ Ð Ò x Þ ÛÜ Ô Ú Ý Ð Ü Ü ØÕµ Ô Ö Þ ÝÐ Ñ Þ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Þ ÔÝØ Ó Ô ÕÛ Þ Ú ØÔ Ñ Ð Ò ÞÒ ÝÜ Ö Ø Ð Ò ÜÝ Û Ôµ Ð ÒÐ ÝÐ Û Ô ÔÞÔ Borda Count Þ Ò Ñ Ð Ò ÞÒ ÝÜÒ Ñ Ð Ò ÜÞ Ý Ó Ò Ù Û Ý Ð Ý Ó ÖÜ º ÑÝ Ö Ø Ð ÜÝ Ð ÐÝ Û Ô Þ Ü ÐÝ Ø Õ ÔÜ ØÐ º ØÝ Þ Þ ÕÛ Ý Ñ Õ Ñ Ð ÝÐ ØÝ Þ Ú ØÔ ºÜÞ Ó Ú Ð ÛÞ Ü Ö ØÝ Û Ô Þ Ý ÞÝ Ñ Ô Ö Ü Ò Ð Ü Ü ØÕ º½ Ó Ú Ð Û ÑÝ Ö Ø Ð Ò Ñ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Ó Ô ÕÛ Ð Ò Ð ÔÝØ ÜÛÒ Ó Ò Ù Û Ö Ø Ý Ñ Ð Ò Ò ÐÝ Û Ô Þ ÔÒ Õ Ü ÖÒ ÐÝ Ø Õ º 1 Ó Ú Ð Û ÞÜ ½ ºÜÞ Û Ô Ð ÛÞ Ü Ö ØÝ Þ ÔÜ Borda Count Þ Ý º¾ i Þ Ü Þ Ù Û Ö Ø Ð Ò Ñ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Ó Ô ÕÛ Ð Ò Ð ÔÝØ ÜÛÒ Ý Û Ô ÜÞ Ð Ò Þ Ü ÞÝ Ð ÜÒ Ð µ x i Ó Ú Ð Û Þ Ú ØÔ Ñ Ð Ò x ÞÒµ Ñ Ð Ò Ò ÐÝ Û Ô Þ ÔÒ Õ Ü ÖÒ ÐÝ Ø Õ º 1 Ó Ú Ð Û ÞÜ ÜÞ Ð ÛÞ Û Ô Þ ÝÐ ÐÔ ÚÜ ºÜÞ Û Ô Ð ÛÞ Ü Ö ØÝ Þ ÔÜ Ó Ò Ù Û Ö Ø Ý Ü Ú Þ ÖÒ Ó Ð ÜÞ Þ Ü Þ Ó Ó Ø ÐÝ ÞÔ Ø ÖÝ ØÝ ÜÞ Þ Ú ØÔ Ñ Ð ÒÐ Þ Ø Ö ÞÞÐ Ð Ò Ý ØÝ Þ ÖÔ Ó Ð Þ ØÝ ÜØÕÒ Ö Ø Ò ÞÒ ÕÒ Ð ÒÝ Ó Þ Õ Ô º ØÝÐ Þ Ý ÐÖ ÜÞ º Ú ØÔ ÜÞ
Þ Õ Õ Ý ¹ÒÜØ Ø Ö Ñ Ü Û Ð ÑÞ Ø Ó Ò ÜÒ Þ Ô Þ Þ Ô Ý Þ ØÝ Ñ Ü Ñ Õ Ø ÔÒÐ Ý ÞÜ ÕÒ Õ Ø Ü Û Ð Ô ØÝ Ð Þ Ô Ý Þ Ò Ò Ð ÛÞ Ý Ñ Ô Ý Ñ Ü Û Þ ºÑ Ô Ý Ñ Ü ÞÒ ÝÒ ºÜ Û ÔÒÒ Ñ ÔÜÚ Ó Ò ÜÒ ÐÝ Ò Þ Ô ÔÖÚ Ó Ò Ü Ð º ØÝ Þ Þ Ú Ò ¹ Ø Ü Û Ó Ð Ó Ò ÜÒ Þ Ú Òݵ Ð ÛÞ Ý Ü Û Ó Ý Ð Ò Ü Þ Ñ ØÝ Þ ÝÒ ÜÔ Ó ÐÖ Þ Ô Ý Þ Ý µ ÔÒ classification¹ ÐÝ Ó ºÞ Û Ô Þ ØÝ Ò ÐÝ Õ Õ Ø Ý ØÝ Þ ÔÜ Þ ØÝ ÐÝ Ñ Ú Ñ Ü Û Ò Ó Ð Û Ô Ü Û Ó Û ÜÒ ºÓ Ò ÜÒ Ð ÜÞ Ò ÓØ ÓØ Ò ÐÝ Þ ÜÛ ÐØ Ò ºÞ Ô Ý Ñ Ü ÜØÕÒ ÖÚ Þ Ð ÖÐ Ü ÞÝ Ð Þ ÐÝ Ð Þ Ô Ý Ð Þ ÐÝ Ø Õ ºÝÛ Ò ÕÛ Ð Ü Ö Þ Ô Ý Þ Û Ò Ü ÞÒ ÞÕÒ Û ÜÒ Þ Ò ÓÞ Ô Ñ Ò Ò Ò Ö ÛÐ Ð ÔÝ Ñ Ò Ø Ö ÔÚ Û Þ Þ Ò ØÝÐ Ô Ñ Ø Ü Ú Ò Ý Ú Þ ºÜÞ Ó Ô Ü Û Þ Ó Û ÜÒ Þ Ò ÓØ Ñ Ü Û ÓØ Ñ ÔÒ Õ n-gram Ó Ô Ü Û Ð ØÝ Ü Û ØÝ Ð ÐÝ Ñ ÜÛ ÝØ Û ÜÒ ÐÛÝÒ ÑÖ Þ Þ Ýµ ÑÜ Ô ÐÛ Û ÜÒ ÐÒ ÕÛÒ ÜÖ ÞÜ ÐÐ Ý Ü Þ Þ Ý Ð Ò Þ Õ Ô Õ Û Ø Ö Ó Ò Õ Þ Þ Ý Ð Ò Ü Ò Õ¹ Ð Kullback-Leibler Û ÜÒ Ü Ò Õ Kullback-Leibler Û ÜÒ Ñ Û Ò Ñ ÝÜØ Ñ Õ ÕÔ ÞÒÜ Ô Þ Þ ÒÚµ ÑÜ Þ Õ Õ Ý Ñ Þ ½ Ð n-grams Ø Ö º½ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð Ð ØÐ Ô ÐÖ Ñ ÔÖÝÔ ÔÝÒÞÝ Ñ Ñ Ô Ý Ñ Ò ØÝ Þ Ô Ý Ñ Ð Ò Þ Þ ÑÜ Ô º½º½ ØÝ Þ Þ Ð ÐÝ Þ Õ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ð Ò Ý Ü Þ Þ Ý º½º¾ Ô Ý Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ñ Ð Ò
Ð Ò Õ Þ Þ Ý º½º Ñ Ð Ò Ô Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Þ Þ ÒÚµ ÑÜ º½º ÜÒ Ò Ñ Ð Ò Þ Þ ÐÝ Þ ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ØÝ Ð ÐÝ Ñ Ü Û ÓØ º¾ Ð ÛÞ Ý Ñ Ü Û ÐÐ Þ ÐÐÛÝÐ Ô ÐÖ Þ Û Ô Þ ØÝ Ò Ü Ö Õ Ø Ü Û Ý Ð Ð ÔÝ Þ Ñ Ü Û Ð Ò Ñ Ô Ø Ò Ð Þ ÐÐ Ý Ü Û Ð ØÝ Þ Ñ Ô Ý Ó Ò ÜÒ Ü Ö Ñ Ü ÞÝ Þ Þ ÝÖÐ ÔÜ Ó Ð Þ Ú Þ ÐÖ Ö ØÝ Ð ÝÖ Ð Ð ÐÛÝ ÓØ º ØÝ ÐÛÝÒ º¾º½ Õ ÐÛÝÒ Ñ Ü Û x ÞÒ ÕÒ ØÝ Ü Ö Ñ Ñ Ü Û Ò Ð ÓÞ ÔÝ Õ ÐÛÝÒ Ü º 1 x Ñ Ò ÐÝ v 2 = (0.5,0,0.3,0.2)¹ v 1 = (0.3,0.2,0.1,0.4) Ñ Ü Û Þ Ñ Ð ÛÒ Ô ÞÒ ÕÒ ØÝ Ü Ö Ñ Ò Ð ºv = (0.4,0.1,0.2,0.3) ÐÐÛ ÝÒ Ü Û i Þ ÐÝ Þ Õ Þ Ý Þ Þ Ú Òi¹ Ô Ü Û ÜÝ µ ÐÒ ÕÛÒ ÜÖ ÞÜ º¾º¾ ºÞ Ý Þ ÔÐÒÜÔ Ó Ò Ü Ð Ñ Ü Û Ð ÐÝ Þ ÐÒ ÕÛÒ Þ Ý Þ Ó Ø Ò Ð Ü Ö ÔÜ Ü v 2 = (0.5,0,0.3,0.2)¹ v 1 = (0.3,0.2,0.1,0.4) Ñ Ü Û Þ Ñ Ð ÛÒ Ô ÞÒ ÕÒ ØÝ Ü Ö Ñ Ò Ð v = Ð ÒÜÔ ÔØÐ ÐÐÛ ÝÒ Ü Û i Þ ÐÝ Þ Õ Þ Ý Þ Þ Ú Ò i¹ Ô Ü Û ÜÝ µ ºv = 1 1.4 (0.5,0.2,0.3,0.4)= ( 5 14, 2 14, 3 14, ) 4 14 Ó Ò Ü Ð (0.5,0.2,0.3,0.4) Ó Ô Ü Û Ð ØÝ Ü Û Ó Û ÜÒ Þ Ò ÓØ º ºÓ Ò ÜÒ Þ Ú ÒÝ Ü Û Ñ Ò Þ ØÝ Ò Þ ÐØÞ Þ Ú ÒÝ Õ Ø Ü Û Ô Ý ÞÖ Ò Ý Ü Û Þ ÚÒÔÝ Þ ØÝ Ò ÐÝ Ú Ò Ü Û Ð Ó Ò Ü Û Ó Ý ÞÐ ÖØ ÖÚ Ð ÔÔ ÚÜ Ü Û Þ ÚÒ ºÜ Û Þ Ö Þ Ú ÒÝ ØÝ Ó Ò ÜÒ ÐÝ ØÝ Ý Ô Ó Ò ÜÒ Ð ÜÞ Ó Ò Ü Û Ó Ð Ô Û ÜÒ Ü Ö Ü Û Þ ÚÒ Ö ÞÝÖÔ Ó Ò Ü Û Ð ÜÞ Ò ØÝ ÞÜ ºÑ Ü Û ÔÝ Ó Û ÜÒ Þ ÜÖ Ð Ð Ô Ú Þ Þ Þ Ò Ð Ý ºÑ Ü Û ÐÐ Ó Ò ÐÒ Ô Ò ÝÒÞÝ µ Þ ÝÒ ÜÞ ÔÝÒÞÝ Ó Ð Þ Ø Õ Þ Ú Þ ÐÖ Ò Ö ØÝ Ð Ð Ý Ü º Þ Ü ÛÒ Ö ÔÒÐÝ ØÝ Ü Û Þ P = (P 1,...,P n ) Ü Þ Ó Ò Ü Û Þ ÓÒÕÔ Ñ Ñ Ø ÖÕ Ð Þ Ô ÑÝÐ Þ Ñ Ú Ò Ñ Ý Þ ÜÒе Ô Ý Ñ Ü Û Ñ Ü ÜØÕÒÝ Ó Þ Ý Ð Ñ ÝÔ ºQ = (Q 1,...,Q m ) Ü Þ P ¹Ð ÔØÕ Ý Û ÑÖ ÒÞ Ð º Ó Ò ÜÒ Ó Ò ÜÒ Ñ ÐÞ Ñ Ü Û Ó Ý ¹ ØÝ Þ Ó Ý ÔÐ Û º¼ ÐÛÝÒ Ñ Ð ÔÞÔ ÔÝ Ü Û Ñ Ö Ø Ò Ó Ð Ñ Ñ Ö Ø Ò ÐÝ Ñ Ü Þ Q¹Ð ºx max(m,n) ÜÝ x Ð Ñ Ü Û Ñ Q Ó P ÝØ Û ÜÒ º º½ ÔÝ Ó Û ÜÒ Ý ÚÜÔ Ü Ò º x i=1 P i Q i Õ Ô Ö Ó ÞÔ Q¹ P Ñ Ü Û Ó Û ÜÒ Ý Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÝØ Ð Ó Û Ñ Ü Û
ºÑ Ò Ô ÒÐ ÔÝ Ó Û ÜÒ Ý ÚÜÔ Ü Ò º x i=1 (P i Q i ) 2 Õ Ô Ö Ó ÞÔ Q¹ P Ñ Ü Û Ó Û ÜÒ Ý Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÝØ Ð Ó Û Ñ Ü Û ÐÛ Û ÜÒ º º¾ ºÑ Ò Ô ÒÐ Ñ Ü Û Ó Þ Õ Ô Õ Û Ø Ö Ó Ò º º Ñ ÔÝ Ó Þ Õ Ô Õ Û Ø Ö Ñ Ô Ó Ò Þ ÒÐ ÓÞ Ô Ü Ý Ò Ñ Ò Ò¹ Ñ Ü Û ÓÞÔ cos(α β) = cos(α) cos(β)+sin(α) sin(β) = = P 1 P 2 1 +P2 2 P Q P Q Q 1 P 2 + Q 2 1 +Q 2 2 P 2 1 +P2 2 Q 2 Q 2 1 +Q 2 2 x i=1pi Qi x i=1 P2 x i i=1 Q2 i Ò Ò¹x Ü Û Ð Þ ÐÐ Õ Ô ÜÒ Ð Þ Ñ Ü Û ÔÝ Ó Þ Ý Ð Ó Ýµ ÜÝØ Ð Ô Û Þ Ñ Ü Û ÔÝ Ó Þ Ý ÚÜÔ Ü Ò Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÞ Ð Ñ Ô Ð ÜÞ Ð ºÑ Ò Ô ÒÐ Ð Ô Þ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ µ Kullback-Leibler Û ÜÒ º º ( ) Pi Q Õ Ô Õ Ö Ñ Ü Û ÔÝ Ó Ð Þ Ú Ò Ò i ºD KL (P,Q) = x i=1 P i log D KL (P,Q) Ñ ÛÞÒµ Ü Ò Õ Ð ÐÝ ÝØ ÕÜ Ü Ò Õ ÐÛ Ò Ð Ò Ð Þ Õ ÐÛ ÞÕÜ KL Û ÜÒ Ý ÔÛØÞÕ Ð ÜÝØ Ý Û ÑÖ ÒÞ Ð º D KL (Q,P) Ñ Ü Û ÔÝÐ Ý Õ ÓÞ ÔÝ Ü Ò Õ KL Ò Ñ ÔÝÒÞÝ D Symmetric KL = 1 2 (D KL(P,Q)+D KL (Q,P)) Þ ØÝ Ó Ð ÜÝØ Ð Ó Û Ñ Ü Û ÔÝ Ó Û ÜÒ Ý ÚÜÔ Þ Ý ÞÝÒ ºÑ Ò Ô ÒÐ Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Ranksµ Ñ Û Ò Ñ ÝÜØ Ñ Õ º º Ó Ø Ò Ð Ð ÔÛÔÖ Ü Þ Ý ÜÕ Ü Û Ð Ñ Ô Ø Ò Þ ÔÜ Õ ÔÐÝ Þ Ø ÜØ ݵ Ý Ó Ú ÝÜØ ÐÝ Ð Ò ÜÖ Þ ÔÒ Õ Ó Ò Ü Ð ºÞ Ý Ü Õ Ò Û ÒÐ Ñ Þ x¹ð ½ Ó ÑÐÝ Ó Ú º x i=1 (Rank(P i) Rank(Q i )) ÜÒ Ð ºÞ Þ Ò ÐÝ ºÜÞ Ò ØÝ Û Ô Ü Û ÞÒ ÖÐ ÜÞ ÒÔ Ñ ÝÜØ Ñ Õ Ð ÛÞÒ Ü ÖÝ ØÝ
Fitness Functions Þ Ò ÝÜ ÜØÕÒ Ñ ÔÒ Õ Ñ ÜÛ n-gram Gini Gain ¼¼ ÑÖ Þ Þ Ýµ ÑÜ Ô Entropy ½¼¼¼ ÐÐ Ð Ò Ý Ü Þ Þ Ý Information Gain ½ ¼¼ Ð Ò Õ Þ Þ Ý Information Gain Ratio ¾¼¼¼ Þ Þ ÒÚµ ÑÜ Train Error Ð ÚÖ Ñ Þ ¾ Ð ÕÔ ÞÒÜ Ô º º ºbigrams Ü Ö ÛÜ ÐÖØ Ý Þ Ü ÛÒ ÖÐ Ò ÜÞ Ð Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Ü Ý ÐÝ Ñ Ò ÕÛÒ Þ Ð ÞÜ Ò ÕÔ ÞÒÜ Ô ÓØ Ý ÐÝ Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Þ Ñ Ý Ò Ñ ÒÜ ÞÒ ÝÜ Þ Ô Ý Ü Þ Þ Ò Ü Ö º½ ºÞ Þ Ñ Ð ÞÒÝ Ñ ÒÜ Þ Þ Ñ Ð ÞÒÝ Ñ ÒÜ ÐÝ Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Ü Ö Ô Ý Ü Þ Þ Ñ Ü º¾ ØÝ Ü Û Ð Û Ô Ü Û Ó ÜÞ Ð ÝÜØ Þ Ñ ÔÒ A = max 1 i x j=1 x P ij Q ij º ÐÒ Ô Ò Ñ Û ÐÝ Ô ÚÒÝ ÜÖ Ü Ö ØÝ Þ Ñ Ü Ò º Ð ÚÖ ¹ÒÜØ Ø Ö Ð ÚÖ ÞÜ Ú Ó Ò ÜÒ Þ Ô Þ Þ Ô Ý Þ ØÝ Ñ Ü Ñ Õ Ø ÔÒÐ Ý ÞÜ ÕÒ ºÞ Ô Ý Þ Ò ÐÖ ÒÞÕ Ñ Ô Ý Ñ Ü ¹ ÜÒ Ò ÔÐÝ n-grams¹ Ò ÐÝ Þ Ý Þ ÔÒ Ó Ò ÐÝ Þ Õ Õ ÝÐ Ò Ý Ò Ô Ý ºÓ Ò ÜÒ Þ n-gram Ð ÐÝ Þ Õ Þ Ý Þ ÒÒÝ Õ Ø Ü Û Ó ØÐ ÔÜÚ Ó Ò ¹ Ð Ð ¹ Ñ Ý Ò Ñ Ü Û Þ ÔÜ Ý Ð Þ ØÝ Ò Ð Ü Û ÔÜÚ Ð Ó Þ Õ Õ Ð ÔÐÝ Þ Ò ÝÜ Þ Ð Ø Ñ Ó Ò Ü Û ÐÐ Ó Ò Ñ Ü Û ÜØÕÒ ÐÒ ÔÜ ÓØ ÔÜ º Ò ÐÝ º Þ Þ ÐÝ Ñ Ô Ý Þ Ò Ðµ Ô ÚÒÝ n-gram¹ Ð Ñ Ü ÜÒ Ð µ ÐÝ Þ ÒÖ Ý ÙÖ ÞÒ Ú Ü Ð Ý ÝÒ Ü ÞÒÝ ID3 ÑÞ Ü Ð ÞÜ Ö µ ÒÚÖ Ð ÙÖ Þ Ô Ô ÐÖ Ð Ð ØÐ Ú ÜÛÕ Ü Ö Ñ ÜÖ ÜÝ µ Ü Þ ÐÝ ÜÝØ ÜÖ Þ Ú Ò ÖÐÚ Ð Ñ Þ Ó Ò ÜÒ ÐÝ classification ÔÖÚ Ó Ò Ü Ð º Þ ØÝ ½ Ó Ò ÝÐ ØÝ ÜÒ Ð µ Ø Õ Þ º Ô Ô Ý Ð ÙÖ ÐÖ ÒÞÕ ÝÒ Ü ÞÒÝ ÑÞ Ü Ð Ð Þ Ü Þ Ý Û Ð Þ Ü Ò Ý Þ Ô Ý Ñ Ü ÜØÕÒ ÖÚ Þ Ð ÖÐ Ü ÞÝ Ð Þ ÐÝ Ð ÜÞ Ô
n-grams Ø Ö º½ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð Ð ØÐ Ô ÐÖ Ñ ÔÖÝÔ ÔÝÒÞÝ Ñ Ñ Ô Ý Ñ Ò ØÝ Þ Ô Ý Ñ Ð Ò Þ Þ ÑÜ Ô º½º½ ØÝ Þ Þ Ð ÐÝ Þ Õ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ð Ò Ý Ü Þ Þ Ý º½º¾ Ô Ý Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ñ Ð Ò Ð Ò Õ Þ Þ Ý º½º Ñ Ð Ò Ô Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Þ Þ ÒÚµ ÑÜ º½º ÜÒ Ò Ñ Ð Ò Þ Þ ÐÝ Þ ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò Ó Ýµ Ò Ð Ñ Ü Þ Ò Ñ ÒÜ ÑÖ Ö Þ Þ Þ Ñ ÒÜ Ô ÑÖ Ö Ò Ô Ý ÔÜ Ý Û ÑÖ ÒÞ Ð º Ò Ð ÕÜ ÛÜ ÛÒ ÖÐ ÔÖ Ó Ð Þ Þ ÞÝ ÐÝ Þ Ú ÒÜØ Ü Ò ºÙÖ Þ Ñ ØÐ Ô Ô ÜÞ Ñ Ú ØÔ Ñ Ü ¼¼¹ ¼¼ Þ ÛÜ Ñ Ü Ñ ÜÛÒ Þ Ú ÛÐ ÔÛÐ ÓØ º¾ Ð Ò ØÝÒ Ð º¼¹½ Ó Ý Ñ ÜØÕÒ ÜÒ Ð Ñ ÒÜ Ñ ÒÜ Ô ÐÝ Þ Ý Ñ Ñ Ü ÜÖ Ô Þ Þ Ý Ý ØÚÔ ØÐ ºÞ Þ ÐÝ Ô Ý ÜØÕÒÒ Þ Ü Ò Ñ Ô Ý Ñ Ü Ñ Ð Ò ÐÝ Ô Ý ÜØÕÒ ºÞ Ý ÐÝ Ú ÜÛÕ ÖÚ Ð ÙÐ Ô Ñ Ô Ý Ñ Ü Ó Þ Ý Ð Ð ÔÝ Ò Ò Þ Ô Ý Ü µ Ò Þ Þ ÚÛÔ Ø º ³ Ñ ÒÜ Þ Ô Ý Þ Þ Þ µ ÙÖ Þ Ñ Ô Ô Ô Ñ ØÐ Ñ Ô Ý Ñ Ô Ø Ò Ñ Ñ Ü º ØÝ Ñ ÐÝ Þ Ý Ñ Ý Ñ ÐÝ Ñ ÜÖÐ Þ Õ Þ Þ # Example a b ººº Language ½ 0.081 0.014 ººº English ¾ 0.12 0.022 ººº Spanish 0.068 0.017 ººº English ººº ººº ººº ººº ººº Entropy ØÐ º º½ Ñ ÕÒ Ü ÐÝ Þ ÐØÞ Ð Þ ¹ Þ Ò Þ Ú Ò ÚÒÜ ØÔ ÞÜ Þ Ò Ø Ü Ô ºÑ ÝÐ Ñ Ô ÞÔ ÓÞÔ
Ñ ÒÜ ÔÐÝ Ö Ñ ÒÜ Ô Ô Ý Ü Þ Ô Ü Þ Þ Ü ÛÒ Ö Ñ ÒÜ Ñ ÒÜ Ô Ö ÛÒ 0-0.00015 0-0.0015 0-0.00001 0-0.001 0 0.00015-0.0003 0.0015-0.003 0.00001-0.0003 0.001-0.03 ½ 0.0003-0.0005 0.003-0.005 0.0003-0.0006 0.03-0.06 ¾ 0.0005-0.001 0.005-0.01 0.0006-0.0009 0.06-0.09 0.001-0.0015 0.01-0.015 0.0009-0.012 0.09-0.12 0.0015-0.002 0.015-0.02 0.012-0.015 0.12-0.15 5 0.002-0.0025 0.02-0.025 0.015-0.018 0.15-0.18 0.0025-0.0035 0.025-0.035 0.018-1 0.18-1 0.0035-0.005 0.035-0.05 0.005-0.007 0.05-0.07 0.007-0.01 0.07-0.1 ½¼ 0.01-0.013 0.1-1 ½½ 0.013-1 ½¾ Þ Ú ÛÐ Û Ð Ð Þ Ð Ø Ü Ô Þ Ü Ô Language attribute¹ Ü Ö Ø Ü Ô Ñ ÖÚ Ò Ô ÜÝ µ A Ô ÞÔ Ð Ð ¹ ÞÕ p v = Av A ¹ Þ ØÝ ÞÒ ÝÜÒ ØÝ Þ Ú Ò v ÜÝ H(A) = v LanguageList p vlog(p v ) ÜÖ Þ ÐÖ Þ Ò ÝÜÐ ÛÜ Ð Ñ ÚÒÚ A v Þ Ü ÞÕ Ñ ÝÒÞÝÒ Ô Ô µ Ñ ÞÒ Þ ÐÝ Þ Ü º Ð Þ Ò ÝÜ ÜØÕÒ A ¹ a Ü v H (A,a) = Þ Ð ÐÝ Ø Ü Ô Þ Ü Ô Ñ ÕÒ a Ü Ü Ö Þ ¹ Þ Ò Þ Ö ÛÐ º v V alues(a) H (A v) ÚÜÔ Ó ÜÖ ÑÖ Ü Þ Þ ÛÐ ÚÜÔ Ó Ý ÚÔÝ Þ Þ ÚÛÔ ØÐ Ô Ý Ð Ñ ÝÔ ºÜÞ ÒÔ Ø Ü Ô ÜÖ ÐÖ Ü Þ ÚÒÐ Information Gain ØÐ º º¾ A Ð a Ü Ð Ð ºÙÖ Û Û Ñ ÕÒ Ü ÓÞÔ Ø Ü Ô Þ Ø ÞÐ Þ Þ Ò IG IG(A,a) = H(A) v value(a) Av H(A v) A Ü Ô Information Gain Ratio ØÐ º º Þ Ð Information Gain Ratio¹ Þ Ü Ô a Ü Ð Ð IGR(A,a) = IG(A,a) H(A, a) Gini Gain ØÐ º º Ò Gini index ÔÒÐ Ô ÜÖÝ Ñ Ý Ø Ò Ð Ò Þ ÕÜ Û ÞÜ ÕÒ ÔÝ ÔÒÐ Ð ÑÔÒ º Language ÔÐÝ ÜÛÒ Ýµ Ü Ò Ü ÐÝ Ñ Ô Ý Ñ ÜÖ ÐÝ Þ Ü ÞÕ Ó ÕÐ
Language ÐÝ Ñ ÜÖ Ü ÖA Ô ÞÔ Ð ÐÝ Gini Index Õ Ò Þ Ð Þ Ü Ô Ø Ü Ô Ð Ò GI(A) = 1 v LanguageList ( ) 2 Av A Þ Ð Ü Ð Ð Ü Þ ÚÛÔ Ø Þ Ü Ô ÞÖ GG(A,a) = GI(A) v value(a) A v GI (Av) A Ð Ø Ð ¹ÞÞ Ð Ð Õ Ó Ð Þ ÐÐ Õ Ó ÐÒ Ô Ò ÝÜØ ÐÝ Ñ Ò ÕÛÒ Þ ÚÒÐ ÚÜÔ º Þ ÜÚ Ò ÜÖ ÐÝ Þ Ü ÞÕ Train Error ØÐ º º ¹Ü Þ Ü Ð ÚÜÔ ÜÝ Ñ ÕÒ Ü Ü Ö Ó Ò Þ Ý ÞÐ Þ Ü Þ Þ Ò Þ ÚÛÔ Ø Ü ÞÐ Þ Þ ÑÕÛÒÒÝ a TE(A,a) = min ( ) Av v LanguageList(p A) min Language LanguageList(p Av ) A v value(a) ºA Ð Ð Õ Ü Ò p A ÜÝ ÙÖ Þ Ô Ð ÑÞ Ü Ð º Ý Ò Ý Þ ID3 ¾ÕÜ Û Ô ÜÝ ÕÜ ÛÜ ÑÞ Ü Ð Ð ÚÖ Þ Ô Ð ÔÞ ÝÒ ÝÝ ÑÞ Ü Ð ºÐ ÖÐ Ü ÞÝ Ü µ Ò Þ Þ ÚÛÔ Ø classificationµ ØÝ ÕÐ ÑÞ Ü Ð º ÚÜ Ð Ý Ð ÙÖ Ü Ò Ð Ò Ý ÝØ ÕÜ ÛÜ ÑÞ Ü Ð Ô Ý Ü Õ ÑÞ Ü Ð ÜÛ Ü Û Ô ÞÒ Ú ÐÝ Ü Ü Ö Ó Ò Ü Û Ý Ý ÜÖÐ Ñ ÞÒÝ ÙÖ ¹ÞÞ Þ Ü Þ ÐÝ ØÝ Þ ÜÒ Ð µ Þ Þ Ü Ò ÐÖÐ Ö Ò ÜÝ ÜÚ Ö ÑÞ Ü Ð ºÙÖ ¹ÞÞ ÐÖ Þ ÕÜ ÛÜ Ñ ÚÖ Ñ Ü Ñ ÜÛÒ Ü Ò Þ Ò ÝÜ ÐÐ Ò ÐÒ ÔÜ ÓØ Ó Ò ÜÒ Þ Ñ Ü Ô Ô Ü Ò ÑÐ º ÐÖ Ü Þ Ð Ñ ÜÝØ Ñ ÜÖ Ð Ð Ñ Ð Ò Ñ Ü ¼¼¹ ¼¼¹ Ü Ð ÔÝÜÔ Ò Ñ Ð Õ Ð Þ ÖÛÞ Ô ÜÒ Ð ÔÒÐÝ ÙÖ Ñ Û ÐÝ ÙÖ¹ÞÞ ÝØ Ð Þ ÕÔÐ Ñ Ð ÐÖ Ô Ô Ó Ð ºÑ Ú Ò ÒÞ ºÑ ÞÒÝ ÙÖ¹ÞÞ Ð Ü Ò Ü Û Ü ÐÝ ÜÖÐ Ñ ÞÒÝ ÙÖ¹ÞÞ Ð Ó Ý ÙÖ ÞÒ ÚÐ ÔÖ Ý Ö Ü Ý Ô Ð Ö Ü ÞØÐ Ü Ò Ð Ð ÝÒÔ Ý Ô Ý Ý Ð Ð Ü Ô º Ü Þ ÐÝ Ñ ÚÖ ¹ ÞÞ Ð ÐÖ Ü ÖÔ Õ Ü ÖÔ Ý Ô Ö Þ Ü ØÕÔ ÙÖ¹ÞÞ Ü Ò Ð Þ Ö ÚÒÐ Ö ÔÝ ÑÖØ Ð º ÐÖÐ Ö Ô ÜÝ Ö ÙÖ ÜØÕÒ Þ ÙÖ¹ÞÞ Þ Ò Þ Þ Ð ÛÔ Ð Þ ÐÝ Ø Õ ºÞÒ Ú ÐÝ Ü ÐÝ Ñ ÚÖ¹ ÞÞ Ð ÐÖ Ð Ó Ýµ ÜÞ Ó Û Ñ Ý Ô ÜØÕÒ Ý Ò Ý Þ ÔÖ Ð Þ Þ Ü Ô Ü Ô ÝÖÝ Ñ Ý Ô º ÓÞ Ô Ð ÜÖØ Þ Ó Û Ð ÚÜÔ Ñ ÜÛÞÒ Ô Ô Ð ØÝ Ó Ð Ó Ò ÜÒ Ó ÜÖØ ÐÖ ÖÒ Ý Ô Ô Ð overfitting¹ò ÖÔÒ Ð Ð Ý Ñ Ü Ñ ÞÒÚ Ð Ð Ð Ñ Ð Þ Ð Ñ Ð Ñ ÚÖ Ü Ò Ó Ò ÜØÕÒ Þ Ñ ÔÜ Ö Þ ÕÜ ÛÜ ÜÛ Ð ¹ ÙÖ Ü Ò Ð Ð Ò pruning ÖÚ Ð Ð Þ Þ ÐÖ Ð Ñ Ý Ô ÜØÕÒ Þ ÔÜ Ö ÙÖ Ü Ò Ð Ð Ò Ñ Ö Þ ÔÐ Ý Ý ÒÔ Ñ Ý Ô ºÞ ÐÒ Ø Ú Þ Þ Ô Ð Ó Ý Ð ÐÕÒ Þ ÐÖ ÔÜÞ ÙÖ Þ ÐÚØÞ ÝÒ Þ ÔÛÕØ ¾ Þ Ø ÛÝ ½¼ Ð ÜÞ ¾
V ÛÐ Þ Ú Þ ÛÜØ Ò Þ Ø ÚØÕ Þ Ú Þ Þ Ô º Ô ÛÔ Ó Þ Ý Ò ÔÐ ÛÝ Þ Ú Þ Þ ÚÔ ÛÐ Ð ÚÖ ÐÝ Ó Þ Õ Õ Ý Ó Þ ÐÒ Þ Ú Þ º ÛÜØ Ö Ø Ò ÜÞ Ü Þ Õ Þ Ö º³ ¹ ³ Ñ ØÕÔ Þ Ò Ø Û µ Þ Ô Ý Ü Þ ÜÐ ÓÞ ÔÝ Ø Þ Ð ÖÒ Ý Þ Ô Ý Ý Þ Ú Þ Ø ÚÒ ÞÒ Û ÜÒ Ð Ó Ð Ð Ñ Ð Ò ½¼¼¼¹ ¼¼ Ü Ö Borda Count Þ Ý Ó ÚÐ Ó ÔÖÒ ºÞ Ú ØÔ Ñ Ð Ò ÐÖ ÞÕÕ ÞÒ Ô ÞÐ Þ ÞÜÛÞ Ó ÖÒ Ü Ðµ Þ Ô Ý Ð Ó Ð Û ÜØ ÔÛÒÞ Ó ÒÐ Þ ÝÒ Ò Ô Ý Ý Ý Ý Ý Ð Ý ºÐ Ô Þ Ú ÞÐ Ô Ý Ý Þ Ú Þ Þ Õ Õ Ý Ð Ü ØÝ Ñ Ü Ñ Þ ØÐ Þ ÚÜ ÐÝ Ò Ü ÜØÕÒ ÐÐ ÒÐ Ð Þ Ý Ð ÖÐ Ü Õ Ý Ø Ô Ð Ý Þ ØÝ ½ ÐÐ Ü Ö Þ ÜØÔ Þ ÚÜ Þ Ü ÛÒ Ö Ö Ø Ý Þ ØÝ Ü Ö Þ ÚÜ ÔÖÚ Õ Ô º½ ºÛ Ð ÜÒ Ð µ Ñ ÞÒ Ñ Ú Û ÑÖ Ô Ö Ó Ý ÒÐ ÝØ Þ Þ Þ Ò Ú ÞÐ ÔÐ ÛÝ Þ Ú Þ Þ Ý º Ð ÛÐ Ñ Ü Ò Ô Ô Þ ØÝ Ò ÔÖ Ñ Ü Û Ó Û ÜÒ Þ Ò ÓØ Ø Ö º½ ¹ ÜÒ Þ ÜÖ Ð ÕÔ ÞÒÜ Ô Ý Ò Ý ÝÖÔ Þ Ü ÛÒ Ö Þ Õ Õ Ý ÛÕÖÝ ÛÐ Ü Ò Ñ Ð ÔÐÖØ Û ÜØ Ö Û Ô ØÝÒ Þ Ú ÒÝ Ü Û Ó Ð Þ ØÝ Ò ÐÝ Ü Û Ó Ñ Û ºÑ ØÕ Ô Ü Ü Ü Ú ¹ Ð Þ ÜÛ Þ Ú Þ ÔÞÔÝ ¹ Ð ÛÞ Ý Þ ÚÛÔ Ø Þ Ú Ð Ó ÚÜ ÐÝ Ñ ÛÒ Ú Ð Ò Ñ ØÜ Ð Þ ÐÐ ÜÖ º Ñ ÜÛ Þ Ø Þ Ð Ñ Ð ÐÖ Ñ ØÜ Ý Ð ÛÕ Ó Ýµ ½¼¼¹ Ñ ÞÕÒ ¼¹Ò Ð ÞÒ ÒÞ Ð y Ü Ú ÜÞ
Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ Ü ÜÞ Þ Ö Ü Þ Ú Þ Þ Ô ÕÔ ÞÒÜ Ô Ñ Þ Þ ÚÜ Ð ÖÒ Þ ÜÐ ÓÞ ÔÝ Ø ¼¼ ÐÐ Ó Ò ÜÒ ÜÝ Û Ô Ñ Ô ÞÔ Þ Ü ÛÒ Ö ºÑ ÔØ ÜÞ Ò Þ ÖÒÝÒ ÝÜØ ¹ Ñ ÜÛÒ Þ Ü ÛÒ Ö Ý Ý Ð Ð Þ Ò Þ Ú ÞÐ ÔÖ Ý Þ ÜÐ ÓÞ Ô º46%¹ ÐÖ ÒÖ ÐÚ Þ Ò ÝÜ Õ ºÑ Ô Ý Þ ÜÝ ÜÞ Þ ÖÒ Ñ ÜÛ Ñ ÔÒ Õ Ò ÔÒÐÖÞ ÜÝ Þ Þ Ø ÖÒ ¹ º ÖÒ Ð Ö Ñ ÜÛ Ñ ÔÒ Õ ÜÝ Ý ÐÚ 50%¹Ð 40% Ó Ð ÔÖ 70% Ö ¹ Ò Ñ Ñ Ö Ú Ð Ö ÔÝÒÞÝ Ó Þ ØÕ Ô Þ ÒÞÒ Þ Ý ÕÔ ÞÒÜ ÔÒ Ô Ý Ñ ÜÛ Ñ ÔÒ Õ ÑÖ Ó ¹ Ð Ò Ý ºÑ Þ Ý Þ Þ 80% Ö Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Þ ÜÒ ºÞ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ Þ Ò Þ Ú Þ Ô Ý KL Þ Ý Þ ¹ Ñ ÖÐ Ó ÜÝ Ñ Ô Ý Þ ÜÝ Ü Ø ÝÐ Ô ÑÖµ Ñ ÜÛ Ñ ÔÒ ÕÐ ÜÝÛ Ð Þ Ò Þ Ú Þ Ô Þ Ý Ü Ðݵ Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ Û Ý Ó ÚÐ Ó ÔÖÒ ºRanks¹ KL Þ Ý Ñ ÓØ Ú ¹ ÜÛ Ñ ÔÒ Õ Þ Ø Ý Ð Õ ÜÔ Ð º Þ Ø Ö Ranks Þ Ý Ö Ò ÜÞ Ñ ÛØÕÒ ÜÝ Ò Ô Ý ÓØ Ó Ò ÜÒ Þ Ú ØÔ Þ Þ Ü Õ Ñ Ô ÝÐ ÒÜ a¹ð ǎ ÐÝÒе Þ Ð Ü Þ Þ Ð Ñ ºÑ Ô ÝÐ ÜÞ Ý Ü Ó Ð ÜÞ ÑÚÒ ÚÒ Ý Ó Ò ÜÒ Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ
Þ ÝÖÐ ÐÚ Ð Þ Ü ÛÒ Þ ØÝ Ó Ò ØÝ Þ Ð ÝÜÔ ÕÒ Ý Ó Ü Þ Ú Þ Þ ¹Ü ÛÒ Þ ØÝ ÑÖ 80% ÞÒ ÖÐ 70%µ Þ ØÝ ½ Ó Ò ØÝ Þ Ð ÝÜÔ Ý ÜÝ Ò ÜÞ Ü Ú Þ ÜÐ Ó ÔÖÒ º ÜØ Ð ÝÜÔ ÕÒ Ó Ô Þ ØÝ Þ Ò Ý Þ Ò Ó ÚÒ Ü Ò Ó Ö ÑÐ Þ Þ Þ Ú Þ Ñ ÜÛÒ Þ ÜÒ ÔÐ Û ÞÒ ÛÜ Ð µ Þ ØÝ ½ Ó Ò ØÝ ÐÝ Õ Ü Ò ÜÝ Ñ Ý Þ ÚÛÔ Ø Ó Õ ÜÒÝÔ Ó Ñ ºÞ Ü ÛÒ Ö Ý Ò Ý ÝÖÔ ÕÔ ÞÒÜ Ô Þ Ý Ô Ý Ð Ò ÜÞ Þ Ò Þ Ú Þ Ô Þ ÚÛÔ Ø ÐÐ Ranks¹ Angle ÖÒÐ ºÐ Ð ÝÒÒ KL¹Ý Þ Ô Ý Ò Ð Ð Ô Ö Ò Þ Ñ ÛØÕÒ ÜÔ Ð Ý Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ ÜÞ Þ º Ö ÞÐ Þ Ü ØÝ Ø Þ ØÝ Ó ÜÞ Ü Ú n-gram Ø Ö º¾ Ñ Ò Û ÜØ Õ Ð Ô Ð Ô Ô Ü Ò ºÑ ÒÜ Ô Ñ ÒÜ ØÐ ÒÐ ÖÚ Þ Þ Ü ÛÒ Ö º Ð Ò Õ Ð Ò Ý Ü Þ Þ Þ Ý ÐÖ Ñ ÞÒÕÒÝ Ñ ØÕ Ô Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ
Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ º Ò Ð Ñ ÜÝØ Ñ ÒÜ ÜØÕÒ ¹ Ñ ÒÜ Ò Ö ÜÞ Þ ÖÒÝÒ Ö Ò Ô ØÚÝ Ø Ð Þ ÜÞ Ü Ö Ò Þ ÛØ Õ Ð Ò Õ Û Þ Ñ Û ÒÝ Þ Ð Ð ÔÖÞØ Þ Þ Þ Ó Ò ÛØÞ ÞÐÖ Ñ Ü Ñ ÜÛÒ Ô Ü Þ Ý Ö ÑÖ ÔÛ Ð Ö Ð Þ ÑÖ º ÒÐ Ö ÕÞ Ý Ô Ð Ó Ð ³ Ñ Ô Ý Ñ ÔÒ ÐÖ Ø Þ Ô Ñ Ü ÞÜ Ú Ó Ú Ò Ðµ Û Û Ó ÚÐ Ó ÔÖÒ º e i Ö Þ ÛÐ n Ö Þ ÔÒÜ Ö s Þ Ö ÞÔ ÚÒ Þ Ð Ô Ñ Ü ÞÜ Ú ÐÝÒе ØÝ Þ Ú Þ Ô Ñ ÑÐ Õ ÓØ µ Þ Þ Ø Þ Ú Þ Þ Ô Ô Ý Ü Þ ØÐ Û Ý º ÕÔ ÞÒÜ Ô ÐÝ Ð Ò µ 45% ÐÖÒ ¹ Þ ÖÜ Ð Ý ÓÒ µ Ò Ð ÚÛ º ÔÚÜ Ñ Ô ÞÔ Ô Ò ÓÞÔ ºÞ ØÝ Ð Ò Ó Ò ØÝÒ Ð Þ Ð Ý Ñ Ô ÞÔ Ô Ò ÔÜÚ Ó Ý Ü ÐÝ Ð Ò Õ Þ Þ Ð Ò ÞÐ Þ Þ Þ Ñ ÒÜ Ô Ñ ÒÜ Þ Ü Þ Þ ÒÐÝ Ñ ÒÞ Ü Ð
ºÞ ØÝ ½ ¹Ò ºÞ ØÝ Ð Ü Ö ÐÐ Þ Û Õ Õ Ð Þ ÒÐÐ Þ ÔÝ ¾ ¹ ¹ Ò Ü Ò Ò Ð ÚÛ overfitting¹ Þ ÛÖ º Ú Þ Þ ÐÐ ÔÒÒ ÒÐÐ Ñ ÛÒ Ó Ò ÜÒ Þ ÓÔÝÐ Ð ÞÒ ÕÒ ÜÝ Ý ÜÞ Ð Ð ÐÖ overfitting ÜÒ ÐÖ ÜÞ Þ Û Ò Þ Þ Ú Þ Ü ÕÒ Ý ÜÛÒ º ÝÖÜ Ð ÜÞ Ð ÐÛÝÒ ÓÞ Ô Ò Þ Ø ÕÒ ÜÒ Ð µ ÜÞ Þ Ö Ü Ô Þ Ü Ò Ð Ý Ó Ò ÜÒ ÐÖ Þ Ú Þ Ü Ò Ó Ò Ó Ó Ò ÜÒ Ý Þ ÜÐ ÔÝ ÚÒ ÚÒ overfitting ÖÚ Þ ÐÝ Ð º Ý Ö Ò ÑÖ Ð Þ ÜÐ ÓÞ ÔÝ Ø º ÒÐ Ö Ú Ü Ð Ó Ò ÜÒ Ò ÛÐ ÐÖ ÑÞ Ü Ð Þ ÔÚÜ Ð ÕÒ ¹ÒÝÒ Ü Ú Ð Ñ ÜÛÒ Þ ÜÒ ÜÞ Þ Ó Ó Ò ÜÒ ÐÖ ÑÞ Ü Ð ÞÐ ÖØ ÐÝ Þ Ú Þ ÒÐ ÖÒÝ Ò Þ Þ Õ Ó Þ Ú Þ Ó Ò ºoverfitting Ó Ý Û Õ Ð Ð ÔÝ Ó Ò ºÓ Ô Ý ÐÖ ÖÒÝ Þ Þ Ö ºÑ ÜÛÒ Þ ÜÒ ØÝ Þ Ó ÕÒ Ý ÐÖ Þ Ú Þ Þ Ü ÛÒ ÛÐ ÐÖ Þ Ú Þ Kullback Symmetric Kullback Angle Eucleadean Infinity Ranks Simple Difference 69.34 68.87 46.93 59.19 44.94 42.56 53.07 71.41 69.3 50.95 61.12 40.07 51.91 57.14 Ó Ò ÜÒ Ò Ó Û recall, precision, F1 Ò º Ó Ò ÜÒ ØÝ ÐÝ ÔÐ Û Ü ÐÝ Ø Õ Ó Ò ÜÒ ÐÖ ÑÞ Ü Ð ÔÚÜ Û ÜØ ÞÜ ÕÒ Ñ Ñ ÔØ Ñ ÐÖ Ð ÞÕ Ð ÓÞ ÔÝ Ð Ñ ÝÔ º Þ º Ð ÞÝÒ Ó ÝÐ ØÝÐ Ý ØÝÒ Þ Ô True Positive º½ º Ð ÞÝÒ Ð Ð ÝÐ ØÝÐ Ý ØÝÒ Þ Ô False Positive º¾ º Ð ÞÝÒ Ð Ó ÝÐ ØÝÐ Ý Ð ØÝÒ Þ Ô True Negative º º Ð ÞÝÒ Ó Ð ÝÐ ØÝÐ Ý Ð ØÝÒ Þ Ô False Negative º ºprecision¹ recall Ò Ö Þ Ú Þ Þ ÜÖ Ð ÞØÕ Ô Ü Ð ÛÐ Ñ Ü Ò Ô Ý Ñ Ý ÐÐ ÞÒ ØÝÐ Ó Ô Ý Ü Ö Ý Þ Ò ÜÝ Ò recall Ò º Ü Ö Ý Þ Ò Þ Ü Ñ Ð Ò ºÑÐÝ Ò Þ Ð ÐÖ Ø ÔÐ ÛÝ Ñ Ý ÐÐ ÞÒ ØÝÐ Ó Ô Ý Ü Ö Ý Þ Ò ÜÝ Ò precision Ò recall = precision = ºÝÖÜ Ü Ö Ý Þ Ò Þ Ü Ñ Ð Ò º ØÝ True Positive True Positive + False Negative True Positive True Positive + False Positive Ö Ü precision ÑÖ Ö Ð Ð recallµ ÑÒÚÖ ÔØ Ñ Ò Ö Ð Ñ Ð Ñ Ý Ñ ÐÐ Ñ Ò ÔÝ Ñ Ý Ð Ý Ñ Ð ÝÒ Ñ Ò ÐÖ Ñ Ð ÞÕ Ð Ô Ó Ð º Ý Ö ÛÐ Ó Ó Ð Õ Ô ÒÕ ÐÖ Ð ÛÞÒ Ñ ÔÝ ÐÝ Ô ÒÜ ÖÚ ÒÒ Ý F1 Ò F1 = 2 precision recall precision + recall ½¹Ð ÜÞ Ñ ÜÛ Ñ Ý Ð ½¹Ð ¼ Ó Ý Ñ ÖÔ ÐÐ Ñ Ò ÐÐ ÐÝ Ñ ÜÝØ Ñ ÜÖ
ºÜÞ ÔÐÝ Þ ÚÜ ÐÐ Ñ ÜÖ Þ ÔÒ with diacritics without diacritics 500 1000 1500 2000 500 1000 1500 2000 original 0.648 0.651 0.654 0.653 0.65 0.646 0.642 0.637 all languages 0.618 0.606 0.599 0.593 0.59 0.586 0.583 0.581 Ð ÚÖ º¾ Ð Ü Ý Ñ Ü Ñ Þ ØÐ Þ ÚÜ ÐÝ Ò Ü ÜØÕÒ ÔÖÚ Ý Ð ÖÐ Ü Õ Ý Ø Ô Ð Ý Þ ØÝ ½ ÐÐ Ü Ö Þ ÜØÔ Þ ÚÜ Þ Ü ÛÒ Ö Ö Ø Ý Þ ØÝ Ü Ö Þ ÚÜ ÔÖÚ Õ Ô ºÛ Ð Ñ ÞÒ Ñ Ú Û ÑÖ Ô Ö Ó Ý ÒÐ ÝØ Þ Þ Þ Ò Ú ÞÐ ÔÐ ÛÝ Þ Ú Þ Þ Ý Ó Ñ º Ð ÛÐ Ñ Ü Ò Ô Ô Þ ØÝ Ò ÔÖ ÜÒ Ð µ Ü µ Ò Þ Þ ÚÛÔ ØÐ Õ n-gram Ø Ö º½ Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ
Ñ Ð Ò Ñ Ò ØÐ ÔÔ ÕÝ Ñ ÚÖ ÐÐ Ü Ö Ð ÛÞ Ý Ñ Õ Ø Þ Þ ÜÐ ÓÞ Ô Ü
Ñ ÒÔ Ô Ô Ü Þ Ô Ý Ü Þ ÐÖ Ñ ÖÝ Ñ ÒÞ Ü Ð Þ ÚÜ Ð ÔÞÖÞØ Ð Ò Þ Ú ÛÐ Û Ð Þ ÑÜ Ö ÔÝÒÞÝ Ý Ö Ú ÖÔ Ð Õ ÔÞÖÐ º 30%¹Ò Þ Øµ Õ ÓØ º Ô ÚÒÝ Þ ÐØÞ Þ Ò ÞÒÝ Þ Ö Û Ð Ð Ð Ü ØÝ Ø µ ÐÐ ÓØ Ñ ÒÜ Ô Ü Ö ÖÐ ¹ Ñ ÒÜ Ô Ü Ö Ó Ñ ÒÜ Ü Ö Ó ¹ Ò Þ Ò ÔÐÝ Þ Ú Þ Gini Þ ÚÛÔ ØÐ ÜÝÛ Ô ÐÚ ÜÞ Þ Þ Ú Þ Þ Ô ÚÛÔ Ø ÑÝ Þ Ü ÛÒ Ö Ò Ô Ý Þ ÑÖ ºÞ Ü ÛÒ Ú Þ ºÑ ÒÜ Ü Ö Ó Ñ ÒÜ Ô Ü Ö Ó IGR Þ ÚÛÔ Ø Ý Ò Ý Þ ÜÞ Þ Þ Ú ÞÐ Ö Ð Ð ÐÖÝ overfitting¹ Þ ÑÚÒÚÐ Þ Ø IGR ØÐ ÕÜ Û Ð Ò ÔÒÐÝ Ö ÑÖ ÔÛ Ð Ö ÞÝ ÐÝ Ñ Ö Ú 15%¹Ð 5% Ó ÖÔÝ ÜÖØ Ñ Û Ó ºInformation Gain ÚÛÔ Ø Ý Ò Ý ÜÚ Ð ºÑ ÒÜ Ô Ü Ö Ó Ñ ÒÜ Ü Ö Ó ÐÐ Þ ÚÛÔ Ø Þ Þ Ú Þ ÔÞÔ Ñ ÒÜ ÑÖ ÖÝ Þ ÚÛÔ Ø Ñ ÜÛÒ Ü Þ Ü ÛÒ Ö Ò Ô Ý Ô Ø ÚÝ Ø º ÔÝÒÞÝ Ñ Ñ Ü ÜØÕÒ Þ ÔÒÚÒÚ ÜÝ Ñ ÜÞ Þ Ú Þ ÑÐ Ø Ü Ô Þ ÚÛÔ Ø Ý Ò Ý Þ ÜÚ ÔÝ Ñ ÚÖ Þ Þ Ô Ð Ü ÓÒ ÝÜÔ Ó ÚÐ Ý Ð Ö Ð Ø Ü Ô ÜÒ Ð ºÞ ÚÛÔ Ø ÜÞ Ð Õ Ó Ð Õ ÓØ Ó Þ Þ Ú Þ Ô Ñ Ý Ö Ò Þ Ø Ð ÓÞ Ô Ñ Ð Ú Ø Ð Õ Ü ÐÝ Ø Õ ÑÐ Þ ÚÛÔ Ø Ü ÝÒ Ö Ò Þ Ø ÓÞ Ô Ð Ú Ø Ð ºÞ Ü Þ ÚÛÔ Ø Þ ÜÒ ÜÝ Ò Ö Ò ÜÞ Ñ ÞÖÐ µ Ý ÓÒ µ Ò Ð ÚÛ º¾ ÜØÕÒÐ ÜÝ Õ ÒÖ Ð ÙÖ Þ Ô Ð ÝÜÔÝ ÓÒ ÝÒ º ÖÝ Ú ÐÖ ÒÖ ÙÖ Ð ÐÝ ÖÚ ÒÒ Ô ÓÒ Ñ ÜÛÒ º Ü Þ Ñ ÚÖ Þ Ô ÓÒ ÜÞ Ñ Ü Ñ Ý Ð Ó Ò ÜÒ Þ Ü Ý ÜØÕÒÐ Ñ Ü Ü Ñ ÜÛ Ñ ÔÒ Õ Ý Ò Ý º Ò Þ Ø ¼¼¹Ð Ñ Ü ÜØÕÒ Þ Ð Ð ÔÚÐ Ô Ñ Ü
ºÞ ÒÜ Ü Ú Ð Ñ Ü ÜØÕÒ Ó Ý Ü Ý ÝÒ Þ ÚÖ Ö Þ Þ Û ÜØÕÒµ Ü Ò Þ Õ Ô Ô Ô Ü Þ Ô Ý Ü Þ Ñ ÒÜ Ô ÐÝ Ñ ÚÖ ÙÖ Ö ÛÒ Þ Ø Þ Ô Ô Þ Ò ÝÜ ¾¼¼¼ ÐÖ IG ÐÝ ÑÜ Ô ÙÖ ÐÝÒе Ü Ý ÓÒ ÝÜ Ñ ÒÜ Ñ Ü ÜØÕÒ Ü Ð Þ Ü Õ Ð ÓÞ Ô º Þ Û Þ Ô Ô Þ Ò ÝÜ ¾¼¼¼ ÐÖ Gini Gain ØÐ ÑÜ Ò ÐÖ ÒÖ ÓÜØÕÒ Ó Ð Þ Þ Þ Ñ Ü Ó Ýµ Ó Ý Ü Õ Ò Ñ ÚÖ ÐÝ Þ Õ ÑÚÒ ÚÒ ¹ÒÜ ÚÖ Ñ Ü ÜØÕÒ Ö Ñ ÜÛ Ñ ÔÒ Õ ÞØÕ Þ Þ Ð Ü Þ Þ ¹ Þ Þ ÜÝÖ Ü Õ Ý Ø Ó Ý Ü Õ Ò Ñ Ü ÜØÕÒ Ö Ü ÐÝ Ð ÜÕ ÝÖÒе Þ Þ ÖÒÝÒ Ð Ñ º Ð ÖÐ Ò Ø Ü Ô Ý Ð Õ ºÜÞ Ð Ý ÝÒ Þ ÝÜ Ø Ü Ô Ò Ñ Ò Ó Ò Ü Ú Ñ Ô ÞÔ Þ ÛÐ Ò Ð Ó Ð Ñ Ô Ý Ñ Ü³Ú Ø Þ Ô Ý Þ ÜÝØ Û ØÕÒ Ý ÞÒ ÐÝ Ò ÐÐ Ñ ÝÒÞÝÒ ÐÝ Û º Ý ÝÒ ÞÐ Ð ÜÞ Ü Ð ÕÜ ÛÜ ÛÒ ÖÐ Ð ÒÝ Ò Ü Ü Û ØÕÒ ºÑ ØÕ Ô Ñ Ý Þ Ñ ÐÐÛÝÒ Ð Ø Ü Ô Þ Ñ Ý ÒÝ IGR Ò ÜÞ Ñ Ñ Ò
VI ÛÐ ÞÖÐ Þ Ý Ò Þ ÔÛÕÒ Ó Þ Û Ò Þ Ú ÞÐ Ö Ð ÓÞ Ô ÔÐÝ Ö Õ Õ ÐÖÝ Þ Ô Ò Ò Ô Ô Þ ÜÒÞ ÓÜ Ò ÓÞ Ö Ñ Õ 70% ÐÖÒÐ Ö Ð Ô ÐÚ ¹ Þ Þ ÖÒÝÒ Þ Þ Ú Þ Ó ÔÞ Ö ÔÖ Ó Ð Þ Ú Þ Ó º ÜÞ Þ Ô Ý Üµ Ò Þ Þ ÚÛÔ Ø Þ Õ Õ Þ ÚÛÔ Ø ÑÖ Ñ ÒÜ Ô Ñ ÒÜ Ü Öµ Ñ Þ Þ Ý Ó Ò 60%¹ Þ ÜÞ Ú Þ Þ Ü ÛÒ Ö Ö IGR Þ Ý 73%¹Ð KL Þ Ý 79%¹Ð Þ Ý ÜÞ Ð Ü Ö ¹ Þ Ý ÛÜ ØÝÐ Þ Ò ÝÜ ¾¼¼¼ ÐÝ Ð Ó Ò ÜÒ Ü Ö Ð ÛÞ ºÜÞ Ð Ð 45% Ð Ò Ü ÜÝ Ñ ÒÜ Ô Ü Ö Û Ð ÛÞ ÜÒÞ ÓÜ Ò ÐÝ ÜÞ Þ Þ Ú Þ Ó ÚÐ Ó ÔÖÒ ÐÖ Ó º ÐÚ 25%¹ Ð Ö Ó Ñ ÒÜ ÑÖ Ö Ó Ý º50%¹Ò Ñ Ô Û ÐÚ Ñ ÜÛÒ ÐÝ Ñ Ô Ý Ñ Ö ÛÒÐ Û Ð Ô Ö Û ØÕÒ Þ Ð ÜÔ ÝÖÝ Û Ð Ý Ð Õ Ý ÜÖÝ Þ Û ÝÐ Ô Õ Ô Ñ ÚÖ ÐÖ Ö Ò ÛÐ ºÞÜ Ð Ö ÔÐÝ Ö Ò ÑÐ ºÜÞ Þ Þ Ú Þ Ô Ð ÝÖ Þ Ô Ò Þ Ô Ý Þ Û Ð ÐÖ Þ Ü Ñ ÒÖØ Ñ ÚÖ Þ ÔÚÜ Ð Þ ÜÐ ÓÞ ÔÝ Ø µ Ñ Ú ÛÒÐ Û Ð ÑÖ Û ÒÖ Þ Ø ÙÖ Ñ Ô Ý Ñ Ú ÛÒ Ó ÞÔ Ò Ô Ö ÜÞ Þ Û Ð Ý Ð Ý Þ Ý Ò Ý Ô Õ ÔÝ Û Ð Ó Þ Ú Þ Ñ Ü Ô Ñ Ð Ô Ð Ð Ü ÐÝ Ø Õ ÑÐ ºÜÞ Þ Û Ð ÔÞÖÐ ºÞ Ü ÛÒ Û Ð Ñ ÞÖÐ ÜÞ Þ Þ Ú Þ Ý Ý Û Ð Ñ ÞÖÐ Þ Ü ÛÒ Û Ð Ð Ñ Ò Ó ÐÝ Ó Ò Ó Ò ÜÒ Ý Þ Ð ÝÖ Þ Ü ÛÒ Ö Þ Õ Þ ÒÔ Þ Ú ÞÐ Õ ÞØÕ Ô Þ ÜÝØ º Ò Þ Þ Ð Ó Ð Ó Ò ÜÒ Ò Ô Ý µ Û Ô Ü Ö Ð Ó ÐÝ Ó Ò ÜÒ Ý Ñ Ô Ô Ü Ú Ñ Ý Ñ ÜÒ ÑÖ ÒÞ Ð Ö Ð Ó ÐÝ ÕÒ Ó Ð overfitting ÜÚ Ñ ÒÜ ÐÝ ÒÐ Ý º ÐÝ Þ Õ ÞÒÜ Þ ÐÖÒ ÑÞÜ Ý Ý Ô Ó Ü Ò Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Õ ÜÒÞ ÓÜ Ò ¹ ÞÝ ÒÞÐ ÔÜ Þ ÞÒ ÖÐ ÔÐÝ Û ÜØ º ÒÐ ÝÒ Þ Ñ Ô ÞÔ Ô Ò Þ Ð Ò Ò ÝÒ Ñ ÔÒ Õ Ò ÛÐ Ô Ü Ø Ô Ø ÚÝ Ø ºÑÞ Ü Õ Ð Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Þ Ð ¹ Þ ÜÝØ ¹ Ð ÚÖ Ó Þ Õ Õ Ý Ó ¹ Ñ ÒÞ Ü Ð Þ ÜÒ Ó Ð Þ ÖÒÝÒ Ö Ò Ø Õ Ñ ÜÛ ¹ Õ Õ Ñ Ð 10%¹ ÐÝ ÖÚ ÒÒ Ü Ø Ýµ Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ ÜÞ Þ Þ Ú Þ Ú Ñ ÒÞ Ü Ð Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Ñ Ó ÚÐ Ý Þ ÑÖ º Ð ÚÖ 20% Ö ÐÝ Ñ Ö ØÝ Ñ ÜÛ Ñ ÔÒ Õ ÞÜ Ý Ó ÚÐ º Ò Þ Ø Þ Ú ÞÐ Ö ÑÒÚÖ Þ Ñ Ô Ý Ú Ü ÔÒ ÐÖ Ü Ô ÓØ Ö ØÝ ÑÐ Ñ Õ Õ Ñ ÒÞ Ü Ð Ú Ü ÔÒ ÐÖ ÒÐ Ô ÓØ Ñ ÜÛ Ñ ÔÒ Õ ÞÜ Ý Þ Ö ÞØÒ Ó º Ô Ô Ü Ñ ÚÖ Ý Ü Õ Ð Ð µ Ñ ÚÖ Þ Ô Ð Ð Ð ÐÖ Ñ Õ Õ Ñ ÒÞ Ü Ð Ñ ØÕ Ô Ñ Ý ÐÝ Ö Û ÑÚÒ ÚÒ ÜØÕÒ ÜÞ Ð Ð Ø Õ Ò ÛÒ Ö Þ Ñ Ü Ñ ÜÛÒ ÐÖÒ Ü º Ð ÖÐ Ü ÞÝ Ø µ Ð Ð Ñ Ü ÜØÕÒ Þ ÞÜ Ô Ü Ú ºÑ ÚÖ Þ Ô ÐÝ Ý ÓÒ Þ Ñ Ñ Þ ÕÜ ÛÜ Þ Ý Þ ÖÚÒ ºººÞ Ú Þ Þ ÜØÝÐ ÓÞ ÔÝ Þ Ý Ó Þ ÜÒÞ ÓÜ Ò Þ Õ Õ Ý Ð ÜÝÛ Þ Ð Ô Ø ÔÝÒÞÝ Ñ Ñ Ý Ñ Ð ÐÐ Ó º ÕÔ ÞÒÜ Ô Ò ºººÞ ÒÛÞÒ ÜÞ ÛÕ Þ Ð Ð Ó ÔÖÒ Õ Ô ºÞ Ø Þ Þ Ú ÞÐ Ö ÕÔ ÞÒÜ Ô ÐÖ ÕÕ Þ Ý Ò Ö Ò Þ ºÞ Ü Ò Õ¹ Ð ÞÕÜ Þ Ü Ò Õ ÞÕÜ Þ ÖÒ Þ Ú Þ Ô KL Ò
Ü Ý ÓÒ ÝÜÔ Ò Ñ Ð Ñ Ý ÐÞ Ñ ÐÝ ÜÛ Ö Ó ÜÕ Ô Ð Ð ÚÖÐ ÜÝÛ Ñ Ü ÜØÕÒ Þ ÑÚÒÚÐ ÔÝÜÔ Ó Ð ÐÒ ÕÛÒ ÕÜ ÛÜ ÛÒ ÖÐ ÔÖ Ñ Ü Ñ ÜÛÒ ºÑÞÜ Ú Ð ÑÖ Û ÝÐ Ô Õ Ô Ü Ò ºÑ Õ Õ Ñ ÜÛÒ ÜÝ Ò Þ Ø Õ Ò Ú Þ º ÔÝÒÞÝ Ñ ÐÝ Þ Ú Þ Þ ÜÒ Þ Þ ÜÒÐ ºÜÛ Ô Ü Ø Ý Ü Ð Ð Ñ Ô Ý Þ Ú Þ Þ ÜØÝÐ Ó Õ Ô Þ Û Ð Û ÒÝ Ò Þ ØÝ ½ Ð Õ Ö Ô Ô Ý Þ Ü ÛÒ Þ ØÝ ÐÖ ÛÜ Ô Ô ÙÖ Ý Þ Ú Ð ÚÖ ºÛ Ô Þ ØÝ ÜØÕÒÒ Ñ ÖØÝ Ò Ð ÖÒ Ñ Ý ØÝ Ð Ñ Ñ Ð Ó Ñ Ð ÚÖ ØÐ ÔÞÝ Þ Ó Ö Ð ÚÖ ÑÖ Ü Ú Ö Ð Ô Ü Þ Ô Ý Ü Þ ÐÝ Ñ Ò Þ ÜÐ ÓÞ Ô ºÞ Ú ÛÐ Û Ð Ð Ü ÝÛ Ý Ñ Ü Õ Ô Ô Ü Ò ºÑ Õ Õ Ñ Ð ÑÖ Þ Þ ÖÒÝÒ Þ Þ Ú ÞÐ Ö Ü Û Ð ÔÛØÕ Ð Ñ Ü Þ Ö Ý ÝÒÔ Ñ Þ Ô ÑÞÚÜ Û ÜØ Ñ ÒÞ Ü Ð ÐÐ Þ Ø Ð Þ Ü Ò ¹ Þ Ý Þ Û Ð ÑÖ Þ Ô Ý Þ ÚÜ Þ ÕÔÐ Ñ Ô ÞÔ Þ Ó Ð Ð ÞÖ Û ÜØ ÔÞÖÐ ºÛÒ ÖÐ Ý Ô Þ ºÞ ØÝ Ð Ø ÜØ Þ ÜÞ Ü Ú Ð Ð ÞÝ Þ Ð Û Ð ÞÐ ÛÐ Ö ¹ Þ Ø ÜÞ Þ Ô Ö Ò Ò ÔÖ Þ Ý Ò Ò Ñ Þ Þ ØÕ Ô Þ Ü Þ Ö ÐÝ Þ Ú Þ Ò ÔÐÝ Ö Þ Ú Þ Ñ Ô Ý Ñ ÐÝÒ Û Û Û ÐÝ Ö Ü Ú Ó ¹ Ñ Û ÔÝÐ Ö Ð Ð Ø Þ Ö Þ ØÝ Þ Ð ÓÞ Ô Ñ Ð Ò Þ Þ ÐÝ Ý ÜÛ Þ Ô ÛØÞÕ Ð ÜÝØ Ð ØÝ Þ Þ Ð Ñ Ð Ò ÐÝ Þ ÔÒÕ Þ ÖÒÝÒ ÓÞ Ô Õ Ô º Ø Þ ÜØÕ ÔÜ Ô ÜÞ Ñ Ô Þ Ö ÞÒ Ñ Ý Ô Þ Ü ÛÒ ÐÝ Ñ ÚÖ Ó ÒÒ ÛÐ Ð Þ Ð Ý Þ ØÝ Þ ÔÐ Ý Ý ÔÝÐ Ö Þ Ü ÝÖ Ð Ý Ò Ý Ô ÝÖ Ñ Ý Ñ Ð Ö Þ Ú Þ ÝÒÞÝ Ð Þ ÛÐ Ð Ò Õ ÜÞ Ý Þ ØÐ ÐÐ Ð Ò Ðµ Ñ Ô Ý Ñ Û Ó Ô ÜÛ Þ Ò ¹ Þ Ô Ý º Ò Þ ÖÒÞÝÒ Þ Ô Û Þ ÖÒÝÒ Û Ð Þ Ð Ô ÜÝ Ò Ñ ÒÜ Ô Ñ ÒÜ ÐÝ Ð Ý ÞÒ Ñ ØÕ Ô Ñ Ò ÞØÕ Ö ÔÐÝ Û ÜØ Þ Ü Ð ÝÒ Ð ÓÞ Ô Ö Ð Ð Ô ÔÞÖÐ º Ò Ð Ñ Ð Ò Ñ ÒÜ Ô y¹ Ñ Ð Ò Ñ ÒÜ x Ñ ÐÝ Ñ ÞÒÚ Ý ÙÖ Þ Ô Ð ÓÞ Ôµ Þ ØÒ Û ÜØ ÞÜ ÕÒ Þ ÝÒÒÐ ÔÛØÕ Ð ÔÜÖÚÐ ºÓ Ð ÔÖ Ý Ð Ò ÜÞ Þ Ð Ø Þ Ú ÞÐ Û Ô ÐÝ Ñ Ô Ý Ñ Ò Ñ Ü ÝÛ Ü Û Ð ÓÞ ÔÝ Ñ ØÕ Ô Ñ Ý Ô º ÔÝÒÞÝ Ñ Ñ Ò Ü ÓÒ ÜÚ Û Ü Þ ÔÒÜ ÞÖÚ ÒÒ Ð Ò ÐÝÒе ØÝ ÞÖÚ ÒÒ Ð Ò Ü ØÝ ÖÚ ÒÒ Ñ Ð Ò ÜØÕÒ ÞÒ ºÜÞ Þ Þ Ú ÞÐ Ö Ð Ñ Ú ÛÒÐ Û Ð Þ ÜØÝÐ Þ ÕÔÐ ÓÞ Ô Ó Ò º Þ Ð Ô ÞÖÚ ÒÒ Ð Ò Ò
VII ÛÐ Þ Ü ÛÒ http://www.cs.huji.ac.il/~ai/projects/nlp.pdf ÜÒÞ ÓÜ Ò ÐÝ Þ Ü ÛÒ Ö Þ Þ ÐÒ Ô Ð Ò ¹ ¾ ÕÜ Û ÐÝ Ñ Ð ÜÞ Ñ Ü Ö Ý Þ ÚÒ ØÝ ÐÝ Ñ Ô Û Ñ Þ Ý ÒÐ ¹ ¾¾ ÕÜ Û ÐÝ Ñ Ü Ö Ý Þ ÚÒ Gutenberg Project - http://www.gutenberg.org/ http://www.bookrix.com/ http://www.e-book.com.au/morefreebooks/freemultilingualbooks.htm http://tnlessone.wordpress.com/2007/05/13/how-to-detect-which-language-a-text-is-written-in-or-whenscience-meets-human/ http://en.wikipedia.org/wiki/list_of_languages_by_writing_system#latin_script http://en.wikipedia.org/wiki/letter_frequency http://stackoverflow.com/questions/3194516/replace-national-characters-with-ascii-equivalent http://staff.science.uva.nl/~tsagias/?p=185 http://www.ise.bgu.ac.il/faculty/liorr/hbchap9.pdf http://www.onlamp.com/pub/a/python/2006/02/09/ai_decision_trees.html?page=4 http://www.101languages.net/common-words/
VIII ÛÐ Þ Õ Õ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ original langauges w/ diacritics original langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Kullback 79.43 78.07 78.07 79.07 67.72 68.36 66.92 66.86 Symmetric Kullback 77.85 75.71 75.5 76.71 67.28 67.28 65.86 64.92 Angle 59.5 58.28 60.57 59.43 57 56.5 60.22 58.78 Eucleadean 70.21 66.57 68.71 67.5 67.07 66.72 66.78 66.78 Infinity 48.85 43.14 47.71 46.29 41.14 42.57 45.42 42 Ranks 58.07 60 58.57 60.71 69.28 67.07 65.22 68.14 Simple Difference 62.85 65.14 64.14 64.79 58.36 61.07 60.5 61.78 All langauges w/ diacritics All langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Kullback 69.34 69.22 69.59 69.88 62.73 63.45 62.53 61.9 Symmetric Kullback 68.87 68.33 69.19 69.4 59.09 60.43 59.02 57.75 Angle 46.93 46.17 45 44.75 49.48 49.25 49.25 48.96 Eucleadean 59.19 58.77 57.38 57.12 56.66 57.98 57.56 56.59 Infinity 44.94 41.49 43.33 40.8 39.78 39.78 41.03 38.39 Ranks 42.56 43.85 46.35 45.60 55 57.53 58.45 57.75 Simple Difference 53.07 52.25 51.78 50.67 53.17 53.21 52.98 51.5 original langauges w/ diacritics original langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Unigrams 62.57 62.05 61.91 60.1 56.96 55.61 57.81 58.57 Bigrams 69.55 66.89 68.48 69.39 69.6 65.31 68.86 68.81 First 58.42 60.86 61 61.1 55.1 54.23 52.91 55.71 Last 77.96 75.42 75.52 77.72 71.42 79.05 73.52 70.61 All langauges w/ diacritics All langauges w/o diacritics Unigrams 53.23 52.04 54.54 53.14 52.1 52.25 54.06 53.23 Bigrams 68.01 65.59 65.53 65.65 68.88 67.42 67.07 66.84 First 47.6 48.52 47.85 46.53 45.09 48.32 46.55 45.03 Last 53.95 55.54 54.57 55.47 53.14 55.32 54.5 53.1
IX ÛÐ Ð ÚÖ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ First Letter Last Letter 500 1000 1500 2000 500 1000 1500 2000 Gini 20 21.15 21.84 18.39 23.45 21.38 20.92 22.76 Entropy 20.68 20.68 22.06 22 25.74 26.43 23.9 29.86 IG 18.85 19.54 20.23 21.61 20.92 20.46 20 20.1 IGR 22.53 27.36 29.66 29.89 21.38 26.9 28.28 26.67 Train Error 16.09 17.93 18.62 18.16 15.86 20.69 20.69 20.69 Unigrams Bigrams 500 1000 1500 2000 500 1000 1500 2000 Gini 51.03 49.2 52.41 54.71 30.11 30.8 28.9 31.03 Entropy 57.24 62.29 70.11 68.28 61.38 64.83 67.13 62.56 IG 42.53 46.67 53.79 56.55 56.32 61.84 61.61 63.51 IGR 61.38 62.07 72.64 71.49 69.65 71.3 73.33 72.64 Train Error 39.77 42.53 44.83 46.44 27.58 28.05 33.1 31.72