Podobne dokumenty
½ ÏÝ Ï Þ ð Û Ø ÛÓÐÙ Þ Ø Ð Ñ ÒØ ÖÒÝ Ï Þ ð Û Ø ÔÖÓ º º º ÖÒ Þ Ø Ç Þ ÝÛ ðò ÙÒ Ñ ÒØ ÐÒÝ ÞÝ Óð Û Þ ÐÒ ÁÒ ØÝØÙØ Þ Ø Ð Ñ ÒØ ÖÒÝ ÏÝ ½ ÛÓÐÙ Ï Þ ð Û Ø ¾ Ñ ¾¼½ æ

ÔÖÓ Ù ÔÖÓ Ù Þ Ø ÑÒ Ñ Ø Ö ÞÔÓð Ö Ò Ø ÞÔÓð Ö Ò Ý Ò Û Ó Þ ÝÛ Ò Å ÔÓ ÞÙ Û Ò Ø ÔÓð Ö Ò Ý Ò Û Ó Þ ÝÛ Ò Ò Ð µ ÔÓ ÞÙ Û Ò ÑÒ Ñ Ø Ö ÈÓ ÞÙ Û Ò Ó ÑÓ ÐÙ ÑÓ Þ ÑÝ ÔÓ

ÔÖÓ Ù ÔÖÓ Ù Þ Ø ÑÒ Ñ Ø Ö ÞÔÓð Ö Ò Ø ÞÔÓð Ö Ò Ý Ò Û Ó Þ ÝÛ Ò Å ÔÓ ÞÙ Û Ò Ø ÔÓð Ö Ò Ý Ò Û Ó Þ ÝÛ Ò Ò Ð µ ÔÓ ÞÙ Û Ò ÑÒ Ñ Ø Ö ÈÓ ÞÙ Û Ò Ó ÑÓ ÐÙ ÑÓ Þ ÑÝ ÔÓ



Ï ØÔ ÈÖÞÝ Ý Ç ÐÒ Û ÒÓ Ó Þ Ò À Ð ¹ÈÓ Ø ÓÒ Ð Ø ÖÑ Ò Ý Ó ÁÒ Ò Ø Ñ ÖÝ ÃÓÔÞÝ Ï Ö Û ÍÒ Ú Ö ØÝ Û ØÒ ¾¼¼ ÖÝ ÃÓÔÞÝ À Ð ¹ÈÓ Ø ÓÒ Ð Ø ÖÑ Ò Ý Ó ÁÒ Ò Ø Ñ ½» ¼


Ð Ö Û Ø Ý Ò Û Ö ÞÓ Ò Û Ð Ñ ØÓÔÒ Ù ÔÓ Ð ÓÖ Û Ñ Ø Ö Â Ò Ð Ø Ó ÛÝ ÖÝ Ø Ø ØÖÙ Ò µ Ð Ö Û Ø Ý Ò Ï ÒÓð Ð Ö Û Ø Ý Ò Þ ÓÛÙ ÔÓ Ó Ò Ð Ð ØÖÓÑ Ò ØÝÞÒ ÔÓÖÙ Þ Þ Ø Ñ


ÈÖÞ ØÛ ÖÞ Ò Ø ØÙ Û ÈÓÛØ ÖÞ Ò áö Ò Óµ Þ Û Ò ÓÛ Ò Èʵ ÏÝ ¹ ÔÖÞ ØÛ ÖÞ Ò Ø ØÙ ÊÓ ÖØ ÆÓÛ ¾¼¼ áö Ò Óµ Þ Û Ò ÓÛ Ò Èʵ ½»

ØÖ Ò ÔÓÖØ Û ÖØÓ ÔÖÞ ÛÓ Ò ÐÙ ÔÖÞ ÒÓ Þ Ò Û ÖØÓ Ô Ò ÒÝ ÔÓÞ Ó Ö Ñ Ô Þ ÐÒ ºÓ ÒÓ Ø Ó Ð Þ Ò ÓÛ ÔÖÞÝ Ø Ó Ó Ö Ð Ò Ð Ñ ØÙ ÔÖÞ ÓÛÝÛ ¹ ÒÝ ÐÙ ØÖ Ò ÔÓÖØÓÛ ÒÝ Û ÖØÓ

Ð ÓÖÝØÑÝ ØÖÙ ØÙÖÝ ÒÝ Ñ Ø Ö Ý ÛÝ ÓÛ ËØÙ Þ ÓÞÒ ÈÂÏËÌÃ Á ËÌÊÍÃÌÍÊ Æ À Ä ÇÊ ÌÅ ÁÁÁ Ñ Ø Ö Ý ÔÓÑÓÒ Þ µ Ï Ã ÈÖÓ Ð Ñ ÓÖØÓÛ Ò ÈÓÐ Ó Â ÔÓ ÏÝ Þ ËÞ Ó Ì Ò ÃÓÑÔÙØ Ö

Þ ÑÒ ÑÒ Ñ Ø Ö Ö Å ØØ Ö ¹ ŵ ÓÐ À Å Ñ Å Þ Å Ñ Å Å Å ÛÓÐÙ Ï Þ ð Û Ø Ç Ò ÔÓÛ Þ Ò ÙÞÒ ÒÝÑ ÑÓ Ð Ñ ÛÓÐÙ Ï Þ ð Û Ø Ø ØÞÛº ÑÓ Ð Åº ÓÒ Ï Þ ð Û Ø ÛÝÔ Ò ãþûý ä Ñ

ÈÓÔÖ ÛÒ ÛÝ ÓÖÞÝ Ø Ò ÏÞÓÖ ÔÖÓ ØÓÛ áö Ò ÓµÞ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û ÏÝ ¾ ¹ Ø Ó ÛÞÓÖ ÔÖÓ ØÓÛ ÊÓ ÖØ ÆÓÛ ¾¼¼ áö Ò ÓµÞ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û ½»

Ð ÓÖÝØÑÝ ØÖÙ ØÙÖÝ ÒÝ Ñ Ø Ö Ý ÛÝ ÓÛ ËØÙ Þ ÓÞÒ ÈÂÏËÌÃ Á ËÌÊÍÃÌÍÊ Æ À Ä ÇÊ ÌÅ ÁÁ Ñ Ø Ö Ý ÔÓÑÓÒ Þ µ Ï Ã ÈÖÓ Ð Ñ ÛÝ ÞÙ Ò ÈÓÐ Ó Â ÔÓ ÏÝ Þ ËÞ Ó Ì Ò ÃÓÑÔÙØ ÖÓ

ð Ö ½¼¼ Å Î ¹ Ì Î ½¼ ½ ØÑÓ ÖÝÞÒ Ñ ¾ Ð Ö ØÓÖÓÛ ÖÞ Ù Î ½¼ ¾¼ Æ ÙØÖ Ò ÌÝÔ Ô Ò Ö ËØÖÙÑ ðò ½ Å Î ½¼ ½¼ ½ Ë ÓÒ ÞÒ Ñ ¾ Ò Ñ µ ÔÓÛÝ Þ ½¼ Šε ÖÞ Ù Å Î ½¼ ½ Ê Ø

Û Ø Õ Ü Ü Ô ÐÛ Ü ¾¼½ Ô

ÛÙÛÝÑ ÖÓÛÝ ÔÖ Ò ÂÓ ÒÒ ÀÓÖ ÂÓ ÒÒ ÀÓÖ ÛÙÛÝÑ ÖÓÛÝ ÔÖ Ò

ÃÓÒØ Ò ÖÝ Þ ÓÓ Ø ÓÓ Ø Ö Ô Ä Ö ÖÝ ÈÓÛØ ÖÞ Ò áö Ò Ó Þ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û Èʵ ÏÝ ½¾ ¹ ÓÒØ Ò ÖÝ Þ ÓÓ Ø ÊÓ ÖØ ÆÓÛ ¾¼¼ áö Ò Ó Þ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û È

ÈÐ Ò ÛÝ Ø Ô Ò ½ ¾ ÃÐ ÝÞÒ Ó Ð Þ Ò ÓÛ ÞØÙÞÒ ÒØ Ð Ò ÅÓ Ð Ó Ð Þ Ò ÓÛ ÞØÙÞÒ ÒØ Ð Ò Ë Ò ÙÖÓÒÓÛ ÏÒ Ó ÓÛ Ò Þ ÐÓ ÖÓÞÑÝØ Ð ÓÖÝØÑÝ ÛÓÐÙÝ Ò ÊÓÞÛ Þ Ò Ý ÖÝ ÓÛ ÝÒ Ñ

ÈÖÓÑ Ò ÓÛ Ò Ó Ñ ÞÒ Ï Ð Ô ØÑÓ ÖÝÞÒ º º ÖÒ ÏÝ ½

Reguly. Wind = Weak Temp > 20 Outlook Rain PlayTennis = Y es

ËÞ ÐÓÒÝ ¹ ÔÓÛØ ÖÞ Ò ÈÖÓ Ð ÑÝ ÔÖÞÝ ØÓ ÓÛ Ò Ù Þ ÐÓÒ Û áö Ò Ó Þ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û Èʵ ÏÝ ½¼ ¹ Þ ÐÓÒÝ ÊÓ ÖØ ÆÓÛ ¾¼¼ áö Ò Ó Þ Û Ò ÓÛ Ò ÔÖÓ Ö ÑÓÛ Ò Û È

Survival Probability /E. (km/mev)

pomiary teoria #pomiarow N

ÏÝ Ö Ò ÖÙÒ Û ÛÓÐÙ Ö Ò ÓÛ Â ÖÓ Û Ö ÈÓÐ Ø Ò Ï Ö Þ Û ÁÒ ØÝØÙØ ËÝ Ø Ñ Û Ð ØÖÓÒ ÞÒÝ ¹Ñ Ð Ö Ð ºÔÛº ÙºÔÐ Ñ Ò Ö ÙÑ Ù ÁÒØ Ð ÒØÒÝ ËÝ Ø Ñ Û Ï ÔÓÑ Ò ÝÞ ÈÓÐ Ø Ò ÈÓ

Ñ ÒÒ Û È ÖÐÙ Ñ ÒÒ ÌÝÔ Ò ÈÖÞÝ Ò Þ Ò Ë Ð Ö Ð ÈÓ ÝÒÞ Û ÖØÓ Ð Þ ÐÙ Ò Ô µ Ì Ð Ø Ð Ä Ø Û ÖØÓ Ò ÓÛ Ò Ð Þ Ñ À Þ ± ±Þ ÓÖ ÖÙÔ Û ÖØÓ Ò ÓÛ Ò Ò Ô Ñ ÈÖÓ ÙÖ ² ²ÞÖÓ Ö

Þ ÈÖ ÛÓ ÀÙ Ð ÈÖÞ ÙÒ Ù Þ ÖÛ Ò Â ð Ð ðþö Ó ð Û Ø Ó Ð Ó Ä Ò Û Ð Û Û Ñ Û Þ Ö ÈÃË ½¾ ¾ ¼ ½ Ó ÖÛ ØÓÖ Ò Ø ÔÙ ÛÝ Ù Þ Ò Ð ½ ½ ¼ ½ Þµ ÔÖÞ ÙÒ Ù Þ ÖÛ Ò Ò º ãö Øäµ

Lech Banachowski. Rola Uczelni oraz metod i technik e-edukacji w uczeniu się przez całe życie


Fizyka I (mechanika), rok akad. 2012/2013 Zadania kolokwialne 1

Þ Ø Ð Ñ ÒØ ÖÒÝ ÏÝ Ï Ô Þ Ò Ô ÖÝÑ ÒØÝ ¾ Ñ Ö ¾¼½ Ï Þ ð Û Ø µæ Ôº¾»

System ALVINN. 30 Output. Units. 4 Hidden. Units. 30x32 Sensor Input Retina. Straight Ahead. Sharp Right. Sharp Left

Þ ð ãû Þ ÑÝä Ó Þ ÝÛ Ò Þ Ø Â Þ Ø Ð Ñ ÒØ ÖÒÝ ÏÝ Ï Ô Þ Ò Ô ÖÝÑ ÒØÝ ½ Ð ØÓÔ ¾¼½ Ï Þ ð Û Ø µæ Ôº¾»

ÏÝ Ô ÖÝÑ ÒØÝ Ï Ô Þ Ò Þ Ø Ð Ñ ÒØ ÖÒÝ Ï Þ ð Û Ø ÔÖÓ º º º ÖÒ Þ Ø Ç Þ ÝÛ ðò ÙÒ Ñ ÒØ ÐÒÝ ÁÒ ØÝØÙØ ÞÝ Óð Û Þ ÐÒ Þ Ø Ð Ñ ÒØ ÖÒÝ ÏÝ Ï Ô Þ Ò Ô ÖÝÑ ÒØÝ ¾ Ñ Ö ¾

f (n) lim n g (n) = a, f g

Janusz Przewocki. Zeroth Milnor-Thurston homology for the Warsaw Circle. Instytut Matematyczny PAN. Praca semestralna nr 3 (semestr zimowy 2010/11)

Sieci neuronowe: pomysl

ÈÖÓÑ Ò ÓØÛ ÖÞÓð ð ÔÖÞ Þ Àº ÕÙ Ö Ð Û ÖÓ Ù ½ º Ç ÖÝØ Æ ÙØÖ Ò ÙÖ ÒÙ Ñ ØÓÛ Ý ÔÖÓÑ Ò ÓÛ Ò Ø Ö Þ ÑÒ Ó Ô ÝØ ÓØÓ Ö ÞÒ º ËÓÐ ¹ Ò ÖÓ ÆÓ Ð ÛÖ Þ Þ ÅºË Ó ÓÛ Èº ÙÖ

LVI Olimpiada Fizyczna zawody III stopnia

ÈÖ ÔÖÞ Ð Ñ Ó Ó ÒÝ Ø ÈÓ Ô ÙØÓÖ ÔÖ Ý ÈÖ Ø ÓØÓÛ Ó Ó ÒÝ ÔÖÞ Þ Ö ÒÞ ÒØ Ø ÈÓ Ô ÖÙ Ó ÔÖ

Strategie heurystyczne

Ð ÓÖÝØÑÝ ØÖÙ ØÙÖÝ ÒÝ Ñ Ø Ö Ý ÛÝ ÓÛ ËØÙ Þ ÓÞÒ ÈÂÏËÌÃ Á ËÌÊÍÃÌÍÊ Æ À Ä ÇÊ ÌÅ ÁÎ Ñ Ø Ö Ý ÔÓÑÓÒ Þ µ Ï Ã ÒÝ ËØÖÙ ØÙÖÝ ÓÛÒ Ð ØÝ ÈÓÐ Ó Â ÔÓ ÏÝ Þ ËÞ Ó Ì Ò ÃÓÑ

º º ÖÒ ÏÝ Á ½

A(T)= A(0)=D(0)+E(0).

ÑÒ Ñ Ø Ö Ò Ð Å ÈÓ ÞÙ Û Ò Ý Ò Û Ò Ð Å Û Û ÞÝ Ø ÑÓ ÞÐ ÛÝ Ò ÔÖÓÑ Ò ÓÛ Ò ÑÑ ÔÓÞÝØÓÒÝ ÒØÝÔÖÓØÓÒÝ ººº µ ÑÓ Þ ÑÝ Ø Þ ÞÙ ð Ò ÙØÖ Ò º º ÖÒ ÏÝ ÁÁ ½

Ç ÐÒ ÒÖ ½ DoCelu Ä ØÓÔ ¾¼¼¾ º º º Ó Þ ÑÝ Û ÞÝ Ý Ó ÒÓ Û ÖÝ ÔÓÞÒ Ò ËÝÒ Ó Ó Ó Ñ Ó ÓÒ Ó ÓÖÓ Ò ÑÝ Ó ÛÝÑ Ö Û Ô Ò ÖÝ ØÙ ÓÛ º º º Â ÞÙ ÞÛÝ Ý ÂÓ ÒÒ Ö ØÓÔ ÐÙÑ Ö

ROCZNIK LUBUSKI Tom 30, część 2

ØÓ ÔÖ Ù Ð ØÖÝÞÒ Ó ÈÖ Ó ÙÒÓ Þ Ò Ó Ò ÓÖ ØÓ ÔÖ Ù Ø Û ØÓÖ Ñ Ø Ö Ó ÖÙÒ ÛÝÞÒ Þ ØÝÞÒ Ó ØÓÖÙ ÔÓÖÙ Þ Ó ÙÒ Ù Ó ØÒ Óº ÛÖÓØ Û ØÓÖ Ó Ö Ð ÙÑÓÛÒ Ó ÖÙÒ ÖÙ Ù ÙÒ Ù Ó ØÒ

ÈÓÞÝØÝÛÒ ÔÖÝÑÓÛ Ò Ñ ÒØÝÞÒ Ó Ò ÖÞ Þ ÓÔØÝÑ Ð Þ ÙØÓÑ ØÝÞÒÝ Ý Ø Ñ Û ÙØÓÖÝÞ Ù ÝØ ÓÛÒ Ê ÈÇÊÌ Ö Å Ö Ù Þ ÍÖ ÄÓ ÃÓ Ò ØÝÛ ØÝ ÁÒ ØÝØÙØ È Ý ÓÐÓ ÍÒ Û Ö ÝØ Ø Ñº º Å

ÊÇ ÆÁÃ ÄÍ ÍËÃÁ ÌÓÑ ¾ Þº ¾ ¾¼½ ÒÒ ÑÖ ÈÊ ÃÊÇ Ê ÆÁ ÅÇÆËÌÊÍÅ Ê ÆÃ ÆËÌ ÁÆ ÈÇÏÁ á Á Å Ê ÏÇÄÄËÌÇÆ Ê Ì ËÀ ÄÄ ÊÙ Þ º... ÌÓ Ý ½ ÙÒØ ÔÖÞ Û Ó Æ ØÙÖÞ Â ÒÝÑ Þ Ó Û Þ

ÈÐ Ò ÔÖ Þ ÒØ ½ ¾ Ò ÔÖÞÝ Þ µº ÇÔ Ó ÔÐÙ Û Ò Û ÔÐ Ó ØÓÛ ÔÖÞÝ ÓØÓÛ Ò Ó Ó ÔÐÙ Û Ò Ø Ï Ê µº Æ ÖÞ Þ Ó ÛÝ ÖÝÛ Ò ÛÝ Û Ô Ñ Û ÔÖÓ Ö Ñ Ó ÔÖÓ ÐÓÛ Ò Ó Ùº ÝÑÓÓÔ ÍÅĺ

ËÔ ØÖ ½ Ð Þ Ö ÔÖ Ý ¾ ËÝ Ø ÑÝ ÔÐ Û Ý Ø ÑÝ ÓÔ Ö Ý Ò ¾º½ ÊÓÐ Ý Ø Ñ Û ÔÐ Û º º º º º º º º º º º º º º º º º º º º º º ¾º¾ Ê ÒÓÖÓ ÒÓ Ý Ø Ñ Û ÔÐ Û º º º º


Ç ÐÒ ÒÖ ½ DoCelu Ä ØÓÔ ¾¼¼½ º º º Ó Þ ÑÝ Û ÞÝ Ý Ó ÒÓ Û ÖÝ ÔÓÞÒ Ò ËÝÒ Ó Ó Ó Ñ Ó ÓÒ Ó ÓÖÓ Ò ÑÝ Ó ÛÝÑ Ö Û Ô Ò ÖÝ ØÙ ÓÛ º º º ÓÖ Þ Ð ÐÙ Á ÞÒ Ò Ó Ù ÝÙ Ò Û

ÍÒ Û Ö ÝØ Ø Ï Ö Þ Û ÏÝ Þ Å Ø Ñ ØÝ ÁÒ ÓÖÑ ØÝ Å Ò ËÔ Ý Û õò ÓÛÝ ØÖÙ ØÙÖ ÒÝ ÈÖ Ó ØÓÖ µ Å Ö Ò ÃÙ ÈÖÓÑÓØÓÖ ÔÖÓ º Ö º Â Ò Å Ý ½ ØÝÞÒ ¾¼¼¼

¾ Å ÑÞ ÈÖ Þ Ó ÓÒÓ Û Ý Ø Ñ Ä Ì º

Ç ÐÒ ÒÖ ¾½ DoCelu Ä ØÓÔ ¾¼¼ º º º Ó Þ ÑÝ Û ÞÝ Ý Ó ÒÓ Û ÖÝ ÔÓÞÒ Ò ËÝÒ Ó Ó Ó Ñ Ó ÓÒ Ó ÓÖÓ Ò ÑÝ Ó ÛÝÑ Ö Û Ô Ò ÖÝ ØÙ ÓÛ º º º ÅÓ Ð ØÛÝ Û Ø Û ÒÒ Þ Þ ÈÓÐ Ç

LVI OLIMPIADA FIZYCZNA ZADANIA ZAWODÓW I STOPNIA

arxiv: v1 [hep-th] 13 Dec 2007


e 2 = 8, 3 e 1 = 5, 1, e 2 = i 3 + i

ÍÆÁÏ ÊË Ì Ì Ï ÊË ÏËÃÁ Ï Á Á ÃÁ  ËÞÞÝØ Ó È ÈÊ ÏÇ ÆÁÃÁ È Å Æ Ì Æ ÁÁÁ¹Î Å Æ Æ Å ÈÖ Ó ØÓÖ ÛÝ ÓÒ Ò Û ÁÒ ØÝØÙ ÞÝ Óð Û Þ ÐÒ Ò ÏÝ Þ Ð ÞÝ ÍÒ Û Ö ÝØ ØÙ Ï Ö Þ Û

1. Waciki do czyszczenia optyki 2. Isopropanol 3. SLED 4. Laser diodowy 1550nm 5. Mikroskop 6. Urządzenie do czyszczenia końcówek światłowodów

ÈÖ ÔÖÞ Ñ Ó Ó ÒÝ Ø ÈÓ Ô ÙØÓÖ ÔÖ Ý ÈÖ Ø ÓØÓÛ Ó Ó ÒÝ ÔÖÞ Þ Ö ÒÞ ÒØ Ø ÈÓ Ô ÖÙ Ó ÔÖ

ÏÔÖÓÛ Þ Ò ÇÔ ÑÓ ÐÙ ÏÝÒ ÝÑÙÐ ÈÓ ÙÑÓÛ Ò Ä Ø Ö ØÙÖ Ë ÙØ ÔÖÞÝ Ø Ô Ò ÈÓÐ Ó ËØÖ Ý ÙÖÓ ÏÝÒ ÝÑÙÐ Ò ÔÓ Ø Û ÝÒ Ñ ÞÒ Ó ÑÓ ÐÙ ÌÓÑ Þ Ö Â Ò À Ñ Ö Æ ÖÓ ÓÛÝ Ò ÈÓÐ Ö À

ÔÓÑÓÒ Þ Ó ÛÝ Ù Å Ø Ö Ý ÔÓ Ø ÛÝ Ø Ò ÔÐÒ Ì ÖÑÓ ÝÒ Ñ ÔÖÓ Ö Ñ Û ÔÓÔÖ Û Ó ÞØ Ò ÓÖ Þ ÓØÛ Ö ÍÒÓÛÓÞ Ò Ò Ô ÐÒÓ Ó ÞÝ Ò ÖÙÒ Ù ÞÝ Û ÍÒ Û Ö ÝØ ÐÓÒÓ Ö Ñ ÒÓÛ ¼ º¼½º¼

Ì À ÒÖÝ Æ ÛÓ Ò Þ ÁÆËÌÁÌÍÌ Ç ÆÍ Ä Ê ÈÀ ËÁ Ë ÈÓÐ ÑÝ Ó Ë Ò Ùк Ê Þ ÓÛ Ó ½¹ ¾ ÃÖ Û ÈÓÐ Ò ÛÛÛº º ÙºÔлÔÙ Ð»Ö ÔÓÖØ»¾¼¼» ÃÖ Û Ñ Ö ¾¼¼ Ê ÈÇÊÌ ÆÓº ¾¼½»ÈÄ º ÜÔ


ÃÓ Ý ÀÙ Ñ Ð ÓÖÝØÑÝ Þ Ò Ð ÓÖÝØÑÝ Þ Ò º º Ð ÓÖÝØÑ Ñ ¹Ñ Ü ÖÝ ØÝÔÙ ÛÝ Ö»ÔÖÞ Ö ÖÞ Û Æ ¹ÇÊ ÏÝ ÞÙ Û ÛÞÓÖ Û Ð ÓÖÝØÑ ÃÒÙØ ¹ÅÓÖÖ ¹ÈÖ ØØ ÈÖÞ ÞÙ Û Ö Û ÈÖÓ ÙÖÝ Ù Ó

Ã Ø ÖÞÝÒ Â ÑÖÓÞ ÊÇ ÆÁà ÄÍ ÍËÃÁ ÌÓÑ ¾ Þº ¾ ¾¼½ ÏÈÁË ÆÁ Ï ÃÊ ÂÇ Ê Æ ÍÃÇÏ Á ÄÇÆÇ ÊËÃÁ ËÌÍ Á Á ÄÁÇÌ ÃÇ Æ Ï À ØÓÖ ÏÓ Û Þ Å Ð ÓØ ÈÙ Ð ÞÒ Ï Å Èµ Ѻ ݹ ÔÖ Ò Æ

ËÔ ØÖ ½ Ò Ó Ó ÓÛ ½º½ ÁÑ Ò ÞÛ Ó º º º º º º º º º º º º º º º º º º º º º º º º º º ½º¾ ÈÓ Ò ÝÔÐÓÑÝ ØÓÔÒ Ò Ù ÓÛ º º º º º º º º º º º º º º ½º ÁÒ ÓÖÑ Ó

Agnieszka Pr egowska

µ(p q) ( q p) µa B B c A c

ÈÓ Þ ÓÛ Ò Æ Ò Þ Ñ Ø Ö Ý ÔÓÛ Ø Ý Ò ÔÓ Ø Û ÒÓØ Ø Ó ÔÖÓÛ ÞÓÒÝ ÔÖÞ Þ ÑÒ Ò ÔÖÞ ØÖÞ Ò Ð Ù Ð Ø ÛÝ Û Þ Ø ÓÖ ÞÝ Û ÙØÓÑ Ø Û ÓÖ Þ Ù ÓÛÝ ÓÑÔ Ð ØÓÖ Ûº ÝÑ ÓÖ Ó ÔÓ Þ

¾

Notka biograficzna Streszczenie

ÊÇ ÆÁÃ ÄÍ ÍËÃÁ ÌÓÑ ¾ Þº ¾ ¾¼½ ÒÒ ÙÞ ÅÍ Ã Â ÃÇ Æ Ê Á ÃË Ì ÌÇÏ ÆÁ Å áä ÆÁ Å Ì Å Ì Æ Ç Ï ÍÃ ÂÁ Á Ã Ï Û ØÐ Û Ô Þ ÒÝ ÓÒ Ô Ô Ó ÞÒÝ ÛÝ ÓÛ Ò Ø ØÝÞÒ Ñ Ò ÐÙ Û Þ

ËÔ ØÖ ½ ÏÔÖÓÛ Þ Ò ½º½ Ù ÓÛ ÓÑÔÙØ Ö º º º º º º º º º º º º º º º º º º º º º º º º º º º ½º¾ ÈÖÓ Ö Ñ ÓÑÔÙØ ÖÓÛÝ º º º º º º º º º º º º º º º º º º º

ÉÙ ÕÙ ÔÖÙ ÒØ Ö Ø Ö Ô Ò Ñ ÇÛ Ù Þ ½ ½ Ó ÓÐÛ ÖÓ Þ Ö ÖÓÞØÖÓÔÒ Ô ØÖÞ Ó

ROCZNIK LUBUSKI Tom 35, część 2

ÊÓÞÔÓÞÒ Û Ò Ð ØÖÓÒ Û Ñ ÞÓÒ Û π 0 ÔÖÞÝ Ò Ù Ó Þ ÝÛ Ò ÙØÖ Ò Û Þ ØÓ ÓÛ Ò Ù Ó Ø ØÓÖ Û Ó¹ Ö ÓÒÓÛÝ ÓÖ Þ Ð Ó Ø ØÓÖ Ô ÖÝÑ ÒØÙ Ì¾Ã ÌÓÑ Þ Ï ÁÒ ØÝØÙØ ÞÝ Â ÖÓÛ Ñº

WEAPONRY OF SOCIETIES OF THE NORTHERN PONTIC CULTURE CIRCLE: BC. Viktor I. Klochko

Ã Þ Ñ ÖÞ Åº ÓÖ ÓÛ Ê ÓÛ ÒØ Ö ÖÓÑ ØÖ Û Ð Ó ÞÓÛ ÎÄ Áµ ÌÓÖÙ ½

Ë Ñ Ö ÞÒ ÔÓ Þ ÓÛ Ò Ð ÈÖÓÑÓØÓÖ ÔÖ Ý ÔÖÓ º Öº º Ò º ÊÝ Þ Ö ÓÖ Þ ÔÓÑÓ ÑÓØÝÛ Ó Ô Ò Ò Ò Þ ÖÓÞÔÖ ÛÝ ¾

ρ h (x 0 ) = M h h 3 ρ(x 0 ) = lim ρ h (x 0 )

ÒØÝ ÖÝ Ø ÖÝ ÖÝ Æ ØÞ

ÈÓ Þ ÓÛ Ò ÈÖ Ò Þ Ó Ý Ö ÞÒ ÔÓ Þ ÓÛ Ò Û ÞÝ Ø Ñ Ó Ó ÓÑ Ø Ö ÛÓ Ñ ÒÒÝÑ ÙÛ Ñ ÔÖÞÝÞÝÒ Ý Ó Ö Ð Þ Ò Ò Þ ÖÓÞÔÖ Ûݺ ËÞÞ ÐÒ ÔÖ Ò ÔÓ¹ Þ ÓÛ ÔÖÓÑÓØÓÖÓÛ ÔÖÓ º Ï ØÓÐ Ó

Notka biograficzna Streszczenie

Notka biograficzna Streszczenie

Grafika Komputerowa. Teksturowanie


Wprowadzenie do grafiki maszynowej. Wprowadenie do teksturowania

ÁÒ ØÝØÙØ Æ Ì ÑÔ Ö ØÙÖ ËØÖÙ ØÙÖ ÐÒÝ È Æ ÏÖÓ Û ¾¼½ º½½ ¼ ÄÁËÌ ËÌÇÈÆÁ ÇÃÌÇÊ Æ Æ À ÈÊ Ê Æ ÍÃÇÏ ÁÆËÌ ÌÍÌÍ ÄÁËÌ Ó Ç ÌÇÊ Ê Ë ÇÆ ÊÊ Ý Ø Ë Á ÆÌÁ Á ÇÍÆ ÁÄ Ó Ø Á

Ç Û Þ Ò ÙØÓÖ ÖÓÞÔÖ ÛÝ Ç Û Þ Ñ Ò Ò Þ ÖÓÞÔÖ Û ÞÓ Ø Ò Ô Ò ÔÖÞ Þ ÑÒ ÑÓ Þ ÐÒ º Ø ÈÓ Ô ÙØÓÖ ÖÓÞÔÖ ÛÝ Ç Û Þ Ò ÔÖÓÑÓØÓÖ ÖÓÞÔÖ ÛÝ Æ Ò ÞÝÑ Ó Û Þ Ñ ÖÓÞÔÖ Û Ø ÓØÓ

ÈÖ Û ÖÙ Ù ÝÒ Ñ ÞÝ Á Å Ò µ ÏÝ ÁÁ ÌÖ Ò ÓÖÑ Ð Ð Ù Þ ÞÛ ÒÓð ð Á Þ ÝÒ Ñ Ù Ò Ö ÐÒÝ ÁÁ Þ ÝÒ Ñ ÁÁÁ Þ ÝÒ Ñ

faza nadkrytyczna ciecz cia³o sta³e punkt krytyczny gaz punkt potrójny

Notka biograficzna Streszczenie

Studia z Kognitywistyki i Filozofii Umysłu

Rysunek 1: Informacja kontaktowa

Transkrypt:

Þ Þ ÐÒ Ô Ð Ò ÕÜ Û Ñ Õ Û ÜØ Þ Ö ØÝ ¾¼½ lresisi Õ ÕÜ Ü Ð ¾¼¼ ¼½½½ mikab4 ÓÛÜ Û Ò ¾¼½ ÙÜÒ ¾

Ñ Ô ÔÖ Ó Þ Ò I Ñ Þ Þ Ü ÝÛ Þ Ö ØÝ ÞÒ ÝÒ II Ó Ò ÜÒ Ð Ó Ò ÜÒ Ð Ñ Ô ÞÔ Õ III º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ ØÝ ÞÜ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ó Ò ÜÒ Ð Ø Ñ ÕÛ Ü ÛÒ ¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ñ ÜÛ Ñ ÔÒ Õ Ð Ø Ñ ÒÞ Ü Ð IV º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ø Û ¹ Þ Ô Ý º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ü Ü ØÕ º½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Borda Count Þ Ý º¾ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Õ Õ Ý ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-grams Ø Ö º½ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÑÜ Ô º½º½ ½¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Ý Ü Þ Þ Ý º½º¾ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Õ Þ Þ Ý º½º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Þ ÒÚµ ÑÜ º½º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ØÝ Ð ÐÝ Ñ Ü Û ÓØ º¾ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÛÝÒ º¾º½ ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÒ ÕÛÒ ÜÖ ÞÜ º¾º¾ ½½ º º º º º º º º º º º º º º º º º º º º º Ó Ô Ü Û Ð ØÝ Ü Û Ó Û ÜÒ Þ Ò ÓØ º ½½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÝØ Û ÜÒ º º½ ½¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÐÛ Û ÜÒ º º¾ ½¾ º º º º º º º º º º º º º º º º º º º º º º º Ñ Ü Û Ó Þ Õ Ô Õ Û Ø Ö Ó Ò º º ½¾ º º º º º º º º º Þ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ µ Kullback-Leibler Û ÜÒ º º ½¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º Ranksµ Ñ Û Ò Ñ ÝÜØ Ñ Õ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÕÔ ÞÒÜ Ô º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð ÚÖ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-grams Ø Ö º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÑÜ Ô º½º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Ý Ü Þ Þ Ý º½º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð Ò Õ Þ Þ Ý º½º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Þ ÒÚµ ÑÜ º½º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Ú ÛÐ ÔÛÐ ÓØ º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ü µ Ò Þ Þ ÚÛÔ Ø º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Entropy ØÐ º º½

½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Information Gain ØÐ º º¾ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Information Gain Ratio ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Gini Gain ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Train Error ØÐ º º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ÙÖ Þ Ô Ð ÑÞ Ü Ð º ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º classificationµ ØÝ ÕÐ ÑÞ Ü Ð º ½ Þ Ú Þ V ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ø Û µ Þ Ô Ý ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Þ Õ Õ Ý ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ñ Ü Û Ó Û ÜÒ Þ Ò ÓØ Ø Ö º½ ½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º n-gram Ø Ö º¾ ¾¼ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ý ÓÒ µ Ò Ð ÚÛ º ¾½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º overfitting¹ Þ ÛÖ º ¾½ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º recall, precision, F1 Ò º ¾¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ð ÚÖ ¾¾ º º º º º º º º º º º º º º º º º º º º º º º º Ü µ Ò Þ Þ ÚÛÔ ØÐ Õ n-gram Ø Ö º½ ¾ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º Ý ÓÒ µ Ò Ð ÚÛ º¾ ¾ ÞÖÐ Þ Ý Ò Þ ÔÛÕÒ Ó VI ¾ Þ Ü ÛÒ VII ¾ Þ Õ Õ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ VIII ¼ Ð ÚÖ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ IX

I ÛÐ Ò Þ Ô Ý Þ ØÝ ½¾¼¹Ò ÜÞ ÐÝ ÓÞ Þ Ð ÝÒÝÒ ÑÐ Ö Þ Ú ØÔ Þ Þ ÜÖÒÒ Þ Ô Ð Þ ØÐ Þ ØÝ ØÕ Ô Ó Ð Þ Õ Õ Þ Þ ¾ ÐÐ º ³ Þ ÐÕ Þ Ô ÒÜ Þ Ô Ò Üµ Þ Ô Ý Þ ØÝ Þ ØÝÒÒ ¹Ð ÜÔ Ý Ò Ý º ØÝÐ Þ ØÐ Þ Ñ Þ Ð Ö ÔÝ Ñ ÜÛ Ñ ÔÒ Õ µ Ñ Ò Ñ ÔÒ Õ Þ Ò ÕÒ Þ Ð ÓÞ Ô Ú Ñ Þ Ô Ð Þ Þ Þ ÕÛ ÓÞÔ ¹ ÞÜ Þ Ò ÞÔ ÔÖÒ Þ Ý Ö ÐÖÒ Þ Ø Þ Þ Ö ØÝ ÖÒ Ñ Ü Ñ ØÔÖ Ú Ô Û ÖÒ Þ Ý Þ ÔÝÐ Þ ÔÝÐ ÞÒ µ Ñ Ü Ñ Ò Þ Ø ÛÒ Ö Ñ Û Ü ÛÕÒ ÐÝ Þ ÔÝÐ Þ Õ ØÞ Ó Ð Ð Ô Ò Ð ºÞ Ü Þ Ü Þ Ð Ý ÐÖÒ Ý Ò Þ Ð Ñ Ò Ð ØÝ Ñ Ý Ü Ô Ô ÓØ ÞÒ Þ Ô Û Þ Ð Ý Þ Ö Þ ØÝ ÐÝ Ñ ÐÕÜ Ô Ð Ö ÞÒ Ñ Ü Ñ ÛÜØ Ñ Ý Ò Ý Ð Ý Ü Þ Ü Þ ÔÔ Ö Ý Ü Ð Ý Ð ÛÒ ºÑ Ð Ò ÐÝ Õ Õ Þ Ô º³ Ò Ñ ÜÞ Ð Þ Ó Ý Ü ÐÝ Ñ ÒÕÒ ÑÖ Ö ÕÛ Ý Ø Þ Ò ÝÒ Cryptanalysis ÐÝ Ñ Þ Ü ÖÐ Ð Þ Ô Ý Þ ØÝ Þ Þ ÐÝ Þ Ü Þ Þ Ô ÜØ Þ ØÝ Ó Ñ Ð Ñ ÕÛ ÐÝ ÔÖØ ÔØÚ Þ Ò ÝÒÒ ÛÐ Ñ Õ ÐÛ Ñ ÔØÚ ØÐ ÔØ Ú ÐÝÒе Ö Ò Ó º³ ÓÒØ Û ÞÒ µ Ö Ò ÐÝ Õ Û ÔÖ ØÒ ÒÕÒ ÞÒ ÖÐ Ü ÛÒ ÒÕÒ Ñ Õ Ø Ñ Þ Ý NLP¹ Ñ Þ Ý Ô¹ÞÞ µ Þ Ö ØÝ Þ Ö ÐÝ Þ ÝØ Ò ÕÜ Û ÕÖÞ ÔÐÝ Ö Þ Ý ØÝ Þ Ò ÓØ Þ Ð ÒÐÐ ÓÞ Ô Ó Ñ Ü Ü ÞÔ Ð Ò AI¹ ÑÐ Ö Ò Ó ÔÖÒ Þ Ô Ð Þ Þ Þ Þ Ô ÜÝ Ý ÜÒ Þ Ü Ò Þ ØÝ ÜØÕÒ ÐÝ Ó Ò Ó Ò Ó ÞÔ ÕÛ Þ ÔÒ Ü Þ ÜØÕ Þ ÔÒÜ Þ ÛÐ Þ Ý Þ ÔÐ Ø Þ Ü Ô Þ Ô Ô Þ Ü Ø Þ ÛÜ Þ Ð Ô Þ ÞØÜÚ Þ Ô Ð ÕÔÛ ÜØ Þ Þ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð ÐÝ Û ÜØ Ð Ò ÔÞ Ô Ý Õ Õ Ó ÖÜ ÐÝ Þ ÐÝ Ñ ÒÜ Ô µ Þ Þ Þ ÐÝ Þ Õ Þ Ý Ý ØÚÔ Ò Ð º ØÝ Þ Ô Ý Ñ Ð Ò Ü ÝÛ Ð Ò Õ Ð Ò Ý Ü ÞÒ ÕÒ Þ ÐÝ Þ Ý Ý Ó ØÝÐ ØÝÒ Ô Ý Þ Ñ ÒÜ µ Þ Þ Ü Ö ÐÐ Ñ Õ Ø Þ ÒÐÐ Þ ÕÔÐ Ô Ð Ó ÖÜ Ü Ð º Ö ÕÐ ÐÖ Ö Ð Ð ØÐ ØÝÐ Ñ Õ Ø Ñ Ô ÞÔ ÐÖ ÒÞÕ Ó ÞÔ ÕÛ ÐÝ ØÝ Þ Þ Ð Ð Ô Ñ Û Ð Ð ÖÐ Þ ØÝ ½ ¹Ò º ÔÒÐÝ 2010-2011 Ð ÔÝ ÜÒÞ ÓÜ Ò Ö Þ ÔÝ "Natural Language Detection" Ö ÑÖ Þ ÞÞ ÔÞ Ö Þ Ú Þ Þ Ü Þ Ð ÕÔÔ Ô Ý Ü Ú Ö Þ ÛÞÐ ÕÔÔ ÔÞ Ö º Ò Ò ÝÒ ÑÖ ÒÞ Ý Ö Ð ÔÐ Ö Õ Ý Þ Þ ÐÒ Ô Ñ ÞÒ Ñ Ü Ñ ØÕ Ô Ñ Ð Ý Ò Ý Þ Ý Þ Ü ÛÒ Þ Ü Ò Ý ¹ Þ Ô Ò ÒÐ Þ Ý Þ ÖÚÒ Ö Ð Ý Ô Ô Ô Ñ Þ Ü ÛÒ Þ Þ Ò ºÜÞ Þ Þ Ú ÞÐ Ð ÑÐ ºÓ Ò ÜÒ ÞÒ Þ ØÝ Õ Þ ÚÛÔ Ø Þ Ô Ð ÕÔÔ Ð ÚÖ Þ ÖÚÒ Ñ Õ Õ Ñ Ð Ð Ð Ð Ð Ð Ð Ý Ò ØÝ Ò Ñ ØÐ Ñ Ô Ø Ò ÞÜ Ó Ò Þ Ö ÞÝ Ó Þ Ò Ñ Ñ ÒÞ Ü Ð Þ ÐÒ Ø Ý Ü Ñ Ò Ý Ò Ý ÝÖÔ Ñ Ñ Õ Õ Ñ Ð Ð ÚÖ

Þ Ü ÛÒ Þ Ü Ò Ð ÖØ Ý Ð ÐÖ Ñ ØÕ Ô Ñ ÒÞÒ Ñ Ý Þ Ô ÖÜ Ð ÖØÔ Ð Õ Ô ºÝÒÞÝ Ð ÔÜ ÞÒ ÕÒ ØÝ Þ Ð ÕÔÔ Ð Þ ØÝ ÝÝ Ó Ü ÕÒ Ý Ñ ÛÒ Ý Õ ÞÒ ÝÒ Þ ÜÔ ÜÚÒ ÞÜ Ô Ü Ú Ò ÝÒ Þ ÕÒ Ó Ò Ý Òµ Ô Ð Þ ØÐ Þ Þ ÔÝ Þ ØÝ ÐÝ ÜÞ Ü Ó Ò ÞÒ º Ñ ØÕ Ô Ñ Ü Ñ Ü ÒÜØ Þ Ý Þ ÐÖ ÐÒ ÐÝ Ô ÚÜ Ü Ò Ô ÐÖ Þ Ô Ð Ò Ü ºPython3.0¹ Þ Ô Û ÜØ ÞÜ ÕÒ Û Ý NLTK ÞÒ µ Ý ÜÒ Ñ Ü Ò Ñ Ð ÐÖ ÕÕ Þ Ð Ô ÚÜ Ð Ô Ö ÑÞ Ñ ÜÒ ÐÖ Ñ ÒÞ Ü Ð Þ Þ README.txt Ù Û ÚÜ Þ Ü ÐÐ µ Ý Ô Û ÐÐ º ÔÐÝ Þ Ý Ò Þ Ò Þ Ð Ð Ñ Ð http://tinyurl.com/qda6f5h

II ÛÐ Ñ Þ Þ Ü ÝÛ Þ Ö ØÝ ÞÒ ÝÒ Ü Ö Ô ÔÞ Ö Ü ÚÐ ºÓ ÞÔ ÕÛ ÐÝ ØÝ ÞÒ ÝÒ ÖÚ Ð Ô Ö Ü Ò Þ Ò ÛÐ Ñ Ô Ø Ò ÞÜ Þ Ô Ò ÒÐ ÐÝ Þ Ô Ý Þ Ý Þ ÖÚÒ Ö Þ ÛÞÐ Ð ÔÝ ÝÒÞÝÔ Ñ ÜÝ Ñ ÔÝÐ Ñ Ô Ø Ò bigramsµ Ñ ÒÜ unigramsµ Ñ ÒÜ Ô ÐÝ Þ Ý Û Ô Ð Þ Ò ÛÐ º ÐÐ Ñ Ô Ø Ò ÐÖ ÒÞÕ Ý Þ Þ ÒÚ ÞÒ ÕÒ Þ ÞÖØ ÐÝ Þ Ü ÞÕ Þ ÚÒÔ ÜÒ Ð Þ Û Ô Þ ØÝ Ò Þ Þ ÐÝ Ñ ØÕ Ô Ñ Ô Ø Ò º Þ ÕÛ ØÝ ÐÖ Ò ÒÐÐ µ Ò ÐÝ Ð Ð Ô Ñ Û Ô ÞÒ ÕÒ ØÝ Ð Ò Ý Ü ÞÒ ÕÒ Þ ÞÖØ Þ ÝÐ Þ Õ Þ ÐÐ ¹ Þ Ü ÛÒ Ö Õ Þ Ð Ñ Ð ¹ Ó ÔÝ º³ Þ Ð Ô Ü Ô Þ ÛÐ Ý Ð Ò Õ Þ ÐÝÒе Ð Ò Õ Ñ ÜÛ Ñ ÔÝÐ Ö ÜÛ Ô Ö ÑÛРݵ ÐÐ Ñ Ô Ø Ò Þ ÒÐÐ ÕÔÔ ÔÝÐ ÞÖ Ñ ÞÒ Ô Ý Ó Ñ Ü Û Þ Ý µ ÝØ Þ Õ Õ Û Ü ÚÐ Ó Ñ ÝÒÞÝÔ Ò ÓØ NLP¹ Ñ Þ ÞÜ ÕÒ º ³ information gain Ø Ü Ô ÞÒ µ Þ Ô Ý Ü Þ ÚÛÔ Ø Ý Ò Ý Þ Ð ÚÖ Þ Ô Ü ÚÐ ÐÝ Þ Ü Þ ØÕ Ô Þ Ý ÝÒÞÝÔ Þ Ü ÛÒ Ö Ý Ò Ý ÝÖÔ Ó Þ ÞÒ Þ Ü Þ Ð ÕÔÔ Ö ÞÒÜ Ô Ý Ò Ý Ö Ü Ö Ð ÛÞ Ý Þ Ú Þ Þ ÜØÝÐ ÓÞ Ô Ñ Û Ô Ò Ð ºÞ Ü ÛÒ Ö Û Ô ÐÝ Ø Õ º³ Kullback-Leibler Û ÜÒ ÞÒ Ñ ØÕ Ô Ñ Ð Ý Ò Ý Ñ Ò Þ ØÝ Þ Ý ÑÝÐ ÕÔ Ñ Û ÐÝ Õ ÞÜ Ú Þ Þ ÐÒ Ô Ñ ÞÒ Ñ Ð ÞÐÖØ Þ ÜÞ Þ Þ Ú ÞÐ Ö Ð ÚÜÔ Ü ºÓ Ò ÜÒ ÒÕ ÐÖ ÒÐ Ý Ñ Õ Ø ÕÛ Þ Þ ÜÒ Ñ Ð Ò Ý Ø Ö Þ Ð Ð Þ Ó ÞÔ ÕÛ ØÝ Ð Þ Ô Ü Ü Ö Ó Ð Ò Û ÞÐ ÜÒ Ð µ Þ ÒÞÔ Þ ØÝ Ò Ñ Ð Ò Ð Þ Ð Ð Ý Ö Ö Ò Ü Ò Û Ô Þ ÑÖ º ÜÛ ØÝ Þ Ü Ð Ó ÞÔ ÕÛ Ñ Ð Ò Ò ÝØ Ð Þ ÒÞÔ Þ ØÝ Ò Þ ØÝ Ò Ü Öµ Ý Ñ ÚÖ Ö Ò Ü Ò Ý Ø ÝÒ Ñ ÛÒ ÞÔ Ò ÜÛ Ò Ý Ô Ó ÜÞØ ÞÜ Þ Ý ÐÝ Ô ÝÒÞÝ Ð Ð ÜÝØ Ü Ø Ý ºÞ Ð Ö Þ ÒÜ Ü Ú Ö ØÝ Ò Ò Ü Þ Ð ÝÖ Ô ÜÚÛ ÞÐÖ Ò Þ ØÝ Ð Ñ Ð Ò Þ Ý Þ ÐØÞ Ý ½ Ü Ý Ø ³ Ü ³ ÚÒÜ ØÔ Ñ Ð Ò ½¼¼¹ Õ Ø ÕÛ Ñ ÖØ Ò Ò 25%¹ Þ Õ Ò Þ Ð Ô ÜÞ Þ Ú ØÔ Ñ Ð Ò ½¼ ÐÝÒÐ Ü Ð Ð Ý ÑÚÒ ÚÒ Ü ÒÐ Ü Ò Ü Ò Þ ÑÚÒÚÐ ÓÞ Ô ÜÒ Ð ºÑ ÖØ Ò Ò 45%¹ Þ Õ Ò Ü Þ Ú ØÔ Þ Þ Ô Ø ÒÝ Þ Ü Ý Û Þ Ð Ò Þ ØÝ Ò Þ Ú ØÔ Ñ Ð Ò Þ Ò µ Þ ÜÝÖ Ò ÐÝ Ò ÝÜ Ô ¹ Ñ ÛÒ Þ Ø Þ Þ ÖÒÝÒ Þ Ü Ú Þ ÕÒ Þ Ø Þ Þ ÖÒÝÒ Ý ÐÖ ¹ Ý ÒÐ ÑÐ º ØÝ Ñ Ð Ò Þ Ð ÚÜÔÝ Ñ ÜÛÒ Þ Ý Ò Ý Þ Ð Ò ÜÞ Þ Þ ÐÒ Ô ÞÔ Ò ÞÔ ÔÖÒ ÞÒ ÞÜ Ü ÚÒÐ ÚÜÔÝ Ó Ò ºÞ Ú ØÔ Ò Ñ Ð Ò Õ Þ Ð Ò ÐÐ ÐÝ Ñ Ð Ò ÜØÕÒ ÐÝ ÚÜ Þ Þ Ü ÞÕ Ó ÞÔ ÕÛ ÐÝ ØÝ Þ Ý ÕÒ ØÐ Þ Ô Ð Ó ÞÔ Ó Ò ÜÒ ÐÖ ÒÞÕ Ð Ð ÞÝ º Ý Þ Ñ ÜÚÛ Ô ÔÞ Ö Þ ÑÖ ºÓÞ Ô Ð ¹ Ð Ò ÕÜ Û Ñ ÔÜ ÐÖ ØÝ ÞÒ ÝÒ Ó ÜÞ ØÐ ÜÞ ÞÔ ÔÖÒ Þ Ö Ü ÒÐ ÐÖ Ñ ÕÕ ÞÒÝ Ñ Ð Ñ Google Translate ÞÒ NLP¹ Ñ Þ Ñ Ü Ñ Ò Ñ Ð ºÞ Ý Þ ÔÝÐ Ñ Ú Ü Ô Ô Ó Ñ Ð Þ Ý Þ ÔÝÐ Ñ Þ Ñ Ü Ñ ÜÛ Ò Ó Ò ºÞ Û Õ Õ ÐÖ ÒÐ ºÖ Ð Ð Ô Þ Ú Þ Ð Ð ¹ Ó Ò Ó ØÔ Ü Ö ¹ Û Ð ÝÒ Ð George K. Zipf (1949), Human Behavior and the Principle of Least Effort, Addison-Wesley. ½

III ÛÐ Ó Ò ÜÒ Ð Ó Ò ÜÒ Ð Ñ Ô ÞÔ Õ Þ Þ ÖÒÝÒ Ò Þ Ð ÜØÕÒ Ð ÛÐ ÔÚÐ Ô Ò ÝÒ ÑÖ ÒÞ Ð Ô Þ ØÝ ÞÜ ½ ÞÒ Öе Þ Ð Ð ÔÝ Þ ØÝ ÜØÕÒ Þ ÞÜ Ô Ü Ú Ð Ð Ô ÒÚÖÐ Ô Ú Ý Ñ Ü ÛÒ Ñ Ö ÐÖ Ò Ö ØÝÒ Ó Ý Ò Þ Þ ÖÒÝÒ ÓÞ Þ ØÝ Þ Ò ÞÜ º Þ Ü ÛÒ Ö Þ ØÝ ÝÝ Þ Ý Þ Þ Õ Ð Ð ÐÖ Ü ÔÝ ØÝ Ð Ò ÜÞ ºÓ Ò ÜÒ ØÔ ÐÖ Ñ Ò ÞÜ Ô Ü Õ Ð Ð Ð ÔÝ ÚÒ Ð ÞÒ ÝÒ ÐÖ ÐÛ Ð Ð ÚÒÝ Ò Þ Ý å ÞÒ µ Ð Þ Ý ÜÒ Ð ÙÖ Ð Þ Þ Þ ÖÒÝÒ Ü Ú Ð Ð Ñ ÒÜ Ò Ü Ò µ Ñ ÒÜ Ô Þ Ò Þ ÞÜ Ô Ü Ú ¹ ÜÛ Ö Þ Ô ÞØÕ Ô Þ ÜÝØ Ö º ÔÜÚ Ý Ñ Ú Û Ð Þ Ú Ü ÝÒ Þ Þ ÒÜ Ü Ú Ü Ð ¹ Þ ØÝ Ó Ó Ò Ü ÝÛ ÞÜ Ö ºÜÞ Þ ÕÒ Þ Ð Ð ÐÖ ÜÞ Þ Û Þ ØÝ Ó Ò ÜÒ Þ Ý Ð Þ ÐÝ Ø Õ º Ð ÐÖ Þ ÝÛ Ð Ð Ý Ò Þ Ò Ò Þ ØÝ Ó Þ ÔÐ ÕÔÛ ÜØ Ò Ð ÔØÕ Ó Ð Þ Ü ÛÒ Ö Ò Þ ØÝ Þ Þ ÐÐ Ý Ð ÖÐ Ü ØÝ Þ ØÝ ½ Þ Ü Ð Ô Ð Ý Þ ØÝÒÒ Þ ØÝ Þ Ô Ð Þ ÛÐ Ò Ðµ Þ ÝÒ Ü Õ Ü ÛÒ Þ ÐÖ Þ Ò Þ ØÝ ¹ Þ Ô ÔÖÒ Þ ØÝ º ³ Þ ÐÕ ØÝ Þ ÔÐ Ø Þ Ô ÒÜ ØÝ Þ Ý Þ Ô Ò Ü ØÝ Þ ÔÒ Ü ÐÝÒе Þ Ô Ý Þ ØÝ Ó Ò ÜÒ Ð Ø Ñ ÕÛ Ü ÛÒ ¾ ÕÛ ÞØÝ Þ Þ Ð Þ ÜÝØ ÞÝ Û ÜØ Þ Ý Ü ÔÒÚÖ ÔØ Ô Ú Ý Þ Ý Þ Ü Ò Þ Ü ÛÒ Ü Ò º ÔÜ Ô Ð Ø Û ÜÖ Ü Ý ÜØÕ Ó Þ ÖÒ ÛÐ Ñ ¹ Ü ÛÒÐ ÜÝÛ ÐÐ Ñ Ð Ò Ü Ñ ØÝÒ Ü Þ Þ Þ ÐØÞ ÐÖ Ñ Ð Ò ÜÚ ÐÖ Ò Ö ØÝ Ð Ñ Ð Õ ÕÛ ºÑ Ô Ý ØÝ ÐÝÒ ÜÞ Ý Ò Ñ Õ ÒÝ Ñ Ô Ý Þ Ü ÛÒÒ Ó Ò ÜÒ Ý Ð ÔÐ Ý Ñ ÝÒÞÝÒ Ó ¹ ÜÒ ÝÒÞÝ Ð Ô ÚÜ Ð Þ Ú Þ Þ Þ Ð Ð Ý Ñ ÜÛ Ñ ÕÛ ÐÖ ÜÝØÞ Ð Ô ÚÜ Ð Õ Ô Ó Ý Ð ÐÛÝ Þ Ý Ô Þ ØÝ Ñ ¹ Þ ØÝ Ó Ò Ò Û ÒÜ ÓÞ Ô Ð Þ Ó Ò Ó Ò Þ ÛÜ Þ Ô Ô ÞÒ µ Ó Ñ Ý Ô Þ Ø Ñ ÜÒ Ý Þ ØÝ Ñ Þ ÞØÜÚ Þ ÔÒÜ Þ Ð Ô ÞÒ µ Ñ ÜÒ Ü Ð º ÐÐ Þ ØÝ Þ Ñ Ü Ð Ô Ô Þ Ñ ÜÒ Þ Þ ÜÖ Ð ÝÛ ÔÐ Õ Ô º ÕÔÛ ÜØ ÞÜ Ü Ò Þ Ý Ð ÜÞ Ü ÛÒ Ô ÚÒ Ñ ÕÛ ÐÝ Ò Ü Ó Ò Ý Ø Û ÒÖÒ Û Ü Õ ÔØ ÜØÕµ Þ Ô Ý Þ Ü ÛÒ Ñ ÜØÕ ÞÜ ÐÖ ÔØÛ ºÞÝÜ Þ ØÝ Ó Ò Ñ Ô Ü ÛÐ Ñ ÜØÕ ºÑ Ô Ý ØÝ ÐÝÒ ÐÖ ÖÚ ÞÞ ÒÐ Ý Ô ³ Ü Ý ÔÝÝ Ü Ò Ñ Ð Ò ÝÒ Þ ØÐ ÐÐ Ý Ñ ØÝÒ Þ ÛÜ ÔÜÒÝ Ñ ØÝÒÐ ÔÛÜ Ø Ñ Ô Ý Ñ ÕÛ Þ ØÝÐ Ò Ý Ó Ò Ð Ø ÜØ Ñ ØÐ Ý Ð Ð ÔÝ Þ Þ Û ØÕÒ Ñ Ð Ò Ð ÜÞ Ñ ÜÚÛ Ñ ØÝÒÝ Þ Þ Ð Þ Ô Ø Õ Ô ºÑ Ô Ý Ñ ØÝÒ ¾¼¼¼ Þ ØÐ Ð Ð ØÝ Ð Ó Ò ÜÒ Ý Ð Ô º ÝÐ ºlower case¹ð Ü Ö º Ø Û ¹ Þ Ð Þ Ô Ý Ü ÛÒÒ Û Þ Ô ÛÐ ÓÞ Ô Ð Ó Ò ÒÚÖ Ó Ò ÜÒ Ý ØÝ ÞÛ Ô ØÝ Ý Ô Ò ÐÝ ÚÜ ØÝ µ Ø Û ÜÖÒ Ñ ØÝÒ ÐÐ Ó Ò ÜÒ ØÝ Ð Þ ÒÝ ÐÐ Ð ÐÝÒе Þ Ü Þ ØÝ Ö Ò Ò ÖÒ Ð Ð Ó Ò ÑÝ Ö Ò Ý Ý Ò ÞÒ Þ ÒÝÜ ÔÝÒÞÝ Þ ÜØÕ Ü Ö ÐÝÒÐ º ØÝ Þ Ñ Ý Ò Ñ Ô Ò Ð Þ Ð Ô Ñ Ü Ñ ÖÒ Ñ Ô Ò º Û ÜØ Ñ Ü ÜÖ ÔÝÒÞÝ ÕÔÛ ÜØ Ü Ö ÜØÕ ÜÖ

Ñ ÜÛ Ñ ÔÒ Õ Ð Ø ºÞ Ð Ô Ò ÔÐ Þ Ü Ò Þ Þ ¾ ¹Ð Ü ÖÒ Þ ØÕ Ô Þ Þ Þ Ò Û Þ Ô Ð Þ Þ Þ Þ Ô Þ ØÝ Ò Þ Ü Ð Ò ÐÝ ÓØ ÐÖ Ñ Ö ØÝÒ Ñ ØÜ ÞÜ Ñ ÔÒ Õ Ñ Ñ ÜÛ Ñ ÔÒ Õ Ñ ÜÛÔ Ð Ñ ÔÒ Õ ă á ä Þ Ð Ð a Þ Ò Ð º Ð Ü Þ Ð Þ ÞÒ ÐÖÒ ÝÐ ÓÒ Õ ÞØÕ Ö Ð ÛÞ Ñ ÐÝ Þ ÖÒÝÒ Þ Ñ Ð Ð Ò ÐÝ Þ Þ ÔÝÐ ÛÜ Ð Ð ÜÛ ÓÒ Õ Ý Ò Ý ÜÝ ³ ǎ º Ü schon Ð Ò Þ ÖÒÝÒ Ö Ø schön Ð Ò Þ ÖÒÝÒ Þ ÔÒÜ ØÝ ÐÝÒе ÐÖ Þ ÝÛ Ð µ ÐÛ Ð Û ÜØ ÐÖ Þ Þ ÖÒÝÒ Ü Ú Ö ØÝ Ð Ð Ñ ÜÛ Ñ ÔÒ Õ Ü Ð Ñ ÔÒ Õ ÜÖ Ö Þ ÔÒÜ ÞÛ Ô ØÝ Ý ÐÖ ÞÛ Ò Ü Ú ÖÞ ß Þ ÐÝÒÐ º ØÝ Ô Ó Ö Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Õ Ð Ñ Ú Ü Ô Ý Ô Þ ÑÖ ºÞ Ð Ô ÐÖ ÒÜÒ Ñ ÜÛ Ð Ü a¹ð ä Ø Ð ÐÝÒе Þ Þ Ð ÜÒ ÞÐ ÝÒÞÝ Ð ÓÞ Ô ¹ Þ Þ ÝÖÐ Ú Ö Ü Ð Ñ ÝÜÔ º ÐÐ Ñ ÔÒ Õ Ò Ð Ð ÑÐÖÞ Ð Ð Ø Þ ÔÒÜ ÔÝ Ø ss¹ð ß ae¹ð ä Ø Ð ÐÝÒе Þ Þ ÞÝÐ Ý Ò Ý Ñ Ý Ö Ô Ô Ñ Ñ Ü Û ÐÐ ÐÖ Þ ÐØÞ ÐÖ ÞÜ Ô Ü Ú Ö ØÝ Ð Ð Ý Ó Û Þ Ð Ü Ò Þ ÔÝÐ Ô Ò ÜÖ ÞÜÕ Ñ ÜÛ Ñ ÔÒ Õ ÐÝ ÜÕ Ð Ü ÖÒ º Û ÜØ Þ Ú Þ Þ Þ ÔÝÐ ºÑ Ð Ò Ñ ÚÒÒ ØÝ Þ Ó Ð Ð Ñ ÔÝÒ Ô Ô Ó Ý Û Ð Ô Ð Þ Ý Þ ÔÝÐ Ñ ÞÒ Ñ ÜÛ Ñ ÔÝÐ ÜØÕÒ ÑÖ Þ ÚÖ Þ ÐÐ Ý ¹ Ñ Ü Ñ Ð Ü Ð ¹ÜÛ Ñ ÔÒ Õ ÞÜÕ ÜÝ Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Ñ ÜÛ Ñ ÔÒ Õ ÑÖ Ñ ÔØ ÔÝ Þ Ú Þ Þ NFD (Normalization Form ÒÜ Ø Ý Ò Ý Ó ³Þ Ø ÐÝ unicodedata Þ ÜØÕ Ý Ò Ý Þ ÖÚ Þ Ñ ÐÖ Ò Ñ ÐÛÒ Ñ ÜÛ Ñ ÔÒ Õ ØÐµ ÔÐÝ ÜÖÝ Þ Û Ð Ð Ô ºCanonical Decomposition) ºÑ ÜÛ Ñ ÔÒ Õ Þ Ü Õ Ý Þ Ü ÛÒ ÖÐ ÔÞ Ö Þ Ú Þ Þ Þ Ý Ð Ð Ô Ó ØÝ

IV ÛÐ Ñ ÒÞ Ü Ð Ý Þ ÜÚÛ Û Ð Ñ ÔÜ ÑÐ Ð ÚÖ Þ Õ Õ Ý ÐÖ Ý ÔÒÝ ÔÞ Ö Ü Ò º Ø Û ÐÖ ÞÕÕ ÞÒÝ Þ Ô Ø Û ¹ Þ Ô Ý ÜÕ µ Ó Ý Ò Ý Þ Ý ØÐ ÝÐ Þ Ö ØÝ Ñ Ð Ò Þ ÜÔ Ñ ØÐ Ü ØÒ Û Ø Û 1 i ¹Ð Þ ÐÔ ÚÜØ ÜØÝ Þ Ü Þ ÞÐÖ i¹ Ð Ò ÚÒÔ Ü Þ Ý occurances(w i ) = K i º ÝÐ Ö Û K¹ Þ Ü Þ i¹ Ð Ò ÐÝ Þ ÖØ ÜØÕÒ occurances(w i ) ÜÝ ÒÐ Ó Ó Ó Ý Þ Þ ÐÒ Ô ÞÔ Ò ÞÔ ÔÖÒ ÞÒ Ô Þ Ô Ý Ò ÛÐ Ü Ò Ð Ý ÔÝ Ü Õ Þ ÛÔ Þ Ð Ó ÔÐ Ô ÚÒ Þ ÑÖ ºÑ Ð Ò ÞÒ ÝÜ ÝØ Ý Ø Ð º Ý Þ Ü Ð Ð Ò Ò ÓØ ØÝ ÞÒ ÝÒ ÐÖ Ü Ð Ó Ô Ó Ò Ü Ð Þ Ô Ð ÖÒе Þ Û Ô Þ ØÝ Ò ÜÞ Þ Ú ØÔ Ñ Ð Ò ÞÒ ÝÜ Þ Ô Ü Ó Ý Ü ÐÝ Ð Ò Ð ÐÖ ÔÚÜ ÞÖ ºx {10,20,50,100,500,1000} ÜÝ ØÝ Ð Þ Ú ØÔ Ñ Ð Ò x Þ ÛÜ Ô Ú Ý Ð Ü Ü ØÕµ Ô Ö Þ ÝÐ Ñ Þ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Þ ÔÝØ Ó Ô ÕÛ Þ Ú ØÔ Ñ Ð Ò ÞÒ ÝÜ Ö Ø Ð Ò ÜÝ Û Ôµ Ð ÒÐ ÝÐ Û Ô ÔÞÔ Borda Count Þ Ò Ñ Ð Ò ÞÒ ÝÜÒ Ñ Ð Ò ÜÞ Ý Ó Ò Ù Û Ý Ð Ý Ó ÖÜ º ÑÝ Ö Ø Ð ÜÝ Ð ÐÝ Û Ô Þ Ü ÐÝ Ø Õ ÔÜ ØÐ º ØÝ Þ Þ ÕÛ Ý Ñ Õ Ñ Ð ÝÐ ØÝ Þ Ú ØÔ ºÜÞ Ó Ú Ð ÛÞ Ü Ö ØÝ Û Ô Þ Ý ÞÝ Ñ Ô Ö Ü Ò Ð Ü Ü ØÕ º½ Ó Ú Ð Û ÑÝ Ö Ø Ð Ò Ñ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Ó Ô ÕÛ Ð Ò Ð ÔÝØ ÜÛÒ Ó Ò Ù Û Ö Ø Ý Ñ Ð Ò Ò ÐÝ Û Ô Þ ÔÒ Õ Ü ÖÒ ÐÝ Ø Õ º 1 Ó Ú Ð Û ÞÜ ½ ºÜÞ Û Ô Ð ÛÞ Ü Ö ØÝ Þ ÔÜ Borda Count Þ Ý º¾ i Þ Ü Þ Ù Û Ö Ø Ð Ò Ñ ºÞ Ú ØÔ Ñ Ð Ò x ÞÒ ÝÜ Ó Ô ÕÛ Ð Ò Ð ÔÝØ ÜÛÒ Ý Û Ô ÜÞ Ð Ò Þ Ü ÞÝ Ð ÜÒ Ð µ x i Ó Ú Ð Û Þ Ú ØÔ Ñ Ð Ò x ÞÒµ Ñ Ð Ò Ò ÐÝ Û Ô Þ ÔÒ Õ Ü ÖÒ ÐÝ Ø Õ º 1 Ó Ú Ð Û ÞÜ ÜÞ Ð ÛÞ Û Ô Þ ÝÐ ÐÔ ÚÜ ºÜÞ Û Ô Ð ÛÞ Ü Ö ØÝ Þ ÔÜ Ó Ò Ù Û Ö Ø Ý Ü Ú Þ ÖÒ Ó Ð ÜÞ Þ Ü Þ Ó Ó Ø ÐÝ ÞÔ Ø ÖÝ ØÝ ÜÞ Þ Ú ØÔ Ñ Ð ÒÐ Þ Ø Ö ÞÞÐ Ð Ò Ý ØÝ Þ ÖÔ Ó Ð Þ ØÝ ÜØÕÒ Ö Ø Ò ÞÒ ÕÒ Ð ÒÝ Ó Þ Õ Ô º ØÝÐ Þ Ý ÐÖ ÜÞ º Ú ØÔ ÜÞ

Þ Õ Õ Ý ¹ÒÜØ Ø Ö Ñ Ü Û Ð ÑÞ Ø Ó Ò ÜÒ Þ Ô Þ Þ Ô Ý Þ ØÝ Ñ Ü Ñ Õ Ø ÔÒÐ Ý ÞÜ ÕÒ Õ Ø Ü Û Ð Ô ØÝ Ð Þ Ô Ý Þ Ò Ò Ð ÛÞ Ý Ñ Ô Ý Ñ Ü Û Þ ºÑ Ô Ý Ñ Ü ÞÒ ÝÒ ºÜ Û ÔÒÒ Ñ ÔÜÚ Ó Ò ÜÒ ÐÝ Ò Þ Ô ÔÖÚ Ó Ò Ü Ð º ØÝ Þ Þ Ú Ò ¹ Ø Ü Û Ó Ð Ó Ò ÜÒ Þ Ú Òݵ Ð ÛÞ Ý Ü Û Ó Ý Ð Ò Ü Þ Ñ ØÝ Þ ÝÒ ÜÔ Ó ÐÖ Þ Ô Ý Þ Ý µ ÔÒ classification¹ ÐÝ Ó ºÞ Û Ô Þ ØÝ Ò ÐÝ Õ Õ Ø Ý ØÝ Þ ÔÜ Þ ØÝ ÐÝ Ñ Ú Ñ Ü Û Ò Ó Ð Û Ô Ü Û Ó Û ÜÒ ºÓ Ò ÜÒ Ð ÜÞ Ò ÓØ ÓØ Ò ÐÝ Þ ÜÛ ÐØ Ò ºÞ Ô Ý Ñ Ü ÜØÕÒ ÖÚ Þ Ð ÖÐ Ü ÞÝ Ð Þ ÐÝ Ð Þ Ô Ý Ð Þ ÐÝ Ø Õ ºÝÛ Ò ÕÛ Ð Ü Ö Þ Ô Ý Þ Û Ò Ü ÞÒ ÞÕÒ Û ÜÒ Þ Ò ÓÞ Ô Ñ Ò Ò Ò Ö ÛÐ Ð ÔÝ Ñ Ò Ø Ö ÔÚ Û Þ Þ Ò ØÝÐ Ô Ñ Ø Ü Ú Ò Ý Ú Þ ºÜÞ Ó Ô Ü Û Þ Ó Û ÜÒ Þ Ò ÓØ Ñ Ü Û ÓØ Ñ ÔÒ Õ n-gram Ó Ô Ü Û Ð ØÝ Ü Û ØÝ Ð ÐÝ Ñ ÜÛ ÝØ Û ÜÒ ÐÛÝÒ ÑÖ Þ Þ Ýµ ÑÜ Ô ÐÛ Û ÜÒ ÐÒ ÕÛÒ ÜÖ ÞÜ ÐÐ Ý Ü Þ Þ Ý Ð Ò Þ Õ Ô Õ Û Ø Ö Ó Ò Õ Þ Þ Ý Ð Ò Ü Ò Õ¹ Ð Kullback-Leibler Û ÜÒ Ü Ò Õ Kullback-Leibler Û ÜÒ Ñ Û Ò Ñ ÝÜØ Ñ Õ ÕÔ ÞÒÜ Ô Þ Þ ÒÚµ ÑÜ Þ Õ Õ Ý Ñ Þ ½ Ð n-grams Ø Ö º½ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð Ð ØÐ Ô ÐÖ Ñ ÔÖÝÔ ÔÝÒÞÝ Ñ Ñ Ô Ý Ñ Ò ØÝ Þ Ô Ý Ñ Ð Ò Þ Þ ÑÜ Ô º½º½ ØÝ Þ Þ Ð ÐÝ Þ Õ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ð Ò Ý Ü Þ Þ Ý º½º¾ Ô Ý Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ñ Ð Ò

Ð Ò Õ Þ Þ Ý º½º Ñ Ð Ò Ô Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Þ Þ ÒÚµ ÑÜ º½º ÜÒ Ò Ñ Ð Ò Þ Þ ÐÝ Þ ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ØÝ Ð ÐÝ Ñ Ü Û ÓØ º¾ Ð ÛÞ Ý Ñ Ü Û ÐÐ Þ ÐÐÛÝÐ Ô ÐÖ Þ Û Ô Þ ØÝ Ò Ü Ö Õ Ø Ü Û Ý Ð Ð ÔÝ Þ Ñ Ü Û Ð Ò Ñ Ô Ø Ò Ð Þ ÐÐ Ý Ü Û Ð ØÝ Þ Ñ Ô Ý Ó Ò ÜÒ Ü Ö Ñ Ü ÞÝ Þ Þ ÝÖÐ ÔÜ Ó Ð Þ Ú Þ ÐÖ Ö ØÝ Ð ÝÖ Ð Ð ÐÛÝ ÓØ º ØÝ ÐÛÝÒ º¾º½ Õ ÐÛÝÒ Ñ Ü Û x ÞÒ ÕÒ ØÝ Ü Ö Ñ Ñ Ü Û Ò Ð ÓÞ ÔÝ Õ ÐÛÝÒ Ü º 1 x Ñ Ò ÐÝ v 2 = (0.5,0,0.3,0.2)¹ v 1 = (0.3,0.2,0.1,0.4) Ñ Ü Û Þ Ñ Ð ÛÒ Ô ÞÒ ÕÒ ØÝ Ü Ö Ñ Ò Ð ºv = (0.4,0.1,0.2,0.3) ÐÐÛ ÝÒ Ü Û i Þ ÐÝ Þ Õ Þ Ý Þ Þ Ú Òi¹ Ô Ü Û ÜÝ µ ÐÒ ÕÛÒ ÜÖ ÞÜ º¾º¾ ºÞ Ý Þ ÔÐÒÜÔ Ó Ò Ü Ð Ñ Ü Û Ð ÐÝ Þ ÐÒ ÕÛÒ Þ Ý Þ Ó Ø Ò Ð Ü Ö ÔÜ Ü v 2 = (0.5,0,0.3,0.2)¹ v 1 = (0.3,0.2,0.1,0.4) Ñ Ü Û Þ Ñ Ð ÛÒ Ô ÞÒ ÕÒ ØÝ Ü Ö Ñ Ò Ð v = Ð ÒÜÔ ÔØÐ ÐÐÛ ÝÒ Ü Û i Þ ÐÝ Þ Õ Þ Ý Þ Þ Ú Ò i¹ Ô Ü Û ÜÝ µ ºv = 1 1.4 (0.5,0.2,0.3,0.4)= ( 5 14, 2 14, 3 14, ) 4 14 Ó Ò Ü Ð (0.5,0.2,0.3,0.4) Ó Ô Ü Û Ð ØÝ Ü Û Ó Û ÜÒ Þ Ò ÓØ º ºÓ Ò ÜÒ Þ Ú ÒÝ Ü Û Ñ Ò Þ ØÝ Ò Þ ÐØÞ Þ Ú ÒÝ Õ Ø Ü Û Ô Ý ÞÖ Ò Ý Ü Û Þ ÚÒÔÝ Þ ØÝ Ò ÐÝ Ú Ò Ü Û Ð Ó Ò Ü Û Ó Ý ÞÐ ÖØ ÖÚ Ð ÔÔ ÚÜ Ü Û Þ ÚÒ ºÜ Û Þ Ö Þ Ú ÒÝ ØÝ Ó Ò ÜÒ ÐÝ ØÝ Ý Ô Ó Ò ÜÒ Ð ÜÞ Ó Ò Ü Û Ó Ð Ô Û ÜÒ Ü Ö Ü Û Þ ÚÒ Ö ÞÝÖÔ Ó Ò Ü Û Ð ÜÞ Ò ØÝ ÞÜ ºÑ Ü Û ÔÝ Ó Û ÜÒ Þ ÜÖ Ð Ð Ô Ú Þ Þ Þ Ò Ð Ý ºÑ Ü Û ÐÐ Ó Ò ÐÒ Ô Ò ÝÒÞÝ µ Þ ÝÒ ÜÞ ÔÝÒÞÝ Ó Ð Þ Ø Õ Þ Ú Þ ÐÖ Ò Ö ØÝ Ð Ð Ý Ü º Þ Ü ÛÒ Ö ÔÒÐÝ ØÝ Ü Û Þ P = (P 1,...,P n ) Ü Þ Ó Ò Ü Û Þ ÓÒÕÔ Ñ Ñ Ø ÖÕ Ð Þ Ô ÑÝÐ Þ Ñ Ú Ò Ñ Ý Þ ÜÒе Ô Ý Ñ Ü Û Ñ Ü ÜØÕÒÝ Ó Þ Ý Ð Ñ ÝÔ ºQ = (Q 1,...,Q m ) Ü Þ P ¹Ð ÔØÕ Ý Û ÑÖ ÒÞ Ð º Ó Ò ÜÒ Ó Ò ÜÒ Ñ ÐÞ Ñ Ü Û Ó Ý ¹ ØÝ Þ Ó Ý ÔÐ Û º¼ ÐÛÝÒ Ñ Ð ÔÞÔ ÔÝ Ü Û Ñ Ö Ø Ò Ó Ð Ñ Ñ Ö Ø Ò ÐÝ Ñ Ü Þ Q¹Ð ºx max(m,n) ÜÝ x Ð Ñ Ü Û Ñ Q Ó P ÝØ Û ÜÒ º º½ ÔÝ Ó Û ÜÒ Ý ÚÜÔ Ü Ò º x i=1 P i Q i Õ Ô Ö Ó ÞÔ Q¹ P Ñ Ü Û Ó Û ÜÒ Ý Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÝØ Ð Ó Û Ñ Ü Û

ºÑ Ò Ô ÒÐ ÔÝ Ó Û ÜÒ Ý ÚÜÔ Ü Ò º x i=1 (P i Q i ) 2 Õ Ô Ö Ó ÞÔ Q¹ P Ñ Ü Û Ó Û ÜÒ Ý Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÝØ Ð Ó Û Ñ Ü Û ÐÛ Û ÜÒ º º¾ ºÑ Ò Ô ÒÐ Ñ Ü Û Ó Þ Õ Ô Õ Û Ø Ö Ó Ò º º Ñ ÔÝ Ó Þ Õ Ô Õ Û Ø Ö Ñ Ô Ó Ò Þ ÒÐ ÓÞ Ô Ü Ý Ò Ñ Ò Ò¹ Ñ Ü Û ÓÞÔ cos(α β) = cos(α) cos(β)+sin(α) sin(β) = = P 1 P 2 1 +P2 2 P Q P Q Q 1 P 2 + Q 2 1 +Q 2 2 P 2 1 +P2 2 Q 2 Q 2 1 +Q 2 2 x i=1pi Qi x i=1 P2 x i i=1 Q2 i Ò Ò¹x Ü Û Ð Þ ÐÐ Õ Ô ÜÒ Ð Þ Ñ Ü Û ÔÝ Ó Þ Ý Ð Ó Ýµ ÜÝØ Ð Ô Û Þ Ñ Ü Û ÔÝ Ó Þ Ý ÚÜÔ Ü Ò Þ Ò Qµ ÐÝ Ú Ü Û Ý Þ ØÝ ÜÞ Ð Ñ Ô Ð ÜÞ Ð ºÑ Ò Ô ÒÐ Ð Ô Þ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ µ Kullback-Leibler Û ÜÒ º º ( ) Pi Q Õ Ô Õ Ö Ñ Ü Û ÔÝ Ó Ð Þ Ú Ò Ò i ºD KL (P,Q) = x i=1 P i log D KL (P,Q) Ñ ÛÞÒµ Ü Ò Õ Ð ÐÝ ÝØ ÕÜ Ü Ò Õ ÐÛ Ò Ð Ò Ð Þ Õ ÐÛ ÞÕÜ KL Û ÜÒ Ý ÔÛØÞÕ Ð ÜÝØ Ý Û ÑÖ ÒÞ Ð º D KL (Q,P) Ñ Ü Û ÔÝÐ Ý Õ ÓÞ ÔÝ Ü Ò Õ KL Ò Ñ ÔÝÒÞÝ D Symmetric KL = 1 2 (D KL(P,Q)+D KL (Q,P)) Þ ØÝ Ó Ð ÜÝØ Ð Ó Û Ñ Ü Û ÔÝ Ó Û ÜÒ Ý ÚÜÔ Þ Ý ÞÝÒ ºÑ Ò Ô ÒÐ Ð Ô Þ Ò Qµ ÐÝ Ú Ü Û Ý Ranksµ Ñ Û Ò Ñ ÝÜØ Ñ Õ º º Ó Ø Ò Ð Ð ÔÛÔÖ Ü Þ Ý ÜÕ Ü Û Ð Ñ Ô Ø Ò Þ ÔÜ Õ ÔÐÝ Þ Ø ÜØ ݵ Ý Ó Ú ÝÜØ ÐÝ Ð Ò ÜÖ Þ ÔÒ Õ Ó Ò Ü Ð ºÞ Ý Ü Õ Ò Û ÒÐ Ñ Þ x¹ð ½ Ó ÑÐÝ Ó Ú º x i=1 (Rank(P i) Rank(Q i )) ÜÒ Ð ºÞ Þ Ò ÐÝ ºÜÞ Ò ØÝ Û Ô Ü Û ÞÒ ÖÐ ÜÞ ÒÔ Ñ ÝÜØ Ñ Õ Ð ÛÞÒ Ü ÖÝ ØÝ

Fitness Functions Þ Ò ÝÜ ÜØÕÒ Ñ ÔÒ Õ Ñ ÜÛ n-gram Gini Gain ¼¼ ÑÖ Þ Þ Ýµ ÑÜ Ô Entropy ½¼¼¼ ÐÐ Ð Ò Ý Ü Þ Þ Ý Information Gain ½ ¼¼ Ð Ò Õ Þ Þ Ý Information Gain Ratio ¾¼¼¼ Þ Þ ÒÚµ ÑÜ Train Error Ð ÚÖ Ñ Þ ¾ Ð ÕÔ ÞÒÜ Ô º º ºbigrams Ü Ö ÛÜ ÐÖØ Ý Þ Ü ÛÒ ÖÐ Ò ÜÞ Ð Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Ü Ý ÐÝ Ñ Ò ÕÛÒ Þ Ð ÞÜ Ò ÕÔ ÞÒÜ Ô ÓØ Ý ÐÝ Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Þ Ñ Ý Ò Ñ ÒÜ ÞÒ ÝÜ Þ Ô Ý Ü Þ Þ Ò Ü Ö º½ ºÞ Þ Ñ Ð ÞÒÝ Ñ ÒÜ Þ Þ Ñ Ð ÞÒÝ Ñ ÒÜ ÐÝ Ð Ò ÜÖ µ Ñ ÝÜØ Ñ Õ Ü Ö Ô Ý Ü Þ Þ Ñ Ü º¾ ØÝ Ü Û Ð Û Ô Ü Û Ó ÜÞ Ð ÝÜØ Þ Ñ ÔÒ A = max 1 i x j=1 x P ij Q ij º ÐÒ Ô Ò Ñ Û ÐÝ Ô ÚÒÝ ÜÖ Ü Ö ØÝ Þ Ñ Ü Ò º Ð ÚÖ ¹ÒÜØ Ø Ö Ð ÚÖ ÞÜ Ú Ó Ò ÜÒ Þ Ô Þ Þ Ô Ý Þ ØÝ Ñ Ü Ñ Õ Ø ÔÒÐ Ý ÞÜ ÕÒ ºÞ Ô Ý Þ Ò ÐÖ ÒÞÕ Ñ Ô Ý Ñ Ü ¹ ÜÒ Ò ÔÐÝ n-grams¹ Ò ÐÝ Þ Ý Þ ÔÒ Ó Ò ÐÝ Þ Õ Õ ÝÐ Ò Ý Ò Ô Ý ºÓ Ò ÜÒ Þ n-gram Ð ÐÝ Þ Õ Þ Ý Þ ÒÒÝ Õ Ø Ü Û Ó ØÐ ÔÜÚ Ó Ò ¹ Ð Ð ¹ Ñ Ý Ò Ñ Ü Û Þ ÔÜ Ý Ð Þ ØÝ Ò Ð Ü Û ÔÜÚ Ð Ó Þ Õ Õ Ð ÔÐÝ Þ Ò ÝÜ Þ Ð Ø Ñ Ó Ò Ü Û ÐÐ Ó Ò Ñ Ü Û ÜØÕÒ ÐÒ ÔÜ ÓØ ÔÜ º Ò ÐÝ º Þ Þ ÐÝ Ñ Ô Ý Þ Ò Ðµ Ô ÚÒÝ n-gram¹ Ð Ñ Ü ÜÒ Ð µ ÐÝ Þ ÒÖ Ý ÙÖ ÞÒ Ú Ü Ð Ý ÝÒ Ü ÞÒÝ ID3 ÑÞ Ü Ð ÞÜ Ö µ ÒÚÖ Ð ÙÖ Þ Ô Ô ÐÖ Ð Ð ØÐ Ú ÜÛÕ Ü Ö Ñ ÜÖ ÜÝ µ Ü Þ ÐÝ ÜÝØ ÜÖ Þ Ú Ò ÖÐÚ Ð Ñ Þ Ó Ò ÜÒ ÐÝ classification ÔÖÚ Ó Ò Ü Ð º Þ ØÝ ½ Ó Ò ÝÐ ØÝ ÜÒ Ð µ Ø Õ Þ º Ô Ô Ý Ð ÙÖ ÐÖ ÒÞÕ ÝÒ Ü ÞÒÝ ÑÞ Ü Ð Ð Þ Ü Þ Ý Û Ð Þ Ü Ò Ý Þ Ô Ý Ñ Ü ÜØÕÒ ÖÚ Þ Ð ÖÐ Ü ÞÝ Ð Þ ÐÝ Ð ÜÞ Ô

n-grams Ø Ö º½ Þ ÐØÞ Ð Ü ÝÛ Ð Ô Ø Õ Ø Ý ØÝ Ð Ð ØÐ Ô ÐÖ Ñ ÔÖÝÔ ÔÝÒÞÝ Ñ Ñ Ô Ý Ñ Ò ØÝ Þ Ô Ý Ñ Ð Ò Þ Þ ÑÜ Ô º½º½ ØÝ Þ Þ Ð ÐÝ Þ Õ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ð Ò Ý Ü Þ Þ Ý º½º¾ Ô Ý Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Ñ Ð Ò Ð Ò Õ Þ Þ Ý º½º Ñ Ð Ò Ô Ü Þ Ü Þ Þ Þ Ò ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò ÜÒ Ò Þ Þ ÒÚµ ÑÜ º½º ÜÒ Ò Ñ Ð Ò Þ Þ ÐÝ Þ ÐÝ Þ Ý Û Ô Ò ÜÝ Ð ÖÐ Ü ØÝ Ð Þ Þ ÔÖÚ ºÓ Ò Ó Ýµ Ò Ð Ñ Ü Þ Ò Ñ ÒÜ ÑÖ Ö Þ Þ Þ Ñ ÒÜ Ô ÑÖ Ö Ò Ô Ý ÔÜ Ý Û ÑÖ ÒÞ Ð º Ò Ð ÕÜ ÛÜ ÛÒ ÖÐ ÔÖ Ó Ð Þ Þ ÞÝ ÐÝ Þ Ú ÒÜØ Ü Ò ºÙÖ Þ Ñ ØÐ Ô Ô ÜÞ Ñ Ú ØÔ Ñ Ü ¼¼¹ ¼¼ Þ ÛÜ Ñ Ü Ñ ÜÛÒ Þ Ú ÛÐ ÔÛÐ ÓØ º¾ Ð Ò ØÝÒ Ð º¼¹½ Ó Ý Ñ ÜØÕÒ ÜÒ Ð Ñ ÒÜ Ñ ÒÜ Ô ÐÝ Þ Ý Ñ Ñ Ü ÜÖ Ô Þ Þ Ý Ý ØÚÔ ØÐ ºÞ Þ ÐÝ Ô Ý ÜØÕÒÒ Þ Ü Ò Ñ Ô Ý Ñ Ü Ñ Ð Ò ÐÝ Ô Ý ÜØÕÒ ºÞ Ý ÐÝ Ú ÜÛÕ ÖÚ Ð ÙÐ Ô Ñ Ô Ý Ñ Ü Ó Þ Ý Ð Ð ÔÝ Ò Ò Þ Ô Ý Ü µ Ò Þ Þ ÚÛÔ Ø º ³ Ñ ÒÜ Þ Ô Ý Þ Þ Þ µ ÙÖ Þ Ñ Ô Ô Ô Ñ ØÐ Ñ Ô Ý Ñ Ô Ø Ò Ñ Ñ Ü º ØÝ Ñ ÐÝ Þ Ý Ñ Ý Ñ ÐÝ Ñ ÜÖÐ Þ Õ Þ Þ # Example a b ººº Language ½ 0.081 0.014 ººº English ¾ 0.12 0.022 ººº Spanish 0.068 0.017 ººº English ººº ººº ººº ººº ººº Entropy ØÐ º º½ Ñ ÕÒ Ü ÐÝ Þ ÐØÞ Ð Þ ¹ Þ Ò Þ Ú Ò ÚÒÜ ØÔ ÞÜ Þ Ò Ø Ü Ô ºÑ ÝÐ Ñ Ô ÞÔ ÓÞÔ

Ñ ÒÜ ÔÐÝ Ö Ñ ÒÜ Ô Ô Ý Ü Þ Ô Ü Þ Þ Ü ÛÒ Ö Ñ ÒÜ Ñ ÒÜ Ô Ö ÛÒ 0-0.00015 0-0.0015 0-0.00001 0-0.001 0 0.00015-0.0003 0.0015-0.003 0.00001-0.0003 0.001-0.03 ½ 0.0003-0.0005 0.003-0.005 0.0003-0.0006 0.03-0.06 ¾ 0.0005-0.001 0.005-0.01 0.0006-0.0009 0.06-0.09 0.001-0.0015 0.01-0.015 0.0009-0.012 0.09-0.12 0.0015-0.002 0.015-0.02 0.012-0.015 0.12-0.15 5 0.002-0.0025 0.02-0.025 0.015-0.018 0.15-0.18 0.0025-0.0035 0.025-0.035 0.018-1 0.18-1 0.0035-0.005 0.035-0.05 0.005-0.007 0.05-0.07 0.007-0.01 0.07-0.1 ½¼ 0.01-0.013 0.1-1 ½½ 0.013-1 ½¾ Þ Ú ÛÐ Û Ð Ð Þ Ð Ø Ü Ô Þ Ü Ô Language attribute¹ Ü Ö Ø Ü Ô Ñ ÖÚ Ò Ô ÜÝ µ A Ô ÞÔ Ð Ð ¹ ÞÕ p v = Av A ¹ Þ ØÝ ÞÒ ÝÜÒ ØÝ Þ Ú Ò v ÜÝ H(A) = v LanguageList p vlog(p v ) ÜÖ Þ ÐÖ Þ Ò ÝÜÐ ÛÜ Ð Ñ ÚÒÚ A v Þ Ü ÞÕ Ñ ÝÒÞÝÒ Ô Ô µ Ñ ÞÒ Þ ÐÝ Þ Ü º Ð Þ Ò ÝÜ ÜØÕÒ A ¹ a Ü v H (A,a) = Þ Ð ÐÝ Ø Ü Ô Þ Ü Ô Ñ ÕÒ a Ü Ü Ö Þ ¹ Þ Ò Þ Ö ÛÐ º v V alues(a) H (A v) ÚÜÔ Ó ÜÖ ÑÖ Ü Þ Þ ÛÐ ÚÜÔ Ó Ý ÚÔÝ Þ Þ ÚÛÔ ØÐ Ô Ý Ð Ñ ÝÔ ºÜÞ ÒÔ Ø Ü Ô ÜÖ ÐÖ Ü Þ ÚÒÐ Information Gain ØÐ º º¾ A Ð a Ü Ð Ð ºÙÖ Û Û Ñ ÕÒ Ü ÓÞÔ Ø Ü Ô Þ Ø ÞÐ Þ Þ Ò IG IG(A,a) = H(A) v value(a) Av H(A v) A Ü Ô Information Gain Ratio ØÐ º º Þ Ð Information Gain Ratio¹ Þ Ü Ô a Ü Ð Ð IGR(A,a) = IG(A,a) H(A, a) Gini Gain ØÐ º º Ò Gini index ÔÒÐ Ô ÜÖÝ Ñ Ý Ø Ò Ð Ò Þ ÕÜ Û ÞÜ ÕÒ ÔÝ ÔÒÐ Ð ÑÔÒ º Language ÔÐÝ ÜÛÒ Ýµ Ü Ò Ü ÐÝ Ñ Ô Ý Ñ ÜÖ ÐÝ Þ Ü ÞÕ Ó ÕÐ

Language ÐÝ Ñ ÜÖ Ü ÖA Ô ÞÔ Ð ÐÝ Gini Index Õ Ò Þ Ð Þ Ü Ô Ø Ü Ô Ð Ò GI(A) = 1 v LanguageList ( ) 2 Av A Þ Ð Ü Ð Ð Ü Þ ÚÛÔ Ø Þ Ü Ô ÞÖ GG(A,a) = GI(A) v value(a) A v GI (Av) A Ð Ø Ð ¹ÞÞ Ð Ð Õ Ó Ð Þ ÐÐ Õ Ó ÐÒ Ô Ò ÝÜØ ÐÝ Ñ Ò ÕÛÒ Þ ÚÒÐ ÚÜÔ º Þ ÜÚ Ò ÜÖ ÐÝ Þ Ü ÞÕ Train Error ØÐ º º ¹Ü Þ Ü Ð ÚÜÔ ÜÝ Ñ ÕÒ Ü Ü Ö Ó Ò Þ Ý ÞÐ Þ Ü Þ Þ Ò Þ ÚÛÔ Ø Ü ÞÐ Þ Þ ÑÕÛÒÒÝ a TE(A,a) = min ( ) Av v LanguageList(p A) min Language LanguageList(p Av ) A v value(a) ºA Ð Ð Õ Ü Ò p A ÜÝ ÙÖ Þ Ô Ð ÑÞ Ü Ð º Ý Ò Ý Þ ID3 ¾ÕÜ Û Ô ÜÝ ÕÜ ÛÜ ÑÞ Ü Ð Ð ÚÖ Þ Ô Ð ÔÞ ÝÒ ÝÝ ÑÞ Ü Ð ºÐ ÖÐ Ü ÞÝ Ü µ Ò Þ Þ ÚÛÔ Ø classificationµ ØÝ ÕÐ ÑÞ Ü Ð º ÚÜ Ð Ý Ð ÙÖ Ü Ò Ð Ò Ý ÝØ ÕÜ ÛÜ ÑÞ Ü Ð Ô Ý Ü Õ ÑÞ Ü Ð ÜÛ Ü Û Ô ÞÒ Ú ÐÝ Ü Ü Ö Ó Ò Ü Û Ý Ý ÜÖÐ Ñ ÞÒÝ ÙÖ ¹ÞÞ Þ Ü Þ ÐÝ ØÝ Þ ÜÒ Ð µ Þ Þ Ü Ò ÐÖÐ Ö Ò ÜÝ ÜÚ Ö ÑÞ Ü Ð ºÙÖ ¹ÞÞ ÐÖ Þ ÕÜ ÛÜ Ñ ÚÖ Ñ Ü Ñ ÜÛÒ Ü Ò Þ Ò ÝÜ ÐÐ Ò ÐÒ ÔÜ ÓØ Ó Ò ÜÒ Þ Ñ Ü Ô Ô Ü Ò ÑÐ º ÐÖ Ü Þ Ð Ñ ÜÝØ Ñ ÜÖ Ð Ð Ñ Ð Ò Ñ Ü ¼¼¹ ¼¼¹ Ü Ð ÔÝÜÔ Ò Ñ Ð Õ Ð Þ ÖÛÞ Ô ÜÒ Ð ÔÒÐÝ ÙÖ Ñ Û ÐÝ ÙÖ¹ÞÞ ÝØ Ð Þ ÕÔÐ Ñ Ð ÐÖ Ô Ô Ó Ð ºÑ Ú Ò ÒÞ ºÑ ÞÒÝ ÙÖ¹ÞÞ Ð Ü Ò Ü Û Ü ÐÝ ÜÖÐ Ñ ÞÒÝ ÙÖ¹ÞÞ Ð Ó Ý ÙÖ ÞÒ ÚÐ ÔÖ Ý Ö Ü Ý Ô Ð Ö Ü ÞØÐ Ü Ò Ð Ð ÝÒÔ Ý Ô Ý Ý Ð Ð Ü Ô º Ü Þ ÐÝ Ñ ÚÖ ¹ ÞÞ Ð ÐÖ Ü ÖÔ Õ Ü ÖÔ Ý Ô Ö Þ Ü ØÕÔ ÙÖ¹ÞÞ Ü Ò Ð Þ Ö ÚÒÐ Ö ÔÝ ÑÖØ Ð º ÐÖÐ Ö Ô ÜÝ Ö ÙÖ ÜØÕÒ Þ ÙÖ¹ÞÞ Þ Ò Þ Þ Ð ÛÔ Ð Þ ÐÝ Ø Õ ºÞÒ Ú ÐÝ Ü ÐÝ Ñ ÚÖ¹ ÞÞ Ð ÐÖ Ð Ó Ýµ ÜÞ Ó Û Ñ Ý Ô ÜØÕÒ Ý Ò Ý Þ ÔÖ Ð Þ Þ Ü Ô Ü Ô ÝÖÝ Ñ Ý Ô º ÓÞ Ô Ð ÜÖØ Þ Ó Û Ð ÚÜÔ Ñ ÜÛÞÒ Ô Ô Ð ØÝ Ó Ð Ó Ò ÜÒ Ó ÜÖØ ÐÖ ÖÒ Ý Ô Ô Ð overfitting¹ò ÖÔÒ Ð Ð Ý Ñ Ü Ñ ÞÒÚ Ð Ð Ð Ñ Ð Þ Ð Ñ Ð Ñ ÚÖ Ü Ò Ó Ò ÜØÕÒ Þ Ñ ÔÜ Ö Þ ÕÜ ÛÜ ÜÛ Ð ¹ ÙÖ Ü Ò Ð Ð Ò pruning ÖÚ Ð Ð Þ Þ ÐÖ Ð Ñ Ý Ô ÜØÕÒ Þ ÔÜ Ö ÙÖ Ü Ò Ð Ð Ò Ñ Ö Þ ÔÐ Ý Ý ÒÔ Ñ Ý Ô ºÞ ÐÒ Ø Ú Þ Þ Ô Ð Ó Ý Ð ÐÕÒ Þ ÐÖ ÔÜÞ ÙÖ Þ ÐÚØÞ ÝÒ Þ ÔÛÕØ ¾ Þ Ø ÛÝ ½¼ Ð ÜÞ ¾

V ÛÐ Þ Ú Þ ÛÜØ Ò Þ Ø ÚØÕ Þ Ú Þ Þ Ô º Ô ÛÔ Ó Þ Ý Ò ÔÐ ÛÝ Þ Ú Þ Þ ÚÔ ÛÐ Ð ÚÖ ÐÝ Ó Þ Õ Õ Ý Ó Þ ÐÒ Þ Ú Þ º ÛÜØ Ö Ø Ò ÜÞ Ü Þ Õ Þ Ö º³ ¹ ³ Ñ ØÕÔ Þ Ò Ø Û µ Þ Ô Ý Ü Þ ÜÐ ÓÞ ÔÝ Ø Þ Ð ÖÒ Ý Þ Ô Ý Ý Þ Ú Þ Ø ÚÒ ÞÒ Û ÜÒ Ð Ó Ð Ð Ñ Ð Ò ½¼¼¼¹ ¼¼ Ü Ö Borda Count Þ Ý Ó ÚÐ Ó ÔÖÒ ºÞ Ú ØÔ Ñ Ð Ò ÐÖ ÞÕÕ ÞÒ Ô ÞÐ Þ ÞÜÛÞ Ó ÖÒ Ü Ðµ Þ Ô Ý Ð Ó Ð Û ÜØ ÔÛÒÞ Ó ÒÐ Þ ÝÒ Ò Ô Ý Ý Ý Ý Ý Ð Ý ºÐ Ô Þ Ú ÞÐ Ô Ý Ý Þ Ú Þ Þ Õ Õ Ý Ð Ü ØÝ Ñ Ü Ñ Þ ØÐ Þ ÚÜ ÐÝ Ò Ü ÜØÕÒ ÐÐ ÒÐ Ð Þ Ý Ð ÖÐ Ü Õ Ý Ø Ô Ð Ý Þ ØÝ ½ ÐÐ Ü Ö Þ ÜØÔ Þ ÚÜ Þ Ü ÛÒ Ö Ö Ø Ý Þ ØÝ Ü Ö Þ ÚÜ ÔÖÚ Õ Ô º½ ºÛ Ð ÜÒ Ð µ Ñ ÞÒ Ñ Ú Û ÑÖ Ô Ö Ó Ý ÒÐ ÝØ Þ Þ Þ Ò Ú ÞÐ ÔÐ ÛÝ Þ Ú Þ Þ Ý º Ð ÛÐ Ñ Ü Ò Ô Ô Þ ØÝ Ò ÔÖ Ñ Ü Û Ó Û ÜÒ Þ Ò ÓØ Ø Ö º½ ¹ ÜÒ Þ ÜÖ Ð ÕÔ ÞÒÜ Ô Ý Ò Ý ÝÖÔ Þ Ü ÛÒ Ö Þ Õ Õ Ý ÛÕÖÝ ÛÐ Ü Ò Ñ Ð ÔÐÖØ Û ÜØ Ö Û Ô ØÝÒ Þ Ú ÒÝ Ü Û Ó Ð Þ ØÝ Ò ÐÝ Ü Û Ó Ñ Û ºÑ ØÕ Ô Ü Ü Ü Ú ¹ Ð Þ ÜÛ Þ Ú Þ ÔÞÔÝ ¹ Ð ÛÞ Ý Þ ÚÛÔ Ø Þ Ú Ð Ó ÚÜ ÐÝ Ñ ÛÒ Ú Ð Ò Ñ ØÜ Ð Þ ÐÐ ÜÖ º Ñ ÜÛ Þ Ø Þ Ð Ñ Ð ÐÖ Ñ ØÜ Ý Ð ÛÕ Ó Ýµ ½¼¼¹ Ñ ÞÕÒ ¼¹Ò Ð ÞÒ ÒÞ Ð y Ü Ú ÜÞ

Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ Ü ÜÞ Þ Ö Ü Þ Ú Þ Þ Ô ÕÔ ÞÒÜ Ô Ñ Þ Þ ÚÜ Ð ÖÒ Þ ÜÐ ÓÞ ÔÝ Ø ¼¼ ÐÐ Ó Ò ÜÒ ÜÝ Û Ô Ñ Ô ÞÔ Þ Ü ÛÒ Ö ºÑ ÔØ ÜÞ Ò Þ ÖÒÝÒ ÝÜØ ¹ Ñ ÜÛÒ Þ Ü ÛÒ Ö Ý Ý Ð Ð Þ Ò Þ Ú ÞÐ ÔÖ Ý Þ ÜÐ ÓÞ Ô º46%¹ ÐÖ ÒÖ ÐÚ Þ Ò ÝÜ Õ ºÑ Ô Ý Þ ÜÝ ÜÞ Þ ÖÒ Ñ ÜÛ Ñ ÔÒ Õ Ò ÔÒÐÖÞ ÜÝ Þ Þ Ø ÖÒ ¹ º ÖÒ Ð Ö Ñ ÜÛ Ñ ÔÒ Õ ÜÝ Ý ÐÚ 50%¹Ð 40% Ó Ð ÔÖ 70% Ö ¹ Ò Ñ Ñ Ö Ú Ð Ö ÔÝÒÞÝ Ó Þ ØÕ Ô Þ ÒÞÒ Þ Ý ÕÔ ÞÒÜ ÔÒ Ô Ý Ñ ÜÛ Ñ ÔÒ Õ ÑÖ Ó ¹ Ð Ò Ý ºÑ Þ Ý Þ Þ 80% Ö Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Þ ÜÒ ºÞ Ü Ò Õ¹ Ð ÕÜ Þ Ü Ò Õ ÕÜ Þ Ò Þ Ú Þ Ô Ý KL Þ Ý Þ ¹ Ñ ÖÐ Ó ÜÝ Ñ Ô Ý Þ ÜÝ Ü Ø ÝÐ Ô ÑÖµ Ñ ÜÛ Ñ ÔÒ ÕÐ ÜÝÛ Ð Þ Ò Þ Ú Þ Ô Þ Ý Ü Ðݵ Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ Û Ý Ó ÚÐ Ó ÔÖÒ ºRanks¹ KL Þ Ý Ñ ÓØ Ú ¹ ÜÛ Ñ ÔÒ Õ Þ Ø Ý Ð Õ ÜÔ Ð º Þ Ø Ö Ranks Þ Ý Ö Ò ÜÞ Ñ ÛØÕÒ ÜÝ Ò Ô Ý ÓØ Ó Ò ÜÒ Þ Ú ØÔ Þ Þ Ü Õ Ñ Ô ÝÐ ÒÜ a¹ð ǎ ÐÝÒе Þ Ð Ü Þ Þ Ð Ñ ºÑ Ô ÝÐ ÜÞ Ý Ü Ó Ð ÜÞ ÑÚÒ ÚÒ Ý Ó Ò ÜÒ Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ

Þ ÝÖÐ ÐÚ Ð Þ Ü ÛÒ Þ ØÝ Ó Ò ØÝ Þ Ð ÝÜÔ ÕÒ Ý Ó Ü Þ Ú Þ Þ ¹Ü ÛÒ Þ ØÝ ÑÖ 80% ÞÒ ÖÐ 70%µ Þ ØÝ ½ Ó Ò ØÝ Þ Ð ÝÜÔ Ý ÜÝ Ò ÜÞ Ü Ú Þ ÜÐ Ó ÔÖÒ º ÜØ Ð ÝÜÔ ÕÒ Ó Ô Þ ØÝ Þ Ò Ý Þ Ò Ó ÚÒ Ü Ò Ó Ö ÑÐ Þ Þ Þ Ú Þ Ñ ÜÛÒ Þ ÜÒ ÔÐ Û ÞÒ ÛÜ Ð µ Þ ØÝ ½ Ó Ò ØÝ ÐÝ Õ Ü Ò ÜÝ Ñ Ý Þ ÚÛÔ Ø Ó Õ ÜÒÝÔ Ó Ñ ºÞ Ü ÛÒ Ö Ý Ò Ý ÝÖÔ ÕÔ ÞÒÜ Ô Þ Ý Ô Ý Ð Ò ÜÞ Þ Ò Þ Ú Þ Ô Þ ÚÛÔ Ø ÐÐ Ranks¹ Angle ÖÒÐ ºÐ Ð ÝÒÒ KL¹Ý Þ Ô Ý Ò Ð Ð Ô Ö Ò Þ Ñ ÛØÕÒ ÜÔ Ð Ý Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ ÜÞ Þ º Ö ÞÐ Þ Ü ØÝ Ø Þ ØÝ Ó ÜÞ Ü Ú n-gram Ø Ö º¾ Ñ Ò Û ÜØ Õ Ð Ô Ð Ô Ô Ü Ò ºÑ ÒÜ Ô Ñ ÒÜ ØÐ ÒÐ ÖÚ Þ Þ Ü ÛÒ Ö º Ð Ò Õ Ð Ò Ý Ü Þ Þ Þ Ý ÐÖ Ñ ÞÒÕÒÝ Ñ ØÕ Ô Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ

Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ º Ò Ð Ñ ÜÝØ Ñ ÒÜ ÜØÕÒ ¹ Ñ ÒÜ Ò Ö ÜÞ Þ ÖÒÝÒ Ö Ò Ô ØÚÝ Ø Ð Þ ÜÞ Ü Ö Ò Þ ÛØ Õ Ð Ò Õ Û Þ Ñ Û ÒÝ Þ Ð Ð ÔÖÞØ Þ Þ Þ Ó Ò ÛØÞ ÞÐÖ Ñ Ü Ñ ÜÛÒ Ô Ü Þ Ý Ö ÑÖ ÔÛ Ð Ö Ð Þ ÑÖ º ÒÐ Ö ÕÞ Ý Ô Ð Ó Ð ³ Ñ Ô Ý Ñ ÔÒ ÐÖ Ø Þ Ô Ñ Ü ÞÜ Ú Ó Ú Ò Ðµ Û Û Ó ÚÐ Ó ÔÖÒ º e i Ö Þ ÛÐ n Ö Þ ÔÒÜ Ö s Þ Ö ÞÔ ÚÒ Þ Ð Ô Ñ Ü ÞÜ Ú ÐÝÒе ØÝ Þ Ú Þ Ô Ñ ÑÐ Õ ÓØ µ Þ Þ Ø Þ Ú Þ Þ Ô Ô Ý Ü Þ ØÐ Û Ý º ÕÔ ÞÒÜ Ô ÐÝ Ð Ò µ 45% ÐÖÒ ¹ Þ ÖÜ Ð Ý ÓÒ µ Ò Ð ÚÛ º ÔÚÜ Ñ Ô ÞÔ Ô Ò ÓÞÔ ºÞ ØÝ Ð Ò Ó Ò ØÝÒ Ð Þ Ð Ý Ñ Ô ÞÔ Ô Ò ÔÜÚ Ó Ý Ü ÐÝ Ð Ò Õ Þ Þ Ð Ò ÞÐ Þ Þ Þ Ñ ÒÜ Ô Ñ ÒÜ Þ Ü Þ Þ ÒÐÝ Ñ ÒÞ Ü Ð

ºÞ ØÝ ½ ¹Ò ºÞ ØÝ Ð Ü Ö ÐÐ Þ Û Õ Õ Ð Þ ÒÐÐ Þ ÔÝ ¾ ¹ ¹ Ò Ü Ò Ò Ð ÚÛ overfitting¹ Þ ÛÖ º Ú Þ Þ ÐÐ ÔÒÒ ÒÐÐ Ñ ÛÒ Ó Ò ÜÒ Þ ÓÔÝÐ Ð ÞÒ ÕÒ ÜÝ Ý ÜÞ Ð Ð ÐÖ overfitting ÜÒ ÐÖ ÜÞ Þ Û Ò Þ Þ Ú Þ Ü ÕÒ Ý ÜÛÒ º ÝÖÜ Ð ÜÞ Ð ÐÛÝÒ ÓÞ Ô Ò Þ Ø ÕÒ ÜÒ Ð µ ÜÞ Þ Ö Ü Ô Þ Ü Ò Ð Ý Ó Ò ÜÒ ÐÖ Þ Ú Þ Ü Ò Ó Ò Ó Ó Ò ÜÒ Ý Þ ÜÐ ÔÝ ÚÒ ÚÒ overfitting ÖÚ Þ ÐÝ Ð º Ý Ö Ò ÑÖ Ð Þ ÜÐ ÓÞ ÔÝ Ø º ÒÐ Ö Ú Ü Ð Ó Ò ÜÒ Ò ÛÐ ÐÖ ÑÞ Ü Ð Þ ÔÚÜ Ð ÕÒ ¹ÒÝÒ Ü Ú Ð Ñ ÜÛÒ Þ ÜÒ ÜÞ Þ Ó Ó Ò ÜÒ ÐÖ ÑÞ Ü Ð ÞÐ ÖØ ÐÝ Þ Ú Þ ÒÐ ÖÒÝ Ò Þ Þ Õ Ó Þ Ú Þ Ó Ò ºoverfitting Ó Ý Û Õ Ð Ð ÔÝ Ó Ò ºÓ Ô Ý ÐÖ ÖÒÝ Þ Þ Ö ºÑ ÜÛÒ Þ ÜÒ ØÝ Þ Ó ÕÒ Ý ÐÖ Þ Ú Þ Þ Ü ÛÒ ÛÐ ÐÖ Þ Ú Þ Kullback Symmetric Kullback Angle Eucleadean Infinity Ranks Simple Difference 69.34 68.87 46.93 59.19 44.94 42.56 53.07 71.41 69.3 50.95 61.12 40.07 51.91 57.14 Ó Ò ÜÒ Ò Ó Û recall, precision, F1 Ò º Ó Ò ÜÒ ØÝ ÐÝ ÔÐ Û Ü ÐÝ Ø Õ Ó Ò ÜÒ ÐÖ ÑÞ Ü Ð ÔÚÜ Û ÜØ ÞÜ ÕÒ Ñ Ñ ÔØ Ñ ÐÖ Ð ÞÕ Ð ÓÞ ÔÝ Ð Ñ ÝÔ º Þ º Ð ÞÝÒ Ó ÝÐ ØÝÐ Ý ØÝÒ Þ Ô True Positive º½ º Ð ÞÝÒ Ð Ð ÝÐ ØÝÐ Ý ØÝÒ Þ Ô False Positive º¾ º Ð ÞÝÒ Ð Ó ÝÐ ØÝÐ Ý Ð ØÝÒ Þ Ô True Negative º º Ð ÞÝÒ Ó Ð ÝÐ ØÝÐ Ý Ð ØÝÒ Þ Ô False Negative º ºprecision¹ recall Ò Ö Þ Ú Þ Þ ÜÖ Ð ÞØÕ Ô Ü Ð ÛÐ Ñ Ü Ò Ô Ý Ñ Ý ÐÐ ÞÒ ØÝÐ Ó Ô Ý Ü Ö Ý Þ Ò ÜÝ Ò recall Ò º Ü Ö Ý Þ Ò Þ Ü Ñ Ð Ò ºÑÐÝ Ò Þ Ð ÐÖ Ø ÔÐ ÛÝ Ñ Ý ÐÐ ÞÒ ØÝÐ Ó Ô Ý Ü Ö Ý Þ Ò ÜÝ Ò precision Ò recall = precision = ºÝÖÜ Ü Ö Ý Þ Ò Þ Ü Ñ Ð Ò º ØÝ True Positive True Positive + False Negative True Positive True Positive + False Positive Ö Ü precision ÑÖ Ö Ð Ð recallµ ÑÒÚÖ ÔØ Ñ Ò Ö Ð Ñ Ð Ñ Ý Ñ ÐÐ Ñ Ò ÔÝ Ñ Ý Ð Ý Ñ Ð ÝÒ Ñ Ò ÐÖ Ñ Ð ÞÕ Ð Ô Ó Ð º Ý Ö ÛÐ Ó Ó Ð Õ Ô ÒÕ ÐÖ Ð ÛÞÒ Ñ ÔÝ ÐÝ Ô ÒÜ ÖÚ ÒÒ Ý F1 Ò F1 = 2 precision recall precision + recall ½¹Ð ÜÞ Ñ ÜÛ Ñ Ý Ð ½¹Ð ¼ Ó Ý Ñ ÖÔ ÐÐ Ñ Ò ÐÐ ÐÝ Ñ ÜÝØ Ñ ÜÖ

ºÜÞ ÔÐÝ Þ ÚÜ ÐÐ Ñ ÜÖ Þ ÔÒ with diacritics without diacritics 500 1000 1500 2000 500 1000 1500 2000 original 0.648 0.651 0.654 0.653 0.65 0.646 0.642 0.637 all languages 0.618 0.606 0.599 0.593 0.59 0.586 0.583 0.581 Ð ÚÖ º¾ Ð Ü Ý Ñ Ü Ñ Þ ØÐ Þ ÚÜ ÐÝ Ò Ü ÜØÕÒ ÔÖÚ Ý Ð ÖÐ Ü Õ Ý Ø Ô Ð Ý Þ ØÝ ½ ÐÐ Ü Ö Þ ÜØÔ Þ ÚÜ Þ Ü ÛÒ Ö Ö Ø Ý Þ ØÝ Ü Ö Þ ÚÜ ÔÖÚ Õ Ô ºÛ Ð Ñ ÞÒ Ñ Ú Û ÑÖ Ô Ö Ó Ý ÒÐ ÝØ Þ Þ Þ Ò Ú ÞÐ ÔÐ ÛÝ Þ Ú Þ Þ Ý Ó Ñ º Ð ÛÐ Ñ Ü Ò Ô Ô Þ ØÝ Ò ÔÖ ÜÒ Ð µ Ü µ Ò Þ Þ ÚÛÔ ØÐ Õ n-gram Ø Ö º½ Þ Þ Ú Þ Þ ÔÐ Û Þ Ü ÛÒ Ö Ò Þ ØÝ ÐÖ ÛÜ ÔÚÜ ÜÝ Þ Þ Ú Þ Þ ÔÐ Û Þ ØÝ ½ ÐÐ ÐÖ ÔÚÜ ÜÝ

Ñ Ð Ò Ñ Ò ØÐ ÔÔ ÕÝ Ñ ÚÖ ÐÐ Ü Ö Ð ÛÞ Ý Ñ Õ Ø Þ Þ ÜÐ ÓÞ Ô Ü

Ñ ÒÔ Ô Ô Ü Þ Ô Ý Ü Þ ÐÖ Ñ ÖÝ Ñ ÒÞ Ü Ð Þ ÚÜ Ð ÔÞÖÞØ Ð Ò Þ Ú ÛÐ Û Ð Þ ÑÜ Ö ÔÝÒÞÝ Ý Ö Ú ÖÔ Ð Õ ÔÞÖÐ º 30%¹Ò Þ Øµ Õ ÓØ º Ô ÚÒÝ Þ ÐØÞ Þ Ò ÞÒÝ Þ Ö Û Ð Ð Ð Ü ØÝ Ø µ ÐÐ ÓØ Ñ ÒÜ Ô Ü Ö ÖÐ ¹ Ñ ÒÜ Ô Ü Ö Ó Ñ ÒÜ Ü Ö Ó ¹ Ò Þ Ò ÔÐÝ Þ Ú Þ Gini Þ ÚÛÔ ØÐ ÜÝÛ Ô ÐÚ ÜÞ Þ Þ Ú Þ Þ Ô ÚÛÔ Ø ÑÝ Þ Ü ÛÒ Ö Ò Ô Ý Þ ÑÖ ºÞ Ü ÛÒ Ú Þ ºÑ ÒÜ Ü Ö Ó Ñ ÒÜ Ô Ü Ö Ó IGR Þ ÚÛÔ Ø Ý Ò Ý Þ ÜÞ Þ Þ Ú ÞÐ Ö Ð Ð ÐÖÝ overfitting¹ Þ ÑÚÒÚÐ Þ Ø IGR ØÐ ÕÜ Û Ð Ò ÔÒÐÝ Ö ÑÖ ÔÛ Ð Ö ÞÝ ÐÝ Ñ Ö Ú 15%¹Ð 5% Ó ÖÔÝ ÜÖØ Ñ Û Ó ºInformation Gain ÚÛÔ Ø Ý Ò Ý ÜÚ Ð ºÑ ÒÜ Ô Ü Ö Ó Ñ ÒÜ Ü Ö Ó ÐÐ Þ ÚÛÔ Ø Þ Þ Ú Þ ÔÞÔ Ñ ÒÜ ÑÖ ÖÝ Þ ÚÛÔ Ø Ñ ÜÛÒ Ü Þ Ü ÛÒ Ö Ò Ô Ý Ô Ø ÚÝ Ø º ÔÝÒÞÝ Ñ Ñ Ü ÜØÕÒ Þ ÔÒÚÒÚ ÜÝ Ñ ÜÞ Þ Ú Þ ÑÐ Ø Ü Ô Þ ÚÛÔ Ø Ý Ò Ý Þ ÜÚ ÔÝ Ñ ÚÖ Þ Þ Ô Ð Ü ÓÒ ÝÜÔ Ó ÚÐ Ý Ð Ö Ð Ø Ü Ô ÜÒ Ð ºÞ ÚÛÔ Ø ÜÞ Ð Õ Ó Ð Õ ÓØ Ó Þ Þ Ú Þ Ô Ñ Ý Ö Ò Þ Ø Ð ÓÞ Ô Ñ Ð Ú Ø Ð Õ Ü ÐÝ Ø Õ ÑÐ Þ ÚÛÔ Ø Ü ÝÒ Ö Ò Þ Ø ÓÞ Ô Ð Ú Ø Ð ºÞ Ü Þ ÚÛÔ Ø Þ ÜÒ ÜÝ Ò Ö Ò ÜÞ Ñ ÞÖÐ µ Ý ÓÒ µ Ò Ð ÚÛ º¾ ÜØÕÒÐ ÜÝ Õ ÒÖ Ð ÙÖ Þ Ô Ð ÝÜÔÝ ÓÒ ÝÒ º ÖÝ Ú ÐÖ ÒÖ ÙÖ Ð ÐÝ ÖÚ ÒÒ Ô ÓÒ Ñ ÜÛÒ º Ü Þ Ñ ÚÖ Þ Ô ÓÒ ÜÞ Ñ Ü Ñ Ý Ð Ó Ò ÜÒ Þ Ü Ý ÜØÕÒÐ Ñ Ü Ü Ñ ÜÛ Ñ ÔÒ Õ Ý Ò Ý º Ò Þ Ø ¼¼¹Ð Ñ Ü ÜØÕÒ Þ Ð Ð ÔÚÐ Ô Ñ Ü

ºÞ ÒÜ Ü Ú Ð Ñ Ü ÜØÕÒ Ó Ý Ü Ý ÝÒ Þ ÚÖ Ö Þ Þ Û ÜØÕÒµ Ü Ò Þ Õ Ô Ô Ô Ü Þ Ô Ý Ü Þ Ñ ÒÜ Ô ÐÝ Ñ ÚÖ ÙÖ Ö ÛÒ Þ Ø Þ Ô Ô Þ Ò ÝÜ ¾¼¼¼ ÐÖ IG ÐÝ ÑÜ Ô ÙÖ ÐÝÒе Ü Ý ÓÒ ÝÜ Ñ ÒÜ Ñ Ü ÜØÕÒ Ü Ð Þ Ü Õ Ð ÓÞ Ô º Þ Û Þ Ô Ô Þ Ò ÝÜ ¾¼¼¼ ÐÖ Gini Gain ØÐ ÑÜ Ò ÐÖ ÒÖ ÓÜØÕÒ Ó Ð Þ Þ Þ Ñ Ü Ó Ýµ Ó Ý Ü Õ Ò Ñ ÚÖ ÐÝ Þ Õ ÑÚÒ ÚÒ ¹ÒÜ ÚÖ Ñ Ü ÜØÕÒ Ö Ñ ÜÛ Ñ ÔÒ Õ ÞØÕ Þ Þ Ð Ü Þ Þ ¹ Þ Þ ÜÝÖ Ü Õ Ý Ø Ó Ý Ü Õ Ò Ñ Ü ÜØÕÒ Ö Ü ÐÝ Ð ÜÕ ÝÖÒе Þ Þ ÖÒÝÒ Ð Ñ º Ð ÖÐ Ò Ø Ü Ô Ý Ð Õ ºÜÞ Ð Ý ÝÒ Þ ÝÜ Ø Ü Ô Ò Ñ Ò Ó Ò Ü Ú Ñ Ô ÞÔ Þ ÛÐ Ò Ð Ó Ð Ñ Ô Ý Ñ Ü³Ú Ø Þ Ô Ý Þ ÜÝØ Û ØÕÒ Ý ÞÒ ÐÝ Ò ÐÐ Ñ ÝÒÞÝÒ ÐÝ Û º Ý ÝÒ ÞÐ Ð ÜÞ Ü Ð ÕÜ ÛÜ ÛÒ ÖÐ Ð ÒÝ Ò Ü Ü Û ØÕÒ ºÑ ØÕ Ô Ñ Ý Þ Ñ ÐÐÛÝÒ Ð Ø Ü Ô Þ Ñ Ý ÒÝ IGR Ò ÜÞ Ñ Ñ Ò

VI ÛÐ ÞÖÐ Þ Ý Ò Þ ÔÛÕÒ Ó Þ Û Ò Þ Ú ÞÐ Ö Ð ÓÞ Ô ÔÐÝ Ö Õ Õ ÐÖÝ Þ Ô Ò Ò Ô Ô Þ ÜÒÞ ÓÜ Ò ÓÞ Ö Ñ Õ 70% ÐÖÒÐ Ö Ð Ô ÐÚ ¹ Þ Þ ÖÒÝÒ Þ Þ Ú Þ Ó ÔÞ Ö ÔÖ Ó Ð Þ Ú Þ Ó º ÜÞ Þ Ô Ý Üµ Ò Þ Þ ÚÛÔ Ø Þ Õ Õ Þ ÚÛÔ Ø ÑÖ Ñ ÒÜ Ô Ñ ÒÜ Ü Öµ Ñ Þ Þ Ý Ó Ò 60%¹ Þ ÜÞ Ú Þ Þ Ü ÛÒ Ö Ö IGR Þ Ý 73%¹Ð KL Þ Ý 79%¹Ð Þ Ý ÜÞ Ð Ü Ö ¹ Þ Ý ÛÜ ØÝÐ Þ Ò ÝÜ ¾¼¼¼ ÐÝ Ð Ó Ò ÜÒ Ü Ö Ð ÛÞ ºÜÞ Ð Ð 45% Ð Ò Ü ÜÝ Ñ ÒÜ Ô Ü Ö Û Ð ÛÞ ÜÒÞ ÓÜ Ò ÐÝ ÜÞ Þ Þ Ú Þ Ó ÚÐ Ó ÔÖÒ ÐÖ Ó º ÐÚ 25%¹ Ð Ö Ó Ñ ÒÜ ÑÖ Ö Ó Ý º50%¹Ò Ñ Ô Û ÐÚ Ñ ÜÛÒ ÐÝ Ñ Ô Ý Ñ Ö ÛÒÐ Û Ð Ô Ö Û ØÕÒ Þ Ð ÜÔ ÝÖÝ Û Ð Ý Ð Õ Ý ÜÖÝ Þ Û ÝÐ Ô Õ Ô Ñ ÚÖ ÐÖ Ö Ò ÛÐ ºÞÜ Ð Ö ÔÐÝ Ö Ò ÑÐ ºÜÞ Þ Þ Ú Þ Ô Ð ÝÖ Þ Ô Ò Þ Ô Ý Þ Û Ð ÐÖ Þ Ü Ñ ÒÖØ Ñ ÚÖ Þ ÔÚÜ Ð Þ ÜÐ ÓÞ ÔÝ Ø µ Ñ Ú ÛÒÐ Û Ð ÑÖ Û ÒÖ Þ Ø ÙÖ Ñ Ô Ý Ñ Ú ÛÒ Ó ÞÔ Ò Ô Ö ÜÞ Þ Û Ð Ý Ð Ý Þ Ý Ò Ý Ô Õ ÔÝ Û Ð Ó Þ Ú Þ Ñ Ü Ô Ñ Ð Ô Ð Ð Ü ÐÝ Ø Õ ÑÐ ºÜÞ Þ Û Ð ÔÞÖÐ ºÞ Ü ÛÒ Û Ð Ñ ÞÖÐ ÜÞ Þ Þ Ú Þ Ý Ý Û Ð Ñ ÞÖÐ Þ Ü ÛÒ Û Ð Ð Ñ Ò Ó ÐÝ Ó Ò Ó Ò ÜÒ Ý Þ Ð ÝÖ Þ Ü ÛÒ Ö Þ Õ Þ ÒÔ Þ Ú ÞÐ Õ ÞØÕ Ô Þ ÜÝØ º Ò Þ Þ Ð Ó Ð Ó Ò ÜÒ Ò Ô Ý µ Û Ô Ü Ö Ð Ó ÐÝ Ó Ò ÜÒ Ý Ñ Ô Ô Ü Ú Ñ Ý Ñ ÜÒ ÑÖ ÒÞ Ð Ö Ð Ó ÐÝ ÕÒ Ó Ð overfitting ÜÚ Ñ ÒÜ ÐÝ ÒÐ Ý º ÐÝ Þ Õ ÞÒÜ Þ ÐÖÒ ÑÞÜ Ý Ý Ô Ó Ü Ò Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Õ ÜÒÞ ÓÜ Ò ¹ ÞÝ ÒÞÐ ÔÜ Þ ÞÒ ÖÐ ÔÐÝ Û ÜØ º ÒÐ ÝÒ Þ Ñ Ô ÞÔ Ô Ò Þ Ð Ò Ò ÝÒ Ñ ÔÒ Õ Ò ÛÐ Ô Ü Ø Ô Ø ÚÝ Ø ºÑÞ Ü Õ Ð Ñ ÜÛ Ñ ÔÒ Õ Þ Ü Þ Ð ¹ Þ ÜÝØ ¹ Ð ÚÖ Ó Þ Õ Õ Ý Ó ¹ Ñ ÒÞ Ü Ð Þ ÜÒ Ó Ð Þ ÖÒÝÒ Ö Ò Ø Õ Ñ ÜÛ ¹ Õ Õ Ñ Ð 10%¹ ÐÝ ÖÚ ÒÒ Ü Ø Ýµ Ñ ÜÛ Ñ ÔÒ Õ Ô Ý Þ ÜÝ ÜÞ Þ Þ Ú Þ Ú Ñ ÒÞ Ü Ð Ñ ÜÛ Ñ ÔÒ Õ ÐÐ Ñ Ó ÚÐ Ý Þ ÑÖ º Ð ÚÖ 20% Ö ÐÝ Ñ Ö ØÝ Ñ ÜÛ Ñ ÔÒ Õ ÞÜ Ý Ó ÚÐ º Ò Þ Ø Þ Ú ÞÐ Ö ÑÒÚÖ Þ Ñ Ô Ý Ú Ü ÔÒ ÐÖ Ü Ô ÓØ Ö ØÝ ÑÐ Ñ Õ Õ Ñ ÒÞ Ü Ð Ú Ü ÔÒ ÐÖ ÒÐ Ô ÓØ Ñ ÜÛ Ñ ÔÒ Õ ÞÜ Ý Þ Ö ÞØÒ Ó º Ô Ô Ü Ñ ÚÖ Ý Ü Õ Ð Ð µ Ñ ÚÖ Þ Ô Ð Ð Ð ÐÖ Ñ Õ Õ Ñ ÒÞ Ü Ð Ñ ØÕ Ô Ñ Ý ÐÝ Ö Û ÑÚÒ ÚÒ ÜØÕÒ ÜÞ Ð Ð Ø Õ Ò ÛÒ Ö Þ Ñ Ü Ñ ÜÛÒ ÐÖÒ Ü º Ð ÖÐ Ü ÞÝ Ø µ Ð Ð Ñ Ü ÜØÕÒ Þ ÞÜ Ô Ü Ú ºÑ ÚÖ Þ Ô ÐÝ Ý ÓÒ Þ Ñ Ñ Þ ÕÜ ÛÜ Þ Ý Þ ÖÚÒ ºººÞ Ú Þ Þ ÜØÝÐ ÓÞ ÔÝ Þ Ý Ó Þ ÜÒÞ ÓÜ Ò Þ Õ Õ Ý Ð ÜÝÛ Þ Ð Ô Ø ÔÝÒÞÝ Ñ Ñ Ý Ñ Ð ÐÐ Ó º ÕÔ ÞÒÜ Ô Ò ºººÞ ÒÛÞÒ ÜÞ ÛÕ Þ Ð Ð Ó ÔÖÒ Õ Ô ºÞ Ø Þ Þ Ú ÞÐ Ö ÕÔ ÞÒÜ Ô ÐÖ ÕÕ Þ Ý Ò Ö Ò Þ ºÞ Ü Ò Õ¹ Ð ÞÕÜ Þ Ü Ò Õ ÞÕÜ Þ ÖÒ Þ Ú Þ Ô KL Ò

Ü Ý ÓÒ ÝÜÔ Ò Ñ Ð Ñ Ý ÐÞ Ñ ÐÝ ÜÛ Ö Ó ÜÕ Ô Ð Ð ÚÖÐ ÜÝÛ Ñ Ü ÜØÕÒ Þ ÑÚÒÚÐ ÔÝÜÔ Ó Ð ÐÒ ÕÛÒ ÕÜ ÛÜ ÛÒ ÖÐ ÔÖ Ñ Ü Ñ ÜÛÒ ºÑÞÜ Ú Ð ÑÖ Û ÝÐ Ô Õ Ô Ü Ò ºÑ Õ Õ Ñ ÜÛÒ ÜÝ Ò Þ Ø Õ Ò Ú Þ º ÔÝÒÞÝ Ñ ÐÝ Þ Ú Þ Þ ÜÒ Þ Þ ÜÒÐ ºÜÛ Ô Ü Ø Ý Ü Ð Ð Ñ Ô Ý Þ Ú Þ Þ ÜØÝÐ Ó Õ Ô Þ Û Ð Û ÒÝ Ò Þ ØÝ ½ Ð Õ Ö Ô Ô Ý Þ Ü ÛÒ Þ ØÝ ÐÖ ÛÜ Ô Ô ÙÖ Ý Þ Ú Ð ÚÖ ºÛ Ô Þ ØÝ ÜØÕÒÒ Ñ ÖØÝ Ò Ð ÖÒ Ñ Ý ØÝ Ð Ñ Ñ Ð Ó Ñ Ð ÚÖ ØÐ ÔÞÝ Þ Ó Ö Ð ÚÖ ÑÖ Ü Ú Ö Ð Ô Ü Þ Ô Ý Ü Þ ÐÝ Ñ Ò Þ ÜÐ ÓÞ Ô ºÞ Ú ÛÐ Û Ð Ð Ü ÝÛ Ý Ñ Ü Õ Ô Ô Ü Ò ºÑ Õ Õ Ñ Ð ÑÖ Þ Þ ÖÒÝÒ Þ Þ Ú ÞÐ Ö Ü Û Ð ÔÛØÕ Ð Ñ Ü Þ Ö Ý ÝÒÔ Ñ Þ Ô ÑÞÚÜ Û ÜØ Ñ ÒÞ Ü Ð ÐÐ Þ Ø Ð Þ Ü Ò ¹ Þ Ý Þ Û Ð ÑÖ Þ Ô Ý Þ ÚÜ Þ ÕÔÐ Ñ Ô ÞÔ Þ Ó Ð Ð ÞÖ Û ÜØ ÔÞÖÐ ºÛÒ ÖÐ Ý Ô Þ ºÞ ØÝ Ð Ø ÜØ Þ ÜÞ Ü Ú Ð Ð ÞÝ Þ Ð Û Ð ÞÐ ÛÐ Ö ¹ Þ Ø ÜÞ Þ Ô Ö Ò Ò ÔÖ Þ Ý Ò Ò Ñ Þ Þ ØÕ Ô Þ Ü Þ Ö ÐÝ Þ Ú Þ Ò ÔÐÝ Ö Þ Ú Þ Ñ Ô Ý Ñ ÐÝÒ Û Û Û ÐÝ Ö Ü Ú Ó ¹ Ñ Û ÔÝÐ Ö Ð Ð Ø Þ Ö Þ ØÝ Þ Ð ÓÞ Ô Ñ Ð Ò Þ Þ ÐÝ Ý ÜÛ Þ Ô ÛØÞÕ Ð ÜÝØ Ð ØÝ Þ Þ Ð Ñ Ð Ò ÐÝ Þ ÔÒÕ Þ ÖÒÝÒ ÓÞ Ô Õ Ô º Ø Þ ÜØÕ ÔÜ Ô ÜÞ Ñ Ô Þ Ö ÞÒ Ñ Ý Ô Þ Ü ÛÒ ÐÝ Ñ ÚÖ Ó ÒÒ ÛÐ Ð Þ Ð Ý Þ ØÝ Þ ÔÐ Ý Ý ÔÝÐ Ö Þ Ü ÝÖ Ð Ý Ò Ý Ô ÝÖ Ñ Ý Ñ Ð Ö Þ Ú Þ ÝÒÞÝ Ð Þ ÛÐ Ð Ò Õ ÜÞ Ý Þ ØÐ ÐÐ Ð Ò Ðµ Ñ Ô Ý Ñ Û Ó Ô ÜÛ Þ Ò ¹ Þ Ô Ý º Ò Þ ÖÒÞÝÒ Þ Ô Û Þ ÖÒÝÒ Û Ð Þ Ð Ô ÜÝ Ò Ñ ÒÜ Ô Ñ ÒÜ ÐÝ Ð Ý ÞÒ Ñ ØÕ Ô Ñ Ò ÞØÕ Ö ÔÐÝ Û ÜØ Þ Ü Ð ÝÒ Ð ÓÞ Ô Ö Ð Ð Ô ÔÞÖÐ º Ò Ð Ñ Ð Ò Ñ ÒÜ Ô y¹ Ñ Ð Ò Ñ ÒÜ x Ñ ÐÝ Ñ ÞÒÚ Ý ÙÖ Þ Ô Ð ÓÞ Ôµ Þ ØÒ Û ÜØ ÞÜ ÕÒ Þ ÝÒÒÐ ÔÛØÕ Ð ÔÜÖÚÐ ºÓ Ð ÔÖ Ý Ð Ò ÜÞ Þ Ð Ø Þ Ú ÞÐ Û Ô ÐÝ Ñ Ô Ý Ñ Ò Ñ Ü ÝÛ Ü Û Ð ÓÞ ÔÝ Ñ ØÕ Ô Ñ Ý Ô º ÔÝÒÞÝ Ñ Ñ Ò Ü ÓÒ ÜÚ Û Ü Þ ÔÒÜ ÞÖÚ ÒÒ Ð Ò ÐÝÒе ØÝ ÞÖÚ ÒÒ Ð Ò Ü ØÝ ÖÚ ÒÒ Ñ Ð Ò ÜØÕÒ ÞÒ ºÜÞ Þ Þ Ú ÞÐ Ö Ð Ñ Ú ÛÒÐ Û Ð Þ ÜØÝÐ Þ ÕÔÐ ÓÞ Ô Ó Ò º Þ Ð Ô ÞÖÚ ÒÒ Ð Ò Ò

VII ÛÐ Þ Ü ÛÒ http://www.cs.huji.ac.il/~ai/projects/nlp.pdf ÜÒÞ ÓÜ Ò ÐÝ Þ Ü ÛÒ Ö Þ Þ ÐÒ Ô Ð Ò ¹ ¾ ÕÜ Û ÐÝ Ñ Ð ÜÞ Ñ Ü Ö Ý Þ ÚÒ ØÝ ÐÝ Ñ Ô Û Ñ Þ Ý ÒÐ ¹ ¾¾ ÕÜ Û ÐÝ Ñ Ü Ö Ý Þ ÚÒ Gutenberg Project - http://www.gutenberg.org/ http://www.bookrix.com/ http://www.e-book.com.au/morefreebooks/freemultilingualbooks.htm http://tnlessone.wordpress.com/2007/05/13/how-to-detect-which-language-a-text-is-written-in-or-whenscience-meets-human/ http://en.wikipedia.org/wiki/list_of_languages_by_writing_system#latin_script http://en.wikipedia.org/wiki/letter_frequency http://stackoverflow.com/questions/3194516/replace-national-characters-with-ascii-equivalent http://staff.science.uva.nl/~tsagias/?p=185 http://www.ise.bgu.ac.il/faculty/liorr/hbchap9.pdf http://www.onlamp.com/pub/a/python/2006/02/09/ai_decision_trees.html?page=4 http://www.101languages.net/common-words/

VIII ÛÐ Þ Õ Õ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ original langauges w/ diacritics original langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Kullback 79.43 78.07 78.07 79.07 67.72 68.36 66.92 66.86 Symmetric Kullback 77.85 75.71 75.5 76.71 67.28 67.28 65.86 64.92 Angle 59.5 58.28 60.57 59.43 57 56.5 60.22 58.78 Eucleadean 70.21 66.57 68.71 67.5 67.07 66.72 66.78 66.78 Infinity 48.85 43.14 47.71 46.29 41.14 42.57 45.42 42 Ranks 58.07 60 58.57 60.71 69.28 67.07 65.22 68.14 Simple Difference 62.85 65.14 64.14 64.79 58.36 61.07 60.5 61.78 All langauges w/ diacritics All langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Kullback 69.34 69.22 69.59 69.88 62.73 63.45 62.53 61.9 Symmetric Kullback 68.87 68.33 69.19 69.4 59.09 60.43 59.02 57.75 Angle 46.93 46.17 45 44.75 49.48 49.25 49.25 48.96 Eucleadean 59.19 58.77 57.38 57.12 56.66 57.98 57.56 56.59 Infinity 44.94 41.49 43.33 40.8 39.78 39.78 41.03 38.39 Ranks 42.56 43.85 46.35 45.60 55 57.53 58.45 57.75 Simple Difference 53.07 52.25 51.78 50.67 53.17 53.21 52.98 51.5 original langauges w/ diacritics original langauges w/o diacritics 500 1000 1500 2000 500 1000 1500 2000 Unigrams 62.57 62.05 61.91 60.1 56.96 55.61 57.81 58.57 Bigrams 69.55 66.89 68.48 69.39 69.6 65.31 68.86 68.81 First 58.42 60.86 61 61.1 55.1 54.23 52.91 55.71 Last 77.96 75.42 75.52 77.72 71.42 79.05 73.52 70.61 All langauges w/ diacritics All langauges w/o diacritics Unigrams 53.23 52.04 54.54 53.14 52.1 52.25 54.06 53.23 Bigrams 68.01 65.59 65.53 65.65 68.88 67.42 67.07 66.84 First 47.6 48.52 47.85 46.53 45.09 48.32 46.55 45.03 Last 53.95 55.54 54.57 55.47 53.14 55.32 54.5 53.1

IX ÛÐ Ð ÚÖ Þ Ú Þ ÜÛ Ö Ü Ø ¹ ³ ØÕÔ First Letter Last Letter 500 1000 1500 2000 500 1000 1500 2000 Gini 20 21.15 21.84 18.39 23.45 21.38 20.92 22.76 Entropy 20.68 20.68 22.06 22 25.74 26.43 23.9 29.86 IG 18.85 19.54 20.23 21.61 20.92 20.46 20 20.1 IGR 22.53 27.36 29.66 29.89 21.38 26.9 28.28 26.67 Train Error 16.09 17.93 18.62 18.16 15.86 20.69 20.69 20.69 Unigrams Bigrams 500 1000 1500 2000 500 1000 1500 2000 Gini 51.03 49.2 52.41 54.71 30.11 30.8 28.9 31.03 Entropy 57.24 62.29 70.11 68.28 61.38 64.83 67.13 62.56 IG 42.53 46.67 53.79 56.55 56.32 61.84 61.61 63.51 IGR 61.38 62.07 72.64 71.49 69.65 71.3 73.33 72.64 Train Error 39.77 42.53 44.83 46.44 27.58 28.05 33.1 31.72