Slijede razlike između dviju inačica stranice.
| Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
| racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 10:21] jturic [Poglavlje 3] | racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 12:24] (trenutno) | ||
|---|---|---|---|
| Redak 3: | Redak 3: | ||
| ===== Sažetak ===== | ===== Sažetak ===== | ||
| - | How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https:// | + | Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate. | 
| - | Keywords: | + | Keywords: | 
| ===== Uvod ===== | ===== Uvod ===== | ||
| Redak 12: | Redak 12: | ||
| ===== Postavljanje okoline ===== | ===== Postavljanje okoline ===== | ||
| - | Prvo je razmotrena jako jednostavna metoda. Za svaki par < | + | Kao okolina, sa stranice blogger.com, | 
| - | Postavimo | + | Generirano | 
| Redak 21: | Redak 20: | ||
| ===== Similarity-based baseline method ===== | ===== Similarity-based baseline method ===== | ||
| - | Druga metoda | + | Prvo je razmotrena jako jednostavna | 
| + | Postavimo X= <x_1,…,x_n> | ||
| {{: | {{: | ||
| Redak 28: | Redak 28: | ||
| ===== Supervised baseline method ===== | ===== Supervised baseline method ===== | ||
| - | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author | + | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author | 
| - | ===== The Many-Candidates | + | ===== Many-Candidates | 
| Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000  autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000  autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | ||
| Redak 45: | Redak 45: | ||
| ===== Many-candidates rezultati ===== | ===== Many-candidates rezultati ===== | ||
| - | Many-candidates methodu je primijenjeno na problem blogera prethodno opisan, koristeći 1 000 testnih isječaka za različite veličine seta kandidata: 50, 500 i 5000. | + | Many-candidates methodu je primijenjeno na problem blogera prethodno opisan, koristeći 1 000 testnih isječaka za različite veličine seta kandidata: 50, 500 i 5000. U grafu 2, možemo vidjeti da se rezultati poboljšavaju kako se broj kandidata autora smanjuje. Na svakoj krivulji, označen je prag Ϭ* = 0.80. Na primjer, za 500 kandidata, pri pragu Ϭ* = 0.80, imamo preciznost 90.2%. Za ovaj eksperiment, | 
| - | + | ||
| - | ===== Poglavlje | + | |
| + | {{: | ||
| Redak 55: | Redak 54: | ||
| ===== Zaključak ===== | ===== Zaključak ===== | ||
| - | + | U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem. | |
| + | Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora. | ||
| ===== Literatura ===== | ===== Literatura ===== | ||
| - | [1] [[http:// | + | [1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author | 
| - | + | ||
| - | [2] [[http://www.google.com/books? | + | |
| - | + | ||
| - | [3] [[http:// | + | |