Articole

Clusterizarea unei rețele sociale medievale de către SOM folosind o măsură de distanță bazată pe kernel

Clusterizarea unei rețele sociale medievale de către SOM folosind o măsură de distanță bazată pe kernel

Clusterizarea unei rețele sociale medievale de către SOM folosind o măsură de distanță bazată pe kernel

De Nathalie Villa și Romain Boulet

Lucrările ESANN 2007 (Bruges, 2007)

Introducere: Rețelele sociale au fost studiate intens prin intermediul graficelor în ultimii ani: exemple de astfel de studii sunt date pentru World Wide Web, rețele științifice sau rețele P2P. Majoritatea acestor grafice provin din rețelele sociale moderne, în timp ce ne propunem aici să analizăm organizarea socială a unei comunități țărănești medievale înainte de Războiul de 100 de ani. Această rețea socială a fost construită dintr-un corpus de contracte agrare.

Un prim studiu investighează această problemă prin utilizarea proprietăților algebrice ale unui grafic neponderat. Propunem aici o nouă abordare, folosind o metodă neuronală automată și mai precis o adaptare a Hărții de autoorganizare Kohonen (SOM) pe datele descrise de o matrice de diferențiere. Algoritmul SOM, introdus pentru prima dată de Kohonen, este o metodă nesupravegheată care permite atât clusterizarea, cât și vizualizarea. Datele originale, care trăiesc de obicei într-un spațiu cu dimensiuni ridicate, sunt proiectate neliniar într-un spațiu cu dimensiuni reduse (în general, dimensiunea de proiecție este setată la 1 sau 2) numită hartă; sunt împărțiți în mai multe clustere păstrându-și în același timp topologia inițială. Acest algoritm a fost recent adaptat la date non-vectoriale; ne concentrăm aici pe adaptarea propusă în; a fost introdusă și utilizată o variantă a acestui SOM de disimilitate (sau SOM median) pentru exploatarea utilizării web în și o versiune mai rapidă este apoi descrisă în. Algoritmul pe care îl propunem este cel descris în, dar folosim o distanță definită pe o pondere grafic prin nucleul de difuzie.

Lucrarea este organizată după cum urmează. În secțiunea 2, reamintim algoritmul SOM de diferențiere (secțiunea 2.1) și descriem modul în care distanțele bazate pe un nucleu pot fi utilizate pentru a produce un algoritm de clasificare nesupravegheat pentru grafice ponderate (secțiunea 2.2). În secțiunea 3, ne concentrăm asupra setului de date medievale: după descrierea acestuia (secțiunea 3.1), explicăm modul în care ne aplicăm metoda în mod eficient și cum construim o clasificare finală (secțiunea 3.2). În cele din urmă, în secțiunea 3.3, comparăm această clasificare cu cunoștințele anterioare algebrice sau istorice: unele asemănări demonstrează că rezultatele sunt în concordanță cu lucrările anterioare.

Graficul pe care am testat abordarea noastră a fost obținut dintr-o bază de date de aproximativ 10 000 de contracte agrare de la patru companii din Lot și Tarn-et-Garonne (sud-vestul Franței). Aceste contracte au fost stabilite între 1240 și 1520. Istoricii sunt preocupați în principal de analiza sociabilității țării în Evul Mediu, dar baza de date este prea mare pentru un studiu exhaustiv, astfel încât sunt necesare instrumente de extragere a datelor.

Aici ne concentrăm asupra unei părți a acestei baze de date, bazată pe semnatura Castelnau-Montratier (Lot) între 1240 și 1350 (înainte de Războiul de 100 de ani). Pe baza acestei baze de date, am construit un grafic ponderat având 226 vârfuri (țăranii) care sunt legate între ele dacă apar în același contract. Ponderile erau pur și simplu numărul de contracte comune în care doi țărani apăreau împreună. Am curățat graficul ștergând nobilimile, deoarece acestea erau menționate în aproape fiecare contract (ca autorități legale).