Dex Online mi se pare unul dintre cele mai utile și interesante proiecte din online-ul românesc. Cine nu-l deschide instinctiv deja atunci când are o dilemă lingvistică? Îl știam pe Cătălin Frâncu de mai mult timp. Unul dintre primii oameni la Google, student la MIT, olimpic internațional cu multiple premii la informatică și un om pasionat de lucrurile interesante, implicat în proiecte sociale. Împreună cu Radu Borza, și el programator pasionat de lingvistica computațională, au pus pe picioare Dex Online, ajuns acum unul dintre cele mai folosite site-uri din .ro. I-am întrebat mai multe despre ce înseamnă pentru ei acest proiect, în mare parte voluntariat, non-profit, care au fost motivațiile lor și mai ales care sunt provocările.

Care este povestea Dex Online? Cum v-a venit ideea și cum ați pus pe picioare proiectul?

Cătălin Frâncu: Când încerci să pui pe picioare un proiect, ajută foarte mult dacă acel proiect suplinește o nevoie reală a societății. A început dintr-o joacă, în 2001. Eu voiam să învăț dezvoltare web și, fiindcă nu îmi place să copiez exemple din manual, îmi căutam un proiect concret. În același timp, eram student în Boston. Pe de o parte simțeam lipsa unui dicționar explicativ (pe hârtie), iar pe de altă parte românii de acolo ne pândeam mereu greșelile de exprimare. Cred că simțeam cu toții că depărtarea de țară nu e o scuză să-ți uiți limba.

De aceea, un dicționar explicativ pe Internet mi s-a părut un proiect bun pentru mine ca inginer și bun pentru societate. Dar a durat cam un an până să ajung să-l iau în serios (de exemplu, proiectul a fost găzduit la mine pe calculator în primii 3 ani și uneori mai închideam calculatorul).

Proiectul a luat amploare când, providențial, Federația Română de Scrabble a dat peste el și au decis să se implice. Ei își doreau de mult un dicționar digital și, deși DEX online era în fașă (avea sub 100 de definiții), i-au acordat încredere.

Radu Borza: Eu m-am alăturat dexonline în 2004. Am avut preocupări similare din 2000, cînd am făcut un flexor pentru verbe și pe care voiam să-l generalizez la toate părțile de vorbire. Pentru asta am folosit lista de flexiuni (bazată pe Dictionarul Morfologic) pusă la dispoziție de Federația Română de Scrabble (FRSc). Care federație tocmai își dorea o listă de cuvinte (cu flexiuni) și, de ce nu, cu definiții. Iar proiectul lui Cătălin le-a făcut cu ochiul :). Primul meu proiect la dexonline a fost unul exact pe partea de flexiuni și, de asemenea, colaborativ: eu am proiectat structura bazei de date și formalizarea setului de reguli și am importat în DB regulile din lista celor de la FRSc, iar Cătălin a scris codul pentru aplicarea regulilor și afișare.



img_003010_mic

Cătălin Frâncu

Care au fost cele mai dificile lucruri de care v-ați lovit?

Cătălin Frâncu: Nu am atât timp cât mi-aș dori. În afara unor mici perioade de avânt, m-am ocupat de DEX online în toți acești 11 ani doar în timpul liber.

În afară de asta, au mai fost și momente de muncă plicticoasă și migăloasă, de ce să nu recunosc. Bunăoară, de multe ori este nevoie să parcurgem un document sau un set de definiții și să facem diverse înlocuiri (cum ar fi să delimităm toate abrevierile cu niște caractere speciale). Pentru aceasta scriem un program, dar programul trebuie să se descurce cu texte cu greșeli, cu cazuri particulare, cu o structură prost definită, etc. De aceea iterăm prin versiuni tot mai bune ale programului, care scapă tot mai puține cazuri particulare, dar această muncă nu este favorita mea.

Radu Borza: Din punctul meu de vedere, cel mai supărător lucru este lipsa de implicare din România, în special la nivel de muncă în folosul comunității. Iar cînd se asociază cu critica neconstructivă, devine chiar enervant.

Spuneți-mi câte ceva despre fiecare dintre voi.

Cătălin: Am crescut în anii ‘80 și cred că de acolo mi se trag multe. Prima dată am avut un calculator pe mână la 10 ani (HC 85!). Mi-a plăcut să mă joc pe el, dar am vrut și eu să programez joculețe. Așa am prins drag de programare. Au trecut ceva ani de-atunci, dar și acum îmi place să meșteresc programe. Îmi place să distribui rezultatele muncii mele ca să poată beneficia și alții.

Radu: Ce ai vrea să știi? 🙂 Un link către Linked In spune tot.

Am văzut că baza de date este la liber și că accesul pentru programatori este de asemenea free. Cum ați decis asta într-o lume a online-ului unde simțul proprietății este foarte dezvoltat?

Cătălin: Cred că nu suntem chiar o raritate. Există nenumărate proiecte de software liber, date libere, cultură liberă. Există nenumărate motive pentru care oamenii creează. De obicei nu creează „ca să fie al meu și să nu-l dau la nimeni, decât contra cost și cu prețul semnării unei licențe draconice”. Așa se străduie să ne facă să credem marile corporații producătoare de software sau de artă, dar nu este așa.

Ca student, prin anul 2000 am rupt-o (aproape) complet cu lumea software-ului patentat (Windows, Microsoft Office, Internet Explorer și toate celelalte). Cu foarte rare excepții, folosesc numai software liber și am ajuns să apreciez spiritul de hacker. Acest cuvânt, hacker, nu îl iau cu sensul pervertit de „om care sparge rețele și programează lucruri ilegale”, ci cu sensul istoric de „programator entuziast care îmbină munca cu joaca”.

E natural să dorim să aplicăm același tratament nu doar programului DEX online, care în definitiv nu e formidabil, cât mai ales bazei de date pe care a produs-o munca noastră și care dă adevărata valoare proiectului. După cunoștințele noastre, este cea mai mare colecție de definiții, cuvinte și flexiuni pentru limba română, disponibilă public și neîncărcată de drepturi de autor. Considerăm că ar fi meschin să restrângem accesul la ea.

Radu: dacă vrem să avem voluntari, trebuie să fie „open source” … 🙂 Din păcate, în România la oferta noastră de a lăsa codul și baza de date libere, ni s-a răspuns prin clonarea site-ului, unoeri chiar fără menționarea surselor. Un singur site din cele cam 20 care ne clonează oferă mai mult decît simpla clonare…

25032011297

Radu Borza

Câte cuvinte se caută în medie pe lună?

Cătălin: În 2012 am avut puțin peste 120 de milioane de afișări, deci cam 10 milioane pe lună. Din acestea, cam 7,5 milioane sunt căutări. Result sunt afișări ale paginii principale sau ale altor pagini.

Radu: Aș zice cam 300.000 de cuvinte „unice” în circa 7-8 milioane de căutări.

Presupun că există o corelație foarte mare între căutări și dinamica socială. Îmi puteți da câteva exemple de cuvinte “la modă”?

Radu: păi după o emisiune din martie în care MR Ungureanu l-a corectat pe Gîdea în ceea ce privește folosirea lui „salutar”, a apărut un vîrf în perioada aia. Fără a detecta motivul, în decembrie am avut „levitație”. Ambele au devenit cuvinte ale lunii în proxima lună.

Dar cu anul școlar?

Cătălin: Cu anul școlar / universitar suntem foarte bine corelați. De câte ori vine săptămâna aceea de vacanță în școli și licee, mă alarmez pentru că scade traficul pe server și prima mea reacție e „aoleu, s-a stricat ceva!” 🙂 După care îmi dau seama că e vacanță și mă liniștesc.

Radu: imediat după începerea anului școlar au apărut în top cuvintele: carte, omonim, sens, neologism. 🙂

Cum alegeți cuvântul lunii?

Radu: aici îți pot spune pentru că chiar eu le propun: dacă există un cuvînt care s-a remarcat prin ceva deosebit (de exemplu celebrul „salutar” sau „calorifer”-ul). Altfel, aleg un cuvînt dintre cele mai căutate (top 3), evitînd să am de două ori consecutiv același cuvînt.

Unele cuvinte sînt stele pentru o zi (vezi salutar sau levitație), dar în ziua aia adună mai multe vizualizări decît cuvinte căutate în top într-o lună întreagă. Trebuie să menționez aici că un scor bun pentru un cuvînt este de 6-7.000 de căutări pe lună. Altele sînt cuvinte care își strîng într-o perioadă mai lungă (dar tot bine determinată): boicot, cvorum, plagiat. Pentru comparație, am pus și graficul cuvîntului empatie care este în top 10 mai tot timpul (saltul din grafic a apărut cînd l-am promovat drept cuvîntul lunii).

Ce gen de cuvinte se caută?

Radu Borza: era o vreme cînd se căutau cuvintele care sînt frecvent scrise pe ziduri (le pot exemplifica, dar cred că le bănuiești), însă cu timpul căutările s-au diversificat. Unul dintre cuvintele care e mereu în top 10 este „empatie”…

Am văzut că criticați undeva faptul că Institutului de Lingvistică sau alte instituții nu sunt deschise spre colaborare. De unde credeți că vine reticența asta?

Radu Borza: Probabil ai văzut aici.  :)Nu avem nimic în particular cu ei… Institutul de Lingvistică este pur și simplu o simplă oglindă a societății românești de astăzi. Asta ca instituție, deoarece angajații institutului colaborează cu noi, ba mai mult: dexonline este unealta principală pe care o folosesc în elaborarea definițiilor.

Cătălin Frâncu: Eu cred că este un fel de autosuficiență, un turn de fildeș. Sunt convins că munca lor și operele rezultate sunt lucruri nobile. Mi-aș dori însă să-și petreacă mai mult timp întorși cu fața către publicul larg. Am citit despre același fenomen în societatea americană după al doilea război mondial. Convinse că au câștigat războiul datorită progreselor științei, SUA i-au înecat în finanțări pe cercetători. Acest lucru a fost benefic, dar a avut și un rezultat neanticipat și nedorit. Ușor-ușor, cercetătorii au încetat să mai explice munca lor față de publicul larg, căci nu mai era nevoie — finanțările veneau oricum. Și de aici s-a ajuns la ruptura totală între oamenii de știință și publicul larg, încât astăzi lumea este invadată de pseudo-știință, iar omul de rând percepe știința ca pe un fel de magie, ceva ce vine de sus și către care nu mai aspiră. Aș vrea ca Academia Română să evite acest pericol.

Ce planuri de viitor aveți cu Dex Online?

Cătălin: Oho! Partea frumoasă cu programarea este că fiecare treabă încheiată îți deschide posibilități pentru alte două-trei. Printre cele mai interesante ar fi:

  • Un crawler de texte românești care să creeze o arhivă de literatură și articole.
  • Pe baza acestuia putem adăuga exemple de folosire alături de fiecare definiție.
  • Tot pe baza unui crawler putem depista cuvinte care apar frecvent pe Internet, dar care în DEX online nu există. Putem colabora cu o echipă de lingviști ca să elaboreze definiții pentru aceste cuvinte
  • Trebuie să structurăm definițiile pe care le avem, căci majoritatea dicționarelor se inspiră unul după altul. Din cauza aceasta, rezultatele căutării pe DEX online produc multe definiții asemănătoare, iar această redundanță este inutilă și supărătoare.
  • Vrem să continuăm să achiziționăm și să importăm dicționare, în special de nișă, căci acolo suferă calitatea noastră.
  • Avem multe idei pentru joculețe cu temă lingvistică

Radu: Aș adăuga:

  • Un concordanțier online (pentru a vedea contextele reale în care sînt folosite anumite cuvinte);
  • Structurarea bazei de date existente astfel încît să se poată face căutări complexe bazate pe partea de vorbire, etimologie, prefixe/sufixe, limba de proveniență șamd;
  • Mici aplicații pentru învățarea limbii române (cel mai simplu exemplu ar fi generarea automată de exerciții de analiză gramaticală);
  • Neapărat îmi doresc să organizez un concurs de cunoaștere de cuvinte pentru elevi (și nu numai!).

Care sunt cărțile voastre preferate?

Cătălin: Din păcate, citesc mult mai puțin decât aș vrea. Sunt abonat la Scientific American și la Technology Review. Acestea însumează cam 120 de pagini pe lună, majoritatea dense în informație și greu de citit. Printre picături, mai citesc cărți SF (am citit aproape tot de Michael Crichton, de exemplu) și cărți de popularizarea științei. Printre favoritele mele de aici sunt Gena Egoistă de Richard Dawkins și Plăcerea de a descoperi lucruri de Richard Feynman.

Radu: Camil Petrescu „Ultima noapte de dragoste. Prima noapte de război”. Jerome K. Jerome „Trei într-o barcă”. Aldous Huxley „Brave New World”. Stanislaw Lem: „Solaris” și „Întoarcerea din stele”. Philip K. Dick „Timpul dezarticulat”.
Dintre cele non-ficțiune Arnold Toynbee „Studiu asupra istoriei” și Richard Dawkins „Gena egoistă”. Și dacă mai stau pe gînduri, o să mai adaug cîteva pe listă 🙂

13112010240

Când erați mai mici obișnuiați să căutați cuvintele pe care nu le știați din cărți sau auzite în dicționar sau le ignorați pur și simplu?

Cătălin: Sigur că da! Chiar nu sufeream să nu înțeleg un cuvânt (probabil parte din ușoarele mele tendințe compulsive). Aveam două dicționare când eram elev, numite colocvial în familie „ăla verde” și „ăla roșu”. Sunt Dicționarul de neologisme din 1986 și Dicționarul limbii române contemporane din 1980. Un DEX n-am avut până în 2001.

Radu: Niciodată nu le ignoram. Dacă le puteam interpola din context, bine, dacă nu… mergeam la dicționar. Dar îmi plăcea și să răsfoiesc Dicționarul Enciclopedic sau, mai tîrziu, Larousse-ul și Britannica. Oricum, manualele și cărțile pentru copii aveau „obiceiul” pe atunci să aibă explice cuvintele mai rare la subsol.

Ce părere aveți despre accesul liber la informație versus copyright? Mai ales că discuția a revenit în atenția publică într-un mod neplăcut, prin sinuciderea lui Aaron Swartz?

Cătălin: Un lucru pe care puțină lume îl înțelege astăzi este că puterea deținătorilor de drepturi de autor este mult, mult prea mare. Situația s-a înrăutățit în ultimele zeci de ani. Cei mai tineri dintre noi s-au născut în această închisoare a copyrightului și nu cunosc lumea din afara ei.

Scopul principal al oricărei legi este beneficiul societății. La fel cum autoritățile au dreptul să cheltuiască bani publici, dar sunt obligate să obțină cât mai multe beneficii pentru societate cheltuind cât mai puțini bani, tot așa autoritățile au dreptul să emită legi care să micșoreze libertatea societății, dar numai dacă rezultatul este benefic pentru societate.

În același mod, o lege a drepturilor de autor este un compromis: răpește publicului libertatea de a copia, dar stimulează publicarea și creșterea patrimoniului cultural. De aceea, și numai de aceea, este acceptabil să oferim autorilor drepturi exclusive asupra operei lor, pentru o perioadă scurtă de timp. Dar trebuie să nu uităm că autorii nu sunt egali cu întreaga societate; că binele societății este pe primul loc, iar acordarea de privilegii autorilor este doar un stimulent ca să-i încurajeze să publice.

Situația la care s-a ajuns în prezent este aberantă. Majoritatea autorilor aleg să transfere drepturile lor unor samsari (uneori numiți și „edituri” sau „case de discuri”). Samsarii țipă ca din gură de șarpe că au nevoie de puteri tot mai mari, de durate mai lungi pentru drepturile de autor și de pesepse mai aspre pentru încălcarea lor. Ei folosesc termeni de propagandă ca „document protejat de drepturi de autor”, „proprietate intelectuală” și „piraterie”. Samsarii vor să ne facă să uităm că, implicit, societatea are dreptul natural de a disemina informația și că noi suntem cei care decidem în ce măsură renunțăm la acest drept și ce cerem în schimb.

Nu întâmplător s-a ajuns la acest conflict tocmai în perioada Internetului. În secolele 17-18, legea dreptului de autor cerea publicului larg să renunțe la o libertate mică, pe care oricum nu și-o putea exercita: cea de a copia opere (nimeni nu avea o presă în casă). Acum, însă, cu toții avem o presă în casă, numită calculator. Compromisul făcut în secolul 17 s-a întors împotriva societății. Aplicabilitatea și durata drepturilor de autor trebuie reevaluate.

O enormitate strigătoare la cer, care ne privește direct, este concesionarea către samsari privați a unor opere realizate din bani publici. Este ca și cum s-ar construi o autostradă din bani publici, dar numai o singură persoană are voie să conducă pe ea. Unde este beneficiul pentru societate în această înțelegere? Operele realizate din bani publici nu pot sta decât în domeniul public.

Radu: Nu sînt un fan al copyright-ului, dar nici al furtului muncii altora. În ceea ce privește informația, în special în contextul internetului, socotesc că realitatea transcede legile actuale, iar interpretările actuale sînt forțate (vezi așa-zisa „piraterie”). Cînd este vorba de situații noi, se impun legi noi, și nu extinderea absurdă a legilor existente.

Sîntem în pragul unei revoluții: „latifundiarii” (ce-i care vor să controleze accesul la informație – în schimbul banilor, asta e problema: dacă ar ascunde informația, nimeni nu ar ajunge la ea) își apără proprietățile avînd de partea lor cîțiva „mercenari” înarmați (legea prost interpretată și avocații) cu care vor să apere de „gloată” (așa-zișii „pirați”). Deocamdată „gloata” se teme să atace deoarece acționează individual și fiecăruia îi e frică să nu fie împușcat, însă dacă nu se ajunge la un compromis, s-ar putea ca latifundiarii să piardă și terenurile și să fie uciși în timpul revoltei (ceea ce iar nu e bine pentru că s-ar crea haos).
Sinuciderea nu este o strategie cîștigătoare.


Cătălin, tu ai fost printre primii oameni la Google. Ce te-a făcut să te întorci în România? Ce faci acum? Am văzut că ești implicat în multe proiecte sociale.

Cătălin: N-am fost chiar primul, am fost al 500-lea. 🙂 Era o companie mică în comparație cu gigantul de astăzi, dar mie, abia ieșit din școală, mi se părea mare.

Întoarcerea în România n-a fost o decizie alb-negru. De altfel, sunt convins că aș fi fost fericit și dacă aș fi ales să mai rămân în San Francisco. Am înclinat în partea asta pentru motive personale, căci toată familia mea era aici. Sigur, și dincolo am o mulțime de prieteni, deci oriunde aș locui mi-ar fi dor de cineva. Dar parcă-parcă îmi place mai mult să locuiesc aici și să mă duc în vacanță acolo, decât invers.

Câteva statistici despre cum au crescut anumite cuvinte în căutări în perioade specifice

Plagiat

Salutar

Boicot

Empatie

Foto: colecția personală a celor doi intervievați

8 comentarii
  1. v

    “angajații institutului colaborează cu noi, ba mai mult: dexonline este unealta principală pe care o folosesc în elaborarea definițiilor”

    Poftim?! Asta-i povestea cu oul și găina? Adică institutul Iorgu Iordan elaborează dicționarele din care își trage substanța dexonline, dar de fapt definițiile din dicționare provin ele însele din dexonline? wtf?

    Reply
    1. Horia

      @V: nu cred ca au vrut sa zica ca institutul Iordan isi copiaza definitiile din dex online. Cred insa (si aici e un raspuns si pentru “Me” de mai jos!), ca dexonline este CEL MAI BUN instrument de verificat definitii EXISTENTE in diverse dictionare romanesti ale diversor perioade (dexonline include, din cate stiu, mai nou, inclusiv dictionare vechi de tot ale limbii romane!). Si cum nici inst. Iordan nu poate face altceva, cand vrea sa vada ce cuvinte sunt deja in dictionare, si cum sunt ele definite, e logic ca ii ajuta dexonline.

      Mi se pare pacat ca in societatea romaneasca, prea adesea se isca certuri pe marginea unor probleme minore (orgolii, deobicei) si ele impiedica o colaborare a celor destepti intre ei. Efectul: avem prim-ministru un plagiator si parlament de analfabeti si hoti. Romanii normali si cultivati sunt ocupati cu certuri si orgolii.

      Reply
  2. Me

    In niciun caz lingvistii nu iau definitiile din dexonline. Lucrez pentru Institutul mentionat si procedura de lucru la DEX este cu totul alta. Probabil da bine sa spuna asta, chiar daca nu e adevarat.

    Reply
  3. ion

    Da măi băieți, dar cum dracu ați preluat chestia aia cu “poză” sinonim “fotografie”??! De unde până unde sunt sinonime??? V-ați uitat în dicționarele țărilor care au “descoperit”, “inventat” procesul acela de “PHOTO” rezultat PHOTOGRAPHY ??!!! Unde dracu mai sunt “sinonime”??..cred că nici în Rusia…( acuplarea dintre două persoane e…..rezultatul se numește “copil” și nu ceea ce l-a procreat)

    Reply
    1. Horia

      domnu’ Ion, de ce nu citesti matale un pic aici: http://dexonline.ro/definitie/P%C3%93Z%C4%82
      si in rest, daca nu-ti place cum zic romanii, de vreo 50-100 de ani incoace fotografiei, n-ai decat sa scrii un articol polemic pe chestia asta (inconsecventa lingvistica a romanilor) dar nu sa zici ca “de ce au pus astia de la dexonline poza=fotografie”. Nu vezi ca dexonline doar CITEAZA dictionare existente?

      Reply
  4. Pingback: Scurte - 16 august 2013 » subiectiv.ro

Leave a Reply

Your email address will not be published. Required fields are marked *