să scriem împreună un generator de text markov (iv)

sâmbătă, 26 ian. 2013, 12:40

Am stabilit în cadrul părții a treia a seriei că urmează să construim un generator de text Markov format din două componente:

  • O componentă care primește la intrare un model statistic, adică un lanț Markov, și întoarce un text generat aleator. Aceasta a constituit subiectul celei de-a doua părți a tutorial-ului.
  • O componentă care primește la intrare unul sau mai multe texte într-o limbă oarecare și construiește pe baza lui, respectiv a lor, lanțul Markov necesar generării de text. În cele ce urmează vom implementa această a doua parte, care este de fapt prima parte a algoritmului în totalitatea sa.

Am observat de asemenea că problema construirii unui model pentru generarea propozițiilor într-o limbă oarecare este teoretic intractabilă. Pe de o parte un „corpus al limbii” complet ar putea fi constituit doar din totalitatea textelor și cuvintelor scrise în limba respectivă. Pe de altă parte limba este o unealtă flexibilă, cu reguli și excepții care pot fi încălcate în diverse contexte, și a cărei formalizare este un subiect de cercetare intens la ora actuală în știința lingvisticii. (mai mult…)

să scriem împreună un generator de text markov (iii)

vineri, 4 ian. 2013, 23:44

Până acum am povestit despre lanțuri Markov și am găsit un model computațional de reprezentare a acestora, după care am construit pe baza modelului un program care parcurge pseudo-aleator lanțul și întoarce stările parcurse. Am arătat că stările pot diferi de la un apel la altul și că valoarea stării următoare depinde de distribuția de probabilitate formată de stările succesoare. Din fericire generatoarele de numere pseudo-aleatoare din calculatoarele de zi cu zi sunt suficient de bune încât să asigure încadrarea cu o anumită eroare (suficient de mică) în distribuția fiecărei stări.

O abordare mai serioasă a lanțurilor Markov ar presupune parcurgerea unor subiecte destul de aride precum procesele stochastice și distribuțiile de probabilitate. Din nefericire noi nu avem loc aici să intrăm în astfel de subiecte, motiv pentru care abordarea folosită în continuare va fi una așa-zis „intuitivă”, sau mai degrabă o bâjbâială empirică având rolul de a familiariza cititorul cu problema lanțurilor Markov și a generării de text pe baza lor. (mai mult…)

să scriem împreună un generator de text markov (ii)

joi, 27 dec. 2012, 11:32

În cadrul articolului introductiv am prezentat pe scurt ideea de a implementa un generator de text Markov ca exercițiu pur didactic, am explicat câteva din conceptele teoretice fundamentale pe care se constituie aplicația și nu în ultimul rând am definit o structură de date în Haskell, structură care se mapează unu la unu pe cea a unui lanț Markov. Mai departe voi da un exemplu de construcție (non-algoritmică) a unui obiect de tipul Chain, după care vom porni spre a programa un simulator de procese Markov, definit printr-o interfață oarecare, fixă, interfață care la rândul ei se constituie pe baza unor funcții Haskell.

O primă și importantă funcționalitate a acestei interfețe o reprezintă aceea de construire a lanțurilor Markov. Modulul Data.Map oferă tot soiul de modalități de construire a dicționarelor, printre care inserarea, reuniunea etc. Dat fiind că în programarea funcțională cea mai naturală metodă de a reprezenta chestii este lista, noi vom defini o funcție fromList, care se va folosi de omoloaga din Data.Map pentru a construi lanțuri Markov din asocieri stare-listă (de tupluri stare-probabilitate):

fromList :: Ord a => [(a, [(a, Float)])] -> Chain a
fromList = M.fromList

(mai mult…)

să scriem împreună un generator de text markov (i)

sâmbătă, 15 dec. 2012, 15:29

Invit cititorul de Cărămizi să ia parte la o inițiativă

  • (a) destul de rar întâlnită pe blog-urile românești,
  • (b) pur didactică,
  • (c) destinată programatorilor amatori, profesioniști sau pur și simplu oamenilor cărora le place să-și folosească chestia aia dintre umeri, și nu în ultimul rând
  • (d) aparent inutilă.

De fapt punctul (d) e în mare parte fals; stând un pic și cugetând, realizez că ar fi foarte util să urmăriți tutorialul dacă doriți de exemplu să învățați Haskell sau să vă faceți o idee legată de analiză statistică și lanțuri Markov, sau pur și simplu dacă vreți să vă dezvoltați un generator de spam [i]. (mai mult…)

  1. Nu văd care-i problema. Scopul meu e acela de a le arăta oamenilor cum să folosească cuțitul, nu să le explic cum ar putea să-l vâre în alți indivizi. []

ce am deschis o bere?

joi, 21 aug. 2008, 17:52

Early worm catches bird. Frecat creierul cu statistica, probabilitati, integrale complexe, transformate, check. Stay tuned, dear people, acum va voi face trecerea spre disperarea lor, mana pe mai dat ca si Alte comic uri ceea ce imi vezi cine a trebuit sa invat la detergenti, nu sa citeasca acest gen sunt confuze.

Mai ramas structurile de sau o pura curiozitate am apucat sa mai adaug multi dolarei in privinta output urilor e permanenta, si pe cei care se pare ca si am reziliat contractul cu extensia exe, in ceea ce fel conectarea unui Rhythmbox, nu se de music social networking sau mai intamplat de lucru la fel ca bonus, cei patru membri ai trupei de Un riff fain de ajuns la Louis Armstrong si simplu nu pot sa fac prea scurte: vorbesc pe RGC.

Va dau eu nu foarte buna: mult sau mai cum se identifica Firefox Alo, tovarasi!

Post generat folosind dadadodo şi lanţuri Markov, pe baza ultimelor 20 de entry-uri din blogul spaicului. Mark these words well, for they represent truth.