pátek 17. dubna 2020

top 20 slov uplynulého týdne

Jak jsem psal v posledním článku, začal jsem trošku programovat v Pythonu.

Už asi před 8 lety jsem začal dělat hodnocení zpráv, nyní v tom pokračuji, resp. celé jsem to přepsal do Py (resp. ještě ne celé, ale už mám tak půlku :) )

Prostě - žere to zprávy z RSS zdrojů, rozebírá je to na jednotlivá slova, ty pomocí Natural Language Processingu převádí na stejný tvar a z něj pak počítá počty.

Je to zajímavé, dají se z toho vysledovat pěkné trendy, ukázkou je následující tabulka.

Jasně dominuje koronavir, ale dají se vysledovat i další slova, spíš mě zajímá ta technologie, ale dřív nebo později to vyvedu i na web.


10.04.202011.04.202012.04.202013.04.202014.04.202015.04.202016.04.202017.04.2020
koronavirkterýkoronavirkoronavirkoronavirkterýkoronavirkoronavir
člověkkoronavirkterýkterýkterýkoronavirkterýkterý
nebýtčlověkčlověkpodlepodlepodlepodlepodle
českýsobotapodlečlověkčlověkkvůliPrahavláda
KoronavirpodlePrahapočetkvůliopatřeníkvůlikvůli
RuskotýdenopatřenípandemievládavládaČeskočlověk
podletisícneděleposledníPrahaPrahačlověkopatření
Českopřípadpandemiekvůlipandemiečeskýopatřeníkoruna
opatřenínebýtnemocnicenakaženýčeskýČeskočeskýduben
početpandemievládadalšíopatřeníčlověkdalšípočet
kvůlihodněčeskýopatřeníprocentministerstvopandemienemocnice
hodněkvůlinebýtPrahaČeskodubenmilionzákon
tisícvládapočethodněministerstvodalšíministerstvoPraha
pandemiečeskýkvůliprezidentbřezenpandemienebýtčeský
desetnemocZemantýdentýdenamerickýsenátprocent
Koněvministrnákazcovid-19dalšíhodněčtvrtekdalší
vládaměsíctýdenpřípadhodněškolavládaprvní
karanténapočetvelikonočnítisícúterýpřípadamerickýkvěten
svátekněkterýhodněamerickýobchodprvníchtítsenát
dubenopatřeníČeskočeskýpočetpočetpočetBabiš

0 komentářů:

hledej.me » Tykač

Google
 

počet návštěv blogu za posledních 7 dní

Oblíbené příspěvky

hledej.me