Opis zlecenia
Zlecę napisanie skryptu który z katalogów z plikami pdf wyekstrahuje wszystkie powiązane ze sobą dane tj. dane teleadresowe, kontaktowe itp.
Pliki pdf mają złożoną strukturę (ponad 100 elementów per jedna firma, w pliku wiele firm) które trzeba wyciągnąć z jednego pliku pdf
Rezultat który nas interesuje to w pełni ustrukturyzowane dane w pliku .csv /.xls/.xlsx/
Jeżeli miałeś do czynienia z danymi typu CIDG / KRS/ Monitor Sądowy /
Jeżeli miałeś do czynienia z #NLP #pytnon #PyPDF #PyMuPDF ... to sobie poradzisz
link do 2ch przykładowych plików .pdf
https://wyszukiwarka-msig.ms.gov.pl/api/Monitor/Download?id=1943&fileId=true
https://wyszukiwarka-msig.ms.gov.pl/api/Monitor/Download?id=6969&fileId=true
Proces:
1) podpisujemy umowę zlecenia i umowę NDA
2) otrzymujesz testowe 30 plików
jak potwierdzisz że potrafisz je transformować
3) otrzymujesz katalog z przykładowymi 6000 plikami
4) podsyłasz wynik działania skryptu
sprawdzamy poprawność danych czy nie rozjeżdżają się w kolumnach
jak wszystko będzie ok
5) otrzymujesz przelew
6) podsyłasz skrypt z instrukcją instalacji / obsługi