Skrypt parsera do przetwarzania treści ustaw i rozporządzeń na strukturę JSON (według paragrafów i ustępów)
Dzień dobry,
Zlecę wykonanie skryptu, który przetwarza akty prawne (np. Kodeks karny, ustawy, rozporządzenia) z formatu PDF/HTML/TXT na uporządkowaną strukturę JSON.
Parser powinien rozpoznawać i strukturyzować:
Tytuł aktu, datę uchwalenia, źródło publikacji (np. Dz.U.),
Działy, rozdziały, artykuły, paragrafy, ustępy, punkty i litery – zgodnie z typową strukturą aktów prawnych w Polsce,
Treść każdej jednostki redakcyjnej.
Przykładowe źródła: Kodeks karny (Dz.U. 1997 nr 88 poz. 553), ustawa o ochronie danych osobowych, ustawa o ochronie środowiska itd.
Preferowany język: Python (np. BeautifulSoup, regex, pdfplumber, PyMuPDF)
Dopuszczalne inne technologie, jeśli projekt będzie elastyczny i czytelny.
{
"tytul": "Kodeks karny",
"dzial": "Dz.U.1997 nr 88 poz. 553",
"data_wejscia": "1997-06-06",
"dzialy": [
{
"numer": "Dział I",
"tytul": "Zasady odpowiedzialności karnej",
"rozdzialy": [
{
"numer": "Rozdział 1",
"tytul": "Zasady ogólne",
"artykuly": [
{
"numer": "Art. 1",
"ustępy": [
{
"numer": "§ 1",
"tresc": "Odpowiedzialności karnej podlega ten tylko, kto popełnia czyn zabroniony pod groźbą kary."
},
{
"numer": "§ 2",
"tresc": "Czyn zabroniony popełniony przez osobę niepoczytalną nie stanowi przestępstwa."
}
]
}
]
}
]
}
]
}
Wymagania techniczne:
wejście: PDF (OCR lub tekstowy), HTML lub TXT,
wyjście: JSON z możliwością rozszerzenia (np. metadane),
dobrze opisany kod, najlepiej w formie modułu lub klasy, do łatwego wykorzystania w innych projektach.
Plusem będzie:
obsługa przypisów, notatek redakcyjnych, uchyleń,
odporność na błędy formatowania (np. linie łamane, podziały stron).