4
submitted 6 months ago by [email protected] to c/[email protected]

Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.

I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).

Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?

top 5 comments
sorted by: hot top new old
[-] [email protected] 3 points 6 months ago

Hej @[email protected] , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!

@[email protected]: jeśli jakiś pdftotext rygorystycznie trzyma się tzw. dywizów (łączników, "myślników", "-") zamiast myślników ("–", "—"), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją: s/(\b)-\n(\b)/\1\2/gmu: http://regex101.com/r/BJMjRG/1.

[-] [email protected] 2 points 5 months ago

Hej Waćpan! PFM już się tym zajął, ale w razie czego będę na przyszłość o Tobie pamiętał! Dzięki!

[-] [email protected] 2 points 6 months ago

Posklejać to automatycznie może być ciężko... Czy takie rozdzielone słowa mają myślniki w miejscu podziału? To by pomogło.

[-] [email protected] 2 points 6 months ago
[-] [email protected] 2 points 6 months ago

Może pomogą Ci te narzędzia: https://tinywow.com/tools

this post was submitted on 22 Dec 2024
4 points (83.3% liked)

zapytajszmer

442 readers
1 users here now

Społeczność Szmerfów pytających :) Masz pytanie? Zadaj je, inne Szmerfy chętnie odpowiedzą.

founded 4 years ago
MODERATORS