Tento web používá soubory cookie. Dalším používáním webu s tímto souhlasíte.
jméno
heslo
přihlásit
zaregistrujte se
zapomněli jste heslo?
Elektronické knihy - tvorba a příprava
JYRKA
Jak vytvořit elektronickou knihu, tipy / triky. Předávání zkušeností za účelem zlepšení kvality knih Ideální zdroj informací zde: http://www.digitalbookworld.com/resources-going-from-indesign-to-ebook/
Máte k tomu co říct? Vložte se do diskuze.
PEPAK --- 10:33:17 31.8.2012
SANTIAGO: Jo, to už bych bral jako jasný důvod pro FR8. Pro případy, kdy mám PDF s dobrou textovou vrstvou, samozřejmě.
SANTIAG0 --- 10:20:01 31.8.2012
PEPAK: Zkus si libovolny pdf, FR8 pri extrahovani textu z textove vrstvy pdf provadi jednu docela zajimavou vec. Z textove vrstvy podle me bere jenom obsah textu, ale lamani textu (konce radku, konce odstavcu) vklada podle rozlozeni na strance. Timhle zpusobem dostanes vetsinou skoro bezchybne zalamany text, ktery se da dal bez problemu zpracovat.

Ale samozrejme to ma i sve chybky :) viz treba neumi korektne nacist ligatury atd... treba vcera jsem narazil na "drobny" problem kdy v pdf mistama mezi slovy neni znak mezera, ale jenom roztazene cosi a pak je docela problem :p
FERRYH --- 9:46:40 31.8.2012
nevim... ja tech konvertoru zkusil jen par.. vetsinou ale mely problem s tema kapitalkama a nejcastejsi problem pak byl s koncem radku vs. konec odstavce a pod. Nejhorsi je ze kazdej ma neco jineho, takze ty abys na urcite pdf pak zkousel vice konvertoru nez najdes ten pravej a v tom prave je to nejhorsi utrpeni s konverzi pdf...

abys rozumel, ja si nemyslim, ze FR8 je na pdf samospasna vec ... vim moc dobre jake ma slabiny! mam ho dost dobre odzkouseny a na pdf mame uplne jine nastroje, kde je sice cesta ponekud klikatejsi a pracnejsi, ale udela se VZDY excelentni vystup s minimem formatovani (a jen to nezbytne jako je kurziva tucne a podobne) a tehle vystup se pak pouzije na novou sazbu ebooku...

to FR8 jsem ti jen chtel ukazat, ze vystup z nej je lepsi a kvalitnejsi, co do cistoty textu, nez je ten OCR vystup v tech novejsich FR9-11 ...

jinak FR8 ti tohle to udela uplne s kazdym pdf stejne a jedina jeho slabina jsou ty nonUnicode fonty a jejich blbe kodovani cestiny... tady vzdy narazis a pak musis vzdy udelat zas totez jako v novejsim FR: OCR ... a to nepovazuju za neco uzasneho ... OCR mam dost ze skenu a vim jake jsou jeho slabiny (napriklad to zhuzveni nekolika odstavcu do sebe kvuli spatne detekci nejakeho konce odstavce a zamena za konec radku)

jinak ten mnou zminenej 100% postup na pdf kterej pouzivame na cokoliv je:

Adobe Acrobat (full) s nainstalovanym Enfocus PitStop Pro s jeho pomoci udelas s pdf skoro vse - i vymenis ci nahradis fonty za vhodnejsi a podobne a pak je vystup jak ma byt a bez chyb, perfektni zdroj pro nove formatovani do ebooku. At uz .doc .odt .html a pak pozdeji epub ci mobi...
PEPAK --- 8:25:02 31.8.2012
FERRYH: Tohle mi připadá jako přesně ten případ, na který já jsem dosud nenarazil, kdy je textová vrstva v pořádku a dá se použít. To pak samozřejmě není problém vytáhnout prostý text. To pak ale nepotřebuješ FineReader 8, to ti stačí vcelku libovolný nástroj pro konverzi PDF do čehokoliv. Nejspíš bys dostal dobré výsledky i s Calibre, kdyby to PDF bylo ve starší verzi specifikace, kterou Calibre umí.

Oprav mě, jestli se mýlím a je v tom něco víc, ale jen tak experimentálně jsem vyzkoušet dva PDF do HTML konvertory a výsledky jsou v rámci možností dost podobné jako to, co jsi dal jako příklad výstupu FR8.
FERRYH --- 8:01:42 31.8.2012
tady mas malou ukazku z FR8 a FR9 - obe se stejnym nastavenim moznosti exportu do .doc ... a FR8 ma zaple, aby nedelal OCR ale native pdf text.
predpokladam. ze mas FR9, takze jsem to druhe vyjel v nem..
kdyz ne, zkus si tu ukazku pdf sam ... a porovnej s tim co dava FR8.
http://goa.misto.cz/tmp/ukazka/pack.zip
nekde jsme nedavno sehnal portable verzi FR8 abych to nemusel instalovat a netriskalo se mi to s tema novejma... pokud chces testnout, muzu to zkusit jeste nekde sehnat.. co vim tak FR8 snad byl dokonce rozdavanej zadara ke skenerum, ale pak skoncili a davaj uz jen nejakou orezanou verzi FR10...
PEPAK --- 7:56:51 31.8.2012
FERRYH: Nerozumím. Vím jen o dvou způsobech, jak z PDF dostat text - číst tu textovou vrstvu, nebo OCRkovat vizuální výstup. OCR celkem pochopitelně vede na OCR chyby, textová vrstva byla ve všech mnou testovaných PDF zcela nepoužitelná. To, co píšeš, chápu tak, že existuje ještě třetí způsob vytahování textu, který nemá chyby předchozích dvou, ale nerozumím tomu, odkud tedy bere data.
FERRYH --- 6:58:18 31.8.2012
PEPAK: ty mi nerozumis, udela to TOTEZ co udela FR kdyz dela OCR ... a ty take muzes pak udelat totez co delas TED (ulozit ... exportovat atd.) ... jen je to naprosto bez OCR chyb ... text je s 1:1 jen si formatovani udela stejne jako to je u OCR...

a pri PDF OCRkovani ten FineReader chyby dela... nerikej ze ne.. :o) je sice lepsi nez ze skenu, ale chyby tam jsou, nekdy i HODNE chyb a zakernejsich nez ty ze skenu...
PEPAK --- 6:05:35 31.8.2012
FERRYH: K čemu by to přepínání bylo dobré? Textovou vrstvu PDF jsem příležitostně zkoumal už dříve a ještě jsem neviděl ani jeden soubor, kde by byla aspoň trochu použitelná.
FERRYH --- 23:59:55 30.8.2012
PEPAK: zkus FR8 ... je to posledni starej finereader kterej umi prepinat nacitani textu z pdf v obou modech, teda jak native cteni textu (spatne kdyz je v pdf pouzitej starej nonUnicode font - primarne to blbne s cestinou, kdyz je to ze stareho apple nebo win95-8 pagemakera, quarkxpressu), tak pak i OCR textu pdf jako u vsech novejsich FR.

PS: JYRKA mi tvrdi, ze nejnovejsi ABBYY PDF Transformer 3 to umi take jako ta FR8 .. ale ja mu moc neverim... :o) ...vim ze ABBYY PDF Transformer byl vzdy jen orezanej Finereader a to prepinani tam nikdy nemel... a vzdy delal OCR textu pdf jako ty novejsi FR
... ovsem ruku do ohne za to nedam - ze to ten ABBYY PDF Transformer 3 nema... jsem linej to instalovat, uz tak mam tri abbyy v systemu... to mi staci, vic to zasirat nemusim :))
JYRKA --- 9:59:38 30.8.2012
PEPAK: poslední dobou mám super zkušenosti s Acrobatem z CS6.
Když nepočítám to, že pokud je sazeč prase, tak nepomůže nic...