| הויקי של hocr | מדריך סריקה | מדריך לסריקת דפים ישנים |
| מדריך שימוש בתכנת hocr-gtk | מרריך שימוש בתכנת hocr (שורת הפקודה) |
| התקנת hocr-gtk בחלונות | התקנת hocr במק |
| OpenOffice.org | SANE |
| מה אני רוצה שישופר בגרסה הבאה |
חבילת התכנה hocr ומדריך זה מופצים תחת רישיון GPL
הפרויקט נתמך על-ידי מענק של איגוד האינטרנט הישראלי
אתר הפרויקט מאוחסן בשרתי:
תודה לכל מי שעזר להכין ולהגיה מדריך זה.
תודה ל:
למתנדבי פרויקט בן יהודה שסיפקו את התמונות הישנות והצהובות.
אם תרמתם למדריך זה הרגישו חופשיים להוסיף את שימכם פה !
מדריך זה מסביר כיצד להפיק את המירב מסריקת דפים ישנים ומצהיבים.
התכנה בה יעשה שימוש במדריך זה היא:
ImageMagick - תכנה חופשית לעיבוד תמונה
התכנה עבור מערכת הפעלה חלונות:
http://www.imagemagick.org/script/binary-releases.php#windows
ראשית קראו את מדריך סריקה. מדריך זה מניח כי הקוראים קראו את המדריך המתקדם לסריקה.
כאשר אנו מבקשים מהסורק לספק לנו תמונה שחורה לבנה של דף מספר, הסורק מודד את התמונה ומחליט כיצד לבצע את ההמרה בצורה הטובה ביותר. לרוב, הסורק מבצע את המדידות וההחלטות בצורה מדוייקת, אך לפעמים הוא זקוק לעזרה. מדריך זה מסביר כיצד לבצע ידנית בעזרת תכנת מחשב את הפעולות הללו. ההחלטה החשובה ביותר שמבצע הסורק לצורך מדריך זה היא בחירת רמת הסף.
רמת סף : threshold היא רמת הבהירות אשר ממנה ומטה נחשבת נקודה לשחורה ומעליה הנקודה נחשבת ללבנה. כאשר הסורק עובר על התמונה הוא מודד את הבהירות של הנקודות בדף ומחליט על פי המידע הזה מה רמת הסף המתאימה לדף הנתון. בד“כ החלטה זו מדוייקת בהרבה ממה שניתן להסיק ידנית ע”י התבוננות בתמונה.
כדי לבצע את פעולות אלו ידנית נזדקק לתמונה הקרובה ביותר למקור. סורקים רגילים מספקים את מירב המידע על התמונה כאשר מבקשים מהם לסרוק בצבע מלא ובצפיפות גבוהה. מדריך זה יעסוק רק בטיפול בצבע. ניתן לשנות ידנית גם את צפיפות הנקודות לאינץ, אך מדריך זה לא יעסוק בסוגיה זו. למעשה כדאי לסרוק בצבע מלא וצפיפות הגבוהה ביותר שהסורק מסוגל לה. לצורך שימוש במדריך זה נסתפק בצפיפות של 300 נקודות לאינץ כדי שלא נאלץ לבצע גם את המרת הצפיפות בצורה ידנית.
כעת לאחר שסרקנו תמונה ב 300 נקודות לאינץ ובצבע מלא יש לנו תמונה צבעונית, המכילה את כל הפרטים אותם רואה הסורק.
תמונה א, תמונה צבעונית מהמאגרים של פרויקט בן יהודה
אם ניתן לסורק להחליט לבד על ערך הסף, נקבל תמונה המכילה לכלוכים רבים. תופעה זו מתרחשת כאשר צבע הדף צהוב, ואותיות משתקפות מצידו השני. ישנם סורקים המסוגלים להחליט על רמת סף מדוייקת גם עבור דפים המודפסים באיכות גרועה, כדאי ראשית לבדוק את איכות התמונה המתקבלת כאשר נותנים לסורק להחליט באופן אוטומתי על סף הבהירות ורק אם התמונה גרועה לנסות לבחור רמת סף טובה יותר ידנית.
תמונה ב, התמונה בשחור לבן ללא התערבות
מאוד קשה לקלוע ידנית לרמת הסף הרצויה, ובד“כ התהליך כרוך בניסוי וטעיה. אנו נשתמש בתכנת ImageMagick
כדי לבצע את ההמרה של תמונה צבעונית לתמונה שחורה לבנה שתתאים לצרכינו.
בעזרת תכנה זו ניתן גם לשנות את צפיפות הנקודות באינץ, אך לצורך מדריך זה
נטפל רק ברמת הסף.
ישנן תכנות רבות המסוגלות לבצע פעולה זו. אם ברשותכם תכנת עיבוד תמונה שאתם מכירים ומרגישים בנוח להתשמש בה, סביר להניח כי ניתן לבצע פעולות אלו גם בה.
שימוש רגיל בתכנה זו, לצורך המרת תמונה צבעונית לתמונה בגווני אפור בלבד, נראה כך:
convert 006.jpg -monochrome 006-auto-mono.jpg
אנו רוצים לשלוט ברמת הסף בה תשתמש התוכנה. בתכנת ImageMagic הדגל הקובע את רמת הסף הוא דגל ה threshold. בתכנה זו רמת הסף המינימלית היא 0 והמקסימלית היא 65000.
שימוש בתכנה תוך שליטה על רמת הסף, נראה כך:
convert 006.jpg -monochrome -threshold 25000 006-mono.jpg
תמונה א, התמונה התקבלת
התוצאה הסופית היא תמונה שחורה לבנה המציגה רק את האותיות שאנו רוצים לקרוא על רקע לבן ברור. לאחר שמצאנו את רמת הסף המתאימה לדף בודד, סביר להניח כי ערך הסף שהתאים לדף הראשון יתאים גם ליתר הדפים בספר, ואין צורך לחפש שוב את ערך הסף המתאים.
ניתן למכן את פעולת ההמרה על ארכיון של תמונות צבעוניות ע”י שימוש בתסריטים. הנה תסריט Bash לדוגמה:
for a in `ls *.png`; do convert $a -monochrome -threshold 25000 $a-mono.jpg done
תסריט זה יהפוך את כל הקבצים בסידור png בארכיון שלנו לקבצים מסידור jpg המכילים תמונות בשחור לבן שהומרו תוך שימוש ברמת סף של 25000. לאחר הרצת התסריט בארכיון המכיל קבצים בסידור png, יוצרו עותקים חדשים של כל התמונות. העותקים החדשים יהיו בסידור jpg ויכילו תמונות בגוני אפור.
דוגמה זו מדגימה שימוש בשיטה זו על תמונות שנסרקו מספר ישן. תודה למתנדבי פרויקט בן יהודה שסיפקו את התמונות.
התמונות המקוריות כפי שנסרקו ע"י מתנדבי פרויקט בן יהודה:
קישור למדף התמונות
התמונות לאחר שעברו עיבוד בעזרת תכנת ImageMagic:
קישור למדף התמונות
תסריט ה Bash בעזרתו הומרו התמונות:
קישור לתסריט
כדאי לנסות ערכי סף שונים ולבצע את ההמרה בעדרת ערך הסף שנותן את התוצאות הטובות ביותר.