| הויקי של hocr | מדריך סריקה | מדריך לסריקת דפים ישנים |
| מדריך שימוש בתכנת hocr-gtk | מרריך שימוש בתכנת hocr (שורת הפקודה) |
| התקנת hocr-gtk בחלונות | התקנת hocr במק |
| OpenOffice.org | SANE |
| מה אני רוצה שישופר בגרסה הבאה |
חבילת התוכנה hocr ומדריך זה מופצים תחת רישיון GPL
הפרויקט נתמך על-ידי מענק של איגוד האינטרנט הישראלי
אתר הפרויקט מאוחסן בשרתי:
http://www.brelios.de
תודה לכל מי שעזר להכין ולהגיה מדריך זה.
תודה ל:
אם תרמתם למדריך זה הרגישו חופשיים להוסיף את שימכם פה !
מדריך זה מלמד כיצד להשתמש בתכנת hocr-gtk. תכנה זו משמשת להמרת תמונות שקיימות במחשב באחד מסידורי התמונה המקובלים, לדוגמה: jpeg, png, tiff, bmp, לקובץ טקסט המקודד בקידוד utf-8. רוב מעבדי התמלילים מסוגלים לקרוא קידוד זה.
מדריך זה מסביר את השימוש בתכנת hocr-gtk.
תכנת hocr-gtk מבצעת את פעולת פיענוח התמונה לטקסט הניתן לעריכה. ביצוע ההמרה מתבצע במספר שלבים:
חלונות התמונה והעריכה מסודרים זה מעל זה כדי להקל על מלאכת ההגהה של הטקסט הסרוק. חלון העורך מקל על עבודת ההגהה, אך תמיד ניתן לשמור את הטקסט המתקבל כמו שהוא, ולבצע את כל עבודת ההגהה במעבד תמלילים.
לצורך ביצוע פעולת הפיענוח אנו זקוקים רק לשלושת הפתורים הראשונים בסרגל הכפתורים:
בהמשך מדריך זה מפורטים כל התפריטים והכפתורים בתוכנת hocr-gtk המקלים על ביצוע הפיענוח של תמונה לטקסט בר הגהה ועריכה, ומאפשרים להפעיל ולבטל תכונות בתהליך הפיענוח.
סרגל התפריטים מאפשר להגיע לכל האפשריות והפעולות שניתן לבצע בעזרת תכנת hocr-gtk, לחלק מהפעולות מקשי קיצור דרך המופעים לצד שם הפעולה. ניתן להשתמש במקשי קיצור הדרך ליעול העבודה, מקשי-קיצור הדרך מאפשרים לבצע פעולות ללא צורך לפתוח את התפריט, פשוט לוחצים על צרוף המקשים והפעולה מתבצעת כאילו לחצתם על התפריט.
תמונה א, סרגל התפריטים
תפריט הקבצים:
פתיחה: פתיחת קובץ תמונה חדש, והצגתו בחלונית התמונה.
הפעלה: ביצוע זיהוי טקסט אופטי על התמונה, והצגת הפלט בחלונית התקסט.
שמירה: שמירת הטקסט שנוצר בקובץ טקסט לצורך עיבוד במעבד תמלילים.
שמירת תמונה: שמירת התמונה בקובץ. סידור התמונה יקבע לפי סיומת שם הקובץ, לדוגמא הקובץ pic.jpeg ישמר בסידור jpeg
xsane: xsane היא תכנה המשמשת להפעלת סורקים המחוברים למחשב או קיימים ברשת. אם התכנה xsane מתקנת במחשב, לחיצה על אפשרות זו תפתח חלון חדש של תכנה זו. בעת סגירת תכנת xsane תעלה התמונה האחרונה שנסרקה לתוך חלון התמונה של hocr-gtk.
יציאה: סיום העבודה בתכנה וסגירת החלון.
תמונה ב, תפריט הקבצים
תפריט העריכה:
אות: מאפשר לקבוע את סוג האות בה יעשה שימוש בחלונית העריכה.
איות: קובע האים יסומנו שגיאות כתיב בחלונית העריכה.
צבע קופסאות: האים התכנה תסמן על גבי חלונית התמונה איך זוהה מבנה הדף.
צבע אותיות שגויות: האים התכנה תסמן על גבי חלונית התמונה אילו אותיות לא זוהו כראוי.
ניקוי: האים יש לנקות את חלונית העורך לפני הוספת טקסט חדש.
OCR: האים לבצע זיהוי אותיות על התמונה, לפעמים נרצה רק לראות כיצד התכנה זיהתה את מבנה העמוד.
מילון: האים התכנה תנסה להתשמש במילון פנימי כדי לשפר את יכולת זיהוי האותיות.
ניקוד: האים התכנה תנסה לזהות ניקוד בתמונה.
רווחים: האים התכנה תכניס רווחים כאשר היא מזהה רווח טבלאי : tab
הזחה: האים התכנה תנסה להזיח שורות מוזחות לשמאל.
תמונה ג, תפריט העריכה
תפריט התצוגה:
מאפשר לקרב ולהרחיק את התמונה כדי לזהות פרטים עדינים בתמונה, או לחלופין לראות את כל התמונה.
תמונה ד, תפריט התצוגה
תפריט העזרה:
אודות: מציג פרטים אודות התכנה.
תמונה ה, תפריט העזרה
כאשר הזיהוי מבוצע על תמונות גדולות, תהליך הזיהוי עשוי לקחת זמן ממושך. כדי להדגים למשתמש כמה מתהליך הזיהוי הושלם, מציג פס ההתקדמות את החלק בתהליך הזיהוי שכבר בוצע. כאשר כל הפס מלא הסתיים תהליך הזיהוי.
תמונה א, פס ההתקדמות
סרגל הכפתורים מאפשר גישה מהירה לביצוע פעולות המבוצעות בתדירות גבוהה יותר, ללא צורך בפתיחת תפריטים או שימוש במקשי קיצור-דרך.
תמונה א, סרגל הכפתורים
לאחר שפתחנו תמונה שמחכה לזיהוי היא תופע בחלונית התמונה. ניתן להתבונן בתמונה במבט תקריב המאפשר לבחון את איכות הסריקה או במבט מרוחק המדגים את מבנה הדף. אם השתמשנו באפשרויות של הוספת סימנים על התמונה, נראה לאחר ביצוע הזיהוי גם כיצד תכנת hocr-gtk הבינה את מבנה הדף ואילו אותיות לא זוהו כהלכה.
תמונה א, אזור התמונה
לאחר ביצוע זיהוי הטקסט, הטקסט המזוהה יופיע בחלונית עריכת הטקסט. בחלונית זו ניתן לבצע הגהה ראשונית לפני העברת החומר למעבד תמלילים. ניתן לערוך את הטקסט והניקוד וכן לבצע פעולות עריכה כמו העתקה הדבקה וניקוי.
תמונה א, עורך הטקסט