פרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים)
-
@מיכלוש לא הבנתי
את יודעת לקרוא תווים? -
זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא תחום בתוכנה שבו מטרת התוכנה היא קידוד טקסט כתוב (בדרך כלל בדפוס, לעתים נדירות גם בכתב יד) למידע דיגיטלי טקסטואלי (כלומר, אוסף בתים) שמכיל טקסט זהה. התהליך כרוך בסריקה או בצילום של טקסט המקור לקובץ תמונה, והפעלה של תוכנה מתאימה שמזהה בתמונה את התווים השונים המרכיבים את הטקסט, וממירה כל אחד מהם לתו יחיד בקובץ טקסט. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה שאין בה הבחנה בין התווים השונים, בזיהוי הכתב האופטי ממירים ומפענחים תמונה שמורכבת ממליוני נקודות (פיקסלים), לאותיות שיש ביניהן אבחנה כמו באותיות מוקלדות.
את הזיהוי ניתן לבצע בשתי צורות שונות:
התאמה תבניתית - בשיטה זו שומרים על תבניות שונות של האותיות, ומנסים לבדוק איזה מהאותיות היא הדומה ביותר לתבנית.
תיאור מבני - בשיטה זו מחלקים את האות לחלקים שונים ויוצרים תיאור של חלקיה השונים של האות והיחסים שביניהם.
כדי למזער את כמות התווים השגויים שנוצרים בתהליך, מפעילה התוכנה לפעמים בדיקה מול מילון. במקרה זה התוכנה מכילה רובד נוסף שמרכיב את התווים המזוהים למילים שלמות, מחפש כל מילה במילון, ובמקרה שאינו מוצא אותה, מנסה לשנות תווים מסוימים (אלה שבהם וודאות הזיהוי נמוכה) עד שהמילה המזוהה נמצאת באוצר המילים של המילון.
שלבי התהליך
זיהוי שורות הטקסט ויישור השורה כך שהאותיות יהיו אופקיות. שלב זה פותר בעיות של דפים שסריקתם נעשתה בזווית, מה שמקשה על התוכנה לזהות את צורת האותיות בצורה נכונה.
ניקוי של הרקע מלכלוך. במקרה של טקסט עברי מאותר גם הניקוד ונמחק, כדי להקל על זיהוי האותיות עצמן.
הפרדת השורות השלמות לאותיות ומילים על פי מרווחים.
זיהוי הגופן (פונט) שבו הודפס הטקסט, על ידי הפעלת אלגוריתם (איטי) המזהה מאפיינים של גופנים שונים, ובוחר את הגופן הקרוב ביותר.
זיהוי האותיות הבודדות לפי המאפיניים המפרידים בין האותיות בהתאם לפונט הנבחר (זהו שלב מהיר).
חיפוש המילים המזוהות במילון (אופציונלי). בכל מקרה של מילה שאיננה במילון, מבוצע נסיון להחליף אותיות באותיות קרובות מבחינת מאפיינים, עד הגעה למילה שנמצאת במילון.
במקרה של מקור שמכיל גם תמונות, יצירת קובץ שבו משולב הטקסט עם התמונות הסרוקות.
חלק ממאפייני האותיות הם פשוטים, כדוגמת מיקומי קווים אופקיים ואנכיים, או משקל השחור בתתי האזורים השונים בתוך הריבוע המכיל את האות, רוחב האות וגובהה, חריגה מעל או מתחת לקו השורה וכדומה. במקרים בהם המרחק בין מאפייני אותיות דומות הוא גדול יחסית, ההפרדה היא אופטימלית.במקרים בהם התוכנה היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בתהליך אם ניתן לבדוק האם המילה הנבחרת מתאימה לתוכן, כלומר האם במיקום בו היא זוהתה, היא בהקשר סביר לטקסט. הבנת ההקשר היא מורכבת ונעשית על ידי בדיקה האם המילה ממלאת תפקיד חיבורי הגיוני במשפט, או בשיטות סטטיסטיות - האם המילים בקרבתה מופיעות במקום אחר או במסמכים אחרים ובאיזו הסתברות.
תוכנות זיהוי מתוחכמות בנויות כרשת עצבית, שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות - גופן הדפסה, גודל אות, אוצר מילים ועוד.
-
פוסט זה נמחק!
-
@סודי-ביותרררררררר אמר בפרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים):
@מיכלוש לא הבנתי
את יודעת לקרוא תווים?כן אני יודעת אבל לפעמים יש דו שלישי למשל שנמצא למעלה למעלה... ואין לי כח להתחיל לבדוק מה הוא...
אז שאלתי אם יש דרך שאני ילחץ על התו וזה יגיד לי מה זה.. -
@מיכלוש אמר בפרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים):
אז שאלתי אם יש דרך שאני ילחץ על התו וזה יגיד לי מה זה..
לא יודעת על איזו תוכנה את מדברת אבל אני עובדת עם פינאלה ובה אם אני מחברת מקלדת שליטה אפשר לעשות את זה
אני משערת שבכל התוכנות זה ככה -
@margalit אמר בפרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים):
@מיכלוש אמר בפרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים):
אז שאלתי אם יש דרך שאני ילחץ על התו וזה יגיד לי מה זה..
לא יודעת על איזו תוכנה את מדברת אבל אני עובדת עם פינאלה ובה אם אני מחברת מקלדת שליטה אפשר לעשות את זה
אני משערת שבכל התוכנות זה ככהמה זה מקלדת שליטה?
-
@מיכלוש אמר בפרסמו פה משהו להורדה שכותבים תוים..(המשך בפנים):
מה זה מקלדת שליטה?
זה קלידים שמחברים למחשב אין להם צליל משל עצמם והם עובדים עם פקודות מידי.
https://www.halilit.com/23631-Keyboard-Controllers