חיפוש PDF עברית — למה Ctrl+F נשבר

14:22. ראית בעדות 3 התייחסות ל"מוחמד אבו־חאלד" כעד מרכזי. אתה זוכר שהשם הזה הופיע בעדות 7 בהקשר אחר. ניסית Ctrl+F על כל ה־47 קבצי ה־PDF. הוא חוזר ב־5 קבצים. נראה לא הגיוני — אתה זוכר שראית אותו לפחות 10 פעמים.

פתחת את עדות 7 ידנית. מצאת אותו. רק שהוא כתוב שם "מחמד אבו חאלד" — בלי הואו, בלי המקף. בעדות 12 הוא "מ.א.ח.". בעדות 21 כתוב עם ניקוד מלא: "מֻחַמַּד אַבּוּ־חַ׳אלֶד". Ctrl+F רואה ארבעה דברים שונים. הוא צודק — מבחינתו זה כך.

הבעיה היא שזה אותו אדם, וזה לא מקרה של איש אחד עם שם קשה. זה דפוס שחוזר בכל שם, בכל מקום, בכל מספר מוצג שאתה רוצה לעקוב אחריו על פני התיק.

ארבע הסיבות ש־Ctrl+F בעברית מתסכל

1. סריקה במקום טקסט

רוב המסמכים המגיעים מנט המשפט הם תמונות של עמודים, לא טקסט. אין מה לחפש בהם — Ctrl+F רואה תמונה ומחפש בשם הקובץ. הפתרון הבסיסי הוא OCR (זיהוי אופטי של תווים), אבל OCR גנרי שלא אומן על עברית משפטית מחזיר 70-80% הצלחה. זה מספיק שתפספס את האזכור הקריטי.

2. ניקוד מתלבש על אותיות

מסמכים ישנים, חוות דעת אקדמיות, מזכרי תרגום — מנקדים. המילה "מוחמד" עם ניקוד מלא היא רצף תווים שונה מהמילה "מוחמד" בלי ניקוד, אפילו שלעין הם זהים. ה־Unicode מוסיף תווי ניקוד אחרי האות. Ctrl+F לא מנרמל את זה אוטומטית.

3. כתיב מלא מול חסר, אחיד מול לא־אחיד

"מוחמד" עם ואו, "מחמד" בלי. "אבו־חאלד" עם מקף, "אבו חאלד" ברווח, "אבוחאלד" צמודים. כל גורם חקירה מתרגם את השם אחרת. אין סטנדרט. Ctrl+F לא מבין שזה אותו אדם — הוא רק רואה רצפי תווים שונים.

4. גרשיים, מרכאות וצורות סוף

ראשי תיבות עם גרשיים: "מ"א מקצועי" (גרש אחד) מול "מ״א מקצועי" (גרשיים יוניקודיים) מול "מ'א מקצועי" (גרש מאופן אחר). אותיות סופיות (ם, ן, ץ) שלא תמיד מוגדרות באותו רצף בייטים. בעיני המשתמש אלה אותם תווים. ל־PDF reader זה לא.

שלוש שכבות של חיפוש שבאמת עובד

חיפוש על PDF עברי שעובד הוא לא כלי אחד — זה שלוש שכבות שעובדות יחד. כל שכבה תופסת סוג שונה של התאמה, וכל תוצאה מסומנת לפי הסוג שלה כדי שתוכל לדעת איזו ראיה יש לך ביד.

שכבה 1 · חיפוש טקסט מנורמל

לפני שמחפשים, כל הטקסט מנורמל: ניקוד מוסר, גרשיים מאוחדים, רווחים מיותרים מנוקים, אותיות סופיות מאוחדות עם הצורה הרגילה. ה־Ctrl+F המסורתי, רק נכון. תופס את ההתאמות המדויקות שתפסת ידנית — מהר ובלי החטאות.

שכבה 2 · התאמת ישויות

המערכת מזהה ש"מוחמד אבו־חאלד" ו"מחמד אבו חאלד" ו"מ.א.ח." הם אותו אדם. זה לא רק חיפוש "fuzzy" — זה הבנה ש"אבו" הוא קידומת, ש"חאלד" יכול להיכתב "ח׳אלד", וש־"מ.א.ח." הוא ראשי תיבות שהיו "מוחמד אבו חאלד" בעמוד 3 של אותו מסמך. גם למקומות, גם לזמנים, גם למספרי מוצג, גם לתאריכים.

שכבה 3 · חיפוש סמנטי

לפעמים האזכור לא משתמש בשם בכלל. "הנחקר הראשון ביום שני התעקש שלא היה ליד החנייה" — בלי שם. שכבה 3 מחפשת לפי משמעות: השאלה "מתי החשוד הכחיש נוכחות בחנייה" תחזיר את המשפט הזה גם בלי שהשם או הביטוי "כחש" יופיעו. זה רובד הרמז — לא ודאות, אבל מספיק כדי לפתוח חקירה.

שלוש השכבות רצות יחד. תוצאה אחת יכולה להגיע משכבה 1 (התאמה מדויקת אחרי נירמול), שכבה 2 (אותו אדם בכתיב שונה), או שכבה 3 (משמעות דומה). כל תוצאה מסומנת — ירוק = ודאות, כתום = התאמת ישות, כחול = רמז סמנטי. אתה מחליט לאיזה רובד להתייחס.

איך זה נראה על תיק 4217/26

תיק 4217/26, חיפוש: "מוחמד אבו־חאלד". 5 תוצאות חוזרות.

תוצאות חיפוש

דוח פעולה 02.03.pdfעמ׳ 4

התאמת ישות

תמלול חקירה.pdfעמ׳ 12

טקסט מלא

עדות עד 7.pdfעמ׳ 2

סמנטי

חוות דעת מומחה.pdfעמ׳ 19

התאמת ישות

כתב אישום.pdfעמ׳ 1

טקסט מלא

שתי תוצאות "טקסט מלא" — Ctrl+F היה תופס אותן. שתיים "התאמת ישות" — Ctrl+F היה מפספס (האחת בגלל ניקוד, השנייה בגלל כתיב חסר). אחת "סמנטית" — Ctrl+F בכלל לא היה רואה את זה (העדות מתייחסת ל"הנחקר", לא לשם).

לחיצה על כל תוצאה פותחת את ה־PDF המקורי בעמוד הנכון, עם הדגשה על השורה. אתה רואה את ההקשר המלא — לא מסתמך על הציטוט הקצר.

מתי זה לא שווה

אם יש לך מסמך אחד של 10 עמודים — Ctrl+F של ה־reader שלך יספיק. אם ה־PDF הוא כתב יד מ־1990 — שום OCR בעולם לא יחזיר את זה. אם הנחקר הוא דמות יחידנית עם שם נדיר ולא יכול להופיע בכתיבים שונים — גם Ctrl+F יספיק.

התשואה מתחילה כשיש 5+ מסמכים, ריבוי גורמי חקירה, ושמות או ישויות שמופיעות בכמה כתיבים. ככל שהתיק גדל, הפער בין Ctrl+F לבין שלוש השכבות הופך לדרמטי.

שאלות נפוצות

מה ההבדל בין חיפוש סמנטי לחיפוש טקסטואלי?

חיפוש טקסטואלי מוצא את האותיות המדויקות (מותאם להבדלים בכתיב). חיפוש סמנטי מוצא לפי משמעות — "הרכב עזב לכיוון דרום" יחזיר גם "הוויטו נסע דרומה". שניהם רצים בו זמנית; הראשון לרובד הוודאות, השני לרובד הרמז.

האם החיפוש עובד על סריקות באיכות נמוכה?

כן, עד גבול מסוים. סריקה ברורה בשחור־לבן או צבע — OCR יזהה 95%+ מהטקסט. סריקה מטושטשת או כתב יד — OCR יחזיר חלקית, ויסומן ככזה בתוצאות החיפוש כדי שלא תסתמך עליו אקראית.

כמה זמן לוקח חיפוש על תיק של 1,000 עמודים?

פחות מ־2 שניות. האינדוקס נעשה פעם אחת בעת ההעלאה (כדקה ל־100 עמ׳), ואחרי זה כל חיפוש מיידי. גם חיפוש סמנטי, שדורש קצת יותר עבודה, חוזר תוך פחות מ־3 שניות בתיק רגיל.

תקליד "מוחמד אבו־חאלד" בתיק 4217/26

5 תוצאות מ־3 גורמי חקירה שונים, בכתיבים שונים, מחולקות לפי סוג ההתאמה. בלי הרשמה. אפשר גם לקרוא איך מארגנים תיק של 1,200 עמ׳ על אותו תיק.

לדמו ←

חיפוש על PDF עברית — למה Ctrl+F לא עובד ומה כן

ארבע הסיבות ש־Ctrl+F בעברית מתסכל

1. סריקה במקום טקסט

2. ניקוד מתלבש על אותיות

3. כתיב מלא מול חסר, אחיד מול לא־אחיד

4. גרשיים, מרכאות וצורות סוף

שלוש שכבות של חיפוש שבאמת עובד

שכבה 1 · חיפוש טקסט מנורמל

שכבה 2 · התאמת ישויות

שכבה 3 · חיפוש סמנטי

איך זה נראה על תיק 4217/26

מתי זה לא שווה

שאלות נפוצות

מה ההבדל בין חיפוש סמנטי לחיפוש טקסטואלי?

האם החיפוש עובד על סריקות באיכות נמוכה?

כמה זמן לוקח חיפוש על תיק של 1,000 עמודים?

תקליד "מוחמד אבו־חאלד" בתיק 4217/26

תיק חקירה של 1,200 עמודים — איך מארגנים?

ארבע הסיבות ש־Ctrl+F בעברית מתסכל

1. סריקה במקום טקסט

2. ניקוד מתלבש על אותיות

3. כתיב מלא מול חסר, אחיד מול לא־אחיד

4. גרשיים, מרכאות וצורות סוף

שלוש שכבות של חיפוש שבאמת עובד

שכבה 1 · חיפוש טקסט מנורמל

שכבה 2 · התאמת ישויות

שכבה 3 · חיפוש סמנטי

איך זה נראה על תיק 4217/26

מתי זה לא שווה

שאלות נפוצות

מה ההבדל בין חיפוש סמנטי לחיפוש טקסטואלי?

האם החיפוש עובד על סריקות באיכות נמוכה?

כמה זמן לוקח חיפוש על תיק של 1,000 עמודים?

תקליד "מוחמד אבו־חאלד" בתיק 4217/26

מאמרים קשורים

תיק חקירה של 1,200 עמודים — איך מארגנים?