לדף הכניסה של ישרא-בלוג
לדף הראשי של nana10
לחצו לחיפוש
חפש שם בלוג/בלוגר
חפש בכל הבלוגים
חפש בבלוג זה
 

בסוף הכל מסתדר !


בלי נושא מוגדר, בלי אופטימיות ופסימיות. תמיד כשצריך את חוק מרפי, הוא לא פועל. ובעיקר, לא משנה מה, בסוף הכל מסתדר. באמת. ואם לא הכל הסתדר, אז סימן שהסוף עדיין לא הגיע.
Avatarכינוי: 

בן: 47





מלאו כאן את כתובת האימייל
שלכם ותקבלו עדכון בכל פעם שיעודכן הבלוג שלי:

הצטרף כמנוי
בטל מנוי
שלח

RSS: לקטעים  לתגובות 
ארכיון:


 
הבלוג חבר בטבעות:
 
12/2017

כפתור ימני על האינטרנט - שמור


לא קל לגבות את האינטרנט. יש את ה Way-Back Machine ששומר עותקים בנקודות זמן שונות של המוני אתרים, כולל כמה ישראלים, אבל בגדול, התוכן של האינטרנט פזור ועצום מכדי לעקוב. ביוטיוב כל שניה אנשים מעלים כ 100 שעות וידאו. לא נספיק לצפות בהכל.

בימים האחרונים גיביתי את הבלוג שלי, ואז בלוגים שאהבתי, ואז הצטרפתי לכמה אנשים טובים בנסיון מטופש, אוילי ועצום לשמור עותק מקומי של כל הבלוגים, עם כל הפוסטים, כולל תגובות (אבל לא כולל תמונות).

זה לא משום סיבה מסחרית.

זה כי אם לגוגל יהיה עותק אחרי שהכל יסגר (כנראה), אז למה שגם לנו לא יהיה?

כי ישרא הוא אתר מופלא ואבן דרך.

אז כתבתי סקריפט, שכללתי וקיבלתי פידבקים. חילקנו את העבודה והתחלנו לרוץ.

כרגע יש כ 870 אלף מספרי בלוגים בישראבלוג.

לא כל המספרים תפוסים, להיפך. מרביתם ריקים ובחלקם קיים בלוג ללא פוסטים.

מכיוון שיריב נהג למחוק בלוגים לא פעילים בזמנו, הרבה בלוגים נעלמו עם הזמן. ב 300,000 המספרים הראשונים יש כ 5% עם בלוגים פעילים. זה עדיין 15,000 בלוגים, חלקם עם מאות פוסטים ואלפי תגובות. בהמשך, אחוז הבלוגים עולה ומגיע גם ל 40% מהמספרים לפעמים.

הרעיון היה לנסות לשמר גם את המראה הכללי של הבלוגים, אבל אי אפשר היה להתמודד עם נפח התמונות. אז תמונות נשארו בחוץ.

במשך ימים ולילות המחשב שלי רץ על טווחים של בלוגים, בדרך כלל בין 5000 ל 10000 מספרים כל פעם, עם כ 10 תהליכים שרצים במקביל.

לא רציתי להעמיס מדי על השרתים, אז הכל היה טורי. זה גם עזר לייצר טבלאות metadata על הפוסטים. אני עוד אייצר גרפים יפים עם פיזור הפוסטים למשל.

מתישהו.

בזמן שהסקריפטים רצים על המחשב בחלונות נפרדים, כל שורה מראה כותרת של פוסט. לפעמים היו כותרות מסקרנות ואז נכנסתי לבלוג, כדי לראות ולקרוא. בלוגים שממש עניינו אותי גיביתי עם התמונות לחוד, לקריאה בעתיד.

זו מטלה לא פשוטה. שנים על גבי שנים של תוכן, אנשים שופכים מדם ליבם. איכות הכתיבה לרוב מצוינת ומסקרנת. אני כבר מספיק מנוסה כדי לברור את הפוסטים הטובים יותר.

בלוגים בעלי תבנית היוו אתגר רציני יותר, אבל בעזרת כמה regex שימושיים הצלחתי להתגבר גם עליהם.

אבל לקראת סיום הגיבוי, התגלה באג בתוכנה שלי.

הבאג היה חמור. מסתבר שהבלוגים לא גובו במלואם, כמו שרציתי, אלא חלק מהפוסטים (אלו, האחרונים בחודש) נשכחו ונותרו על השרת.

כבר היה גיבוי של רוב החומר, אבל הוחלט שאין מנוס, צריך להשלים מה שחסר וזה אומר - להריץ הכל מחדש.

התאמתי את הסקריפט כך שיתקן את הבאג, מנעתי ממנו להוריד מה שכבר ירד, אלא רק את מה שחסר, והופ, האנשים המדהימים שהתנדבו לעזור התחילו הכל מהתחלה, כשכולם יודעים שהזמן דוחק.

והשעון מתקתק.

והבלוגים רצים על המסך.



* הזכויות על התכנים עדיין של בעלי הבלוגים, אף אחד לא יכול לקחת זאת מהם. אני מציין כי כבר שאלו אותי. אין לי שום תכניות לעשות עם התכנים האלו משהו מסחרי כלשהו. ממש לא. ערך אקדמי בלבד. אני פשוט מעריך שיש סיכוי לא קטן שמרגע שהשאלטר ירד על השרתים, בסיס הנתונים יאבד.

 

נכתב על ידי , 28/12/2017 17:16  
11 תגובות   הצג תגובות    הוסף תגובה   הוסף הפניה   קישור ישיר   שתף   המלץ   הצע ציטוט
תגובה אחרונה של הבלוג האחרון בישראבלוג ב-2/1/2018 19:03
 



גיבוי הבלוג - למתקדמים


לפני סגירה,

אמנם גיביתי כבר את הבלוג שלי, בפעם הקודמת שהיה חשש לסגירה, אבל הפעם רציתי לנסות לבצע גיבוי רציני יותר שישמר כמה שיותר ממאפייני הבלוג וייצור ארכיון אמיתי.

 

שימו לב, זה הרבה יותר טוב מגיבוי רגיל!

 

אז ראשית - גיבוי התכנים.

 

מנגנון הגיבוי לצערי הרב לא משמר את המידע בצורה מסודרת, אלא בעיקר זורק את התוכן בערבוביה.

כדי לגבות את הבלוג על פי שנים, עם תגובות, צריך להשתמש בקישור הבא, ורק לשנות את השנה ב URL בכל פעם. (בשני מקומות, שימו לב)

http://israblog.nana10.co.il/edit/backup_this.asp?FromDay=1&FromMonth=1&FromYear=2003&ToDay=31&ToMonth=12&ToYear=2003&DocType=html&IncludeComments=on

(אם לא מופיע כלום, ודאו שאתם מחוברים לחשבון ובנוסף, שאכן יש תוכן בשנים שנבחרו.

לאחר שהדף עם התכנים מופיע, שומרים את הדף (כפתור ימני, save as, בוחרים web page - complete) בתיקיה נקיה על המחשב (תיקיית israblog) כשבתור שם מכניסים את השנה (חשוב, למען הסדר הטוב) ואז עוברים לשנה הבאה, עד 2017.

 

בסיום התהליך, תהיה לכם תיקיה שבה קבצי html ותיקיות על פי שנה.

 

זה הזמן לוודא שאכן שמרתם את כל השנים ולא פספסתם אף שנה.

 

גיבוי עיצוב הבלוג

 

גם לעיצוב הבלוג הנוסטלגי יש חשיבות בעיני. כדי לגבות את העיצוב, הולכים לדף כלשהו בבלוג (עדיף הדף הראשי של הבלוג) ושומרים באמצעות לחיצה על הכפתור הימני, save as ובפורמט complete.

חשוב מאד: לקובץ יש לקרוא template.html

 

אני נתקלתי בבעיות קלות בשמירת ה template שלי, בעיקר כי היו שם רכיבי פלאש ישנים שכבר לא פעלו.

שימו לב שרצוי לנטרל את כל המנגנונים שחוסמים פרסומות וכו׳, כדי לשמור כמה שיותר רכיבים.

 

גיבוי לפורמט וורד

 

אני לא אוהב את הפורמט הזה, אבל כגיבוי לגיבוי ורק כי אולי משהו שם יהיה שימושי, אני ממליץ לשמור גם גיבוי בפורמט הזה.

 

בסיום כל הגיבויים, אמור להיות לכם משהו דומה לזה:

 


 

עיבוד והמרת התוכן למשהו מסודר יותר

 

מתישהו, מזמן, כשיריב התלבט לאיזה פורמט לכתוב מנוע גיבוי, הפצרתי בו לאפשר ייצוא ל xml. זה היה לפני ש json היה נפוץ, והיה חוסך לי את השלב הזה, או לפחות הופך אותו לקל בהרבה.

כדי להמיר את קבצי ה html לפורמט מסודר יותר, אשב עכשיו לכתוב סקיפט פייתון שינסה:

- לזהות בהצלחה את הקטעים השונים

- לייצר קובץ xml יחיד שמכיל את כל הפוסטים (אני בד״כ מעדיף JSON, אבל כשמדובר בפוסטים עם הרבה שורות, עיצוב, תוכן וכו׳, מוטב XML)

- לנקות את ה template ששמרנו קודם.

 

בהמשך, אני מקווה שניתן יהיה:

- להציג את הפוסטים בתוך ה template עם אפשרות ניווט בין פוסטים.

- אולי לאפשר המרה אונליין מבלי שיהיה צורך להתקין פייתון במחשב מקומית.

 

לצורך כך פתחתי מיני פרויקט ב github, בקישור הזה:

https://github.com/eliramk/israblog

 

אני שומר ומפרסם כרגע את הפוסט הזה, מכיוון שאת השלבים של הגיבוי ניתן יהיה לבצע רק לפני הסגירה המתוכננת. אעדכן בקרוב לגבי השלבים הבאים.קול

נכתב על ידי , 12/12/2017 12:08  
הקטע משוייך לנושא החם: סוגרים את ישרא-בלוג
16 תגובות   הצג תגובות    הוסף תגובה   הוסף הפניה   קישור ישיר   שתף   המלץ   הצע ציטוט
תגובה אחרונה של אנונימי ב-4/10/2018 11:00
 





412,445
הבלוג משוייך לקטגוריות: החיים כמשל , 30 פלוס , פילוסופיית חיים
© הזכויות לתכנים בעמוד זה שייכות לאלירם אלא אם צויין אחרת
האחריות לתכנים בעמוד זה חלה על אלירם ועליו/ה בלבד
כל הזכויות שמורות 2018 © נענע 10 בע"מ